본문 바로가기

빅데이터

빅데이터 3V, 5V, 7V

빅데이터란?

빅데이터가 등장하기 전에는 DBMS(DataBase Management Systme)이 있었습니다.

이 DBMS의 한계로 인해 등장한 것이 빅데이터입니다.

 

DBMS의 한계에는 뭐가 있을까요?

여러 한계가 있겠지만, DBMS는 대표적으로 아래의 한계들이 있습니다.

1. 확장성의 문제

    - DBMS는 성능 증가를 위해 수직 확장(Scale-up)을 해야 합니다.

2. 비정형 데이터 처리 어려움

    - DBMS는 정형 데이터 처리에 최적화 되어있습니다.

3. 실시간, 고속 데이터 처리의 어려움

    - DBMS는 대규모 스트리밍 데이터 처리시 병목 현상이 발생할 수 있습니다.

4. 라이선스 비용 문제

    - Oracle과 같이 고성능의 DBMS를 상업에서 사용하기 위해서는 라이선스 비용을 지불해야 합니다.

5. 병렬 분산 처리의 미흡

    - DBMS는 기본적으로 단일 서버 또는 클러스터에 기반하여 병렬 처리 기능이 부족합니다.

 

이 문제를 해결하고자 나온 것이 빅데이터이며 3V, 5V, 7V는 빅데이터의 핵심적인 속성을 나타내는 개념입니다.

 

3V

빅데이터 초기에 나온 개념으로 빅데이터의 세 가지 핵심 속성인 Volume, Variety, Velocity를 나타냅니다.

Volume(규모)

DBMS에서 저장할 수 있는 데이터에 비해 더 많은 데이터를 저장할 수 있어야 합니다.

 

컴퓨터 리소스(CPU, Memory)에 사용할 수 있는 비용은 한정될 수 밖에 없습니다.

같은 컴퓨터 리소스를 사용하는데, 더 많이 저장하기 위해서는 어떻게 해야할까요?

 

바로 수평 확장(Scale-out)을 하는 것입니다. 

고가의 컴퓨터 리소스 하나를 사용하는 것 보다, 저렴한 컴퓨터 리소스 여러개를 사용하여 수평 확장하는 것이 같은 비용 대비 더 많은 데이터를 저장할 수 있게 됩니다.

Variety(다양성)

DBMS는 정형 데이터 저장에 최적화되어 있습니다.

하지만 빅데이터는 정형, 비정형, 반정형에 상관 없이 저장할 수 있어야 합니다.

 

정형

규칙 또는 스키마 구조를 가지고 있는 데이터로 연산이 가능합니다. RDB, 스프레드시트, CSV 등이 이에 해당합니다.

비정형

정혀진 규칙이 없으며 연산이 불가능한 데이터입니다. 영상, 이미지 등이 이에 해당합니다.

반정형

정형과 같이 형태가 있지만 연산이 불가능한 데이터입니다. JSON, HTML, XML 등이 이에 해당합니다.

Velocity(속도)

Velocity는 데이터를 생성, 수집, 전달, 처리하는 속도를 의미합니다.

빅데이터 환경에서는 이 속도가 매우 빠르며, 실시간 또는 근실시간 분석이 요구됩니다.

5V

3V가 나온 이후, 실무를 통해 두 가지 Veracity, Value 이/가 추가되었습니다.

Veracity(진실성)

빅데이터 환경에서는 수많은 데이터가 다양한 소스로부터 들어오기 때문에 데이터의 진실성 중요합니다.

잘못된 데이터를 분석하면 잘못된 데이터가 도출될 수 밖에 없기 때문입니다.

Value(가치)

빅데이터를 분석해서 얻을 수 있는 가치를 의미합니다. 데이터를 아무리 빠르고 정확하더라도 의미있는 정보를 추출하지 못한다면 효용성이 매우 떨어지기 때문입니다.

7V

5V가 나온 이후, 빅데이터 도구들이 발전하면서 두 가지 Validity, Visualization 이/가 추가되었습니다.

Validity(정합성)

데이터가 의도한 목적에 맞게 정확하고 타당하게 수집되고 있는지 의미합니다. 단순이 정확성을 넘어서, 데이터 수집의 타당성도 판단합니다. 편향된 데이터 또는 잘못된 설정으로 수집한 데이터는 그 의미가 퇴색, 왜곡될 수 있습니다.

Visualization(가시성)

복잡하고 방대한 데이터를 사람이 이해할 수 있도록 시각적으로 표현해야 합니다. 데이터의 흐름, 패턴, 이상치, 인사이트 등을 한 눈에 파악할 수 있도록 가시성을 확보해야합니다.

'빅데이터' 카테고리의 다른 글

하둡  (0) 2024.08.08