본문 바로가기

빅데이터

빅데이터 3V, 5V, 7V 빅데이터란?빅데이터가 등장하기 전에는 DBMS(DataBase Management Systme)이 있었습니다.이 DBMS의 한계로 인해 등장한 것이 빅데이터입니다. DBMS의 한계에는 뭐가 있을까요?여러 한계가 있겠지만, DBMS는 대표적으로 아래의 한계들이 있습니다.1. 확장성의 문제 - DBMS는 성능 증가를 위해 수직 확장(Scale-up)을 해야 합니다.2. 비정형 데이터 처리 어려움 - DBMS는 정형 데이터 처리에 최적화 되어있습니다.3. 실시간, 고속 데이터 처리의 어려움 - DBMS는 대규모 스트리밍 데이터 처리시 병목 현상이 발생할 수 있습니다.4. 라이선스 비용 문제 - Oracle과 같이 고성능의 DBMS를 상업에서 사용하기 위해서는 라이선스 비용을 지불해야 합니.. 더보기
하둡 0. 개요하둡은 하나의 성능 좋은 컴퓨터 대신, 적당한 성능의 범용 컴퓨터를 클러스터로 구성하여 병렬 분산처리 하는 오픈소스 프레임워크입니다.주요 구성 요소에는 HDFS, YARN, MapReduce 등이 있습니다.특히 하둡은 버전에 따라 변경사항이 많기 때문에 각 버전의 대표적인 특징을 설명하겠습니다.1. 하둡 v1v1 버전에서는 하둡의 기본 아키텍처가 정립되었습니다.분산저장은(HDFS)는 네임노드(Namenode)와 데이터노드(Datanode)가 담당합니다.병렬처리(MapReduce)는 잡트래커(JobTracker)와 태스크트래커가(TaskTracker) 담당합니다.v1 버전에서 잡트래커에 큰 문제가 있습니다. 잡트래커가 클러스터의 자원관리 및 애플리케이션 라이프사이클 관리 모두 담당했습니다. 이로 .. 더보기