2012년 10월 20일 토요일

빅데이터와 하둡 개요

하둡은 구글의 분산파일시스템과 맵리듀스의 오픈소스 구현체이다. 2006년 아파치 검색엔진 프로젝트의 Nutch의 서브 프로젝트로 시작되었으며 창시자는 더그커팅이다. 2007년부터 야후에서는 하둡 창시자의 더그커팅과 주요 오픈소스 개발자들을 고용하면서 하둡 프로젝트에 전폭적인 지원을 하게 되었다.



빅데이터와 하둡빅데이터 처리 기술은 크게 분석인프라, 분석 기술, 표현 기술 등으로 분류해 볼 수 있다.   분석 기술은 데이터를 분석하는 기술과 방법을 의미하며, 통계, 데이터마이닝, 기계학습, 자연어처리, 패턴인식 등이 이에 해당한다.

표현 기술은 일반적으로 데이터 시각화로 알려져 있으며, 분석된 데이터의 특징이나 의미를 쉽게 이해할 수 있도록 잘 표현해 주는 기술이다.

분석 인프라는 분석과 표현을 수행할 수 있도록 해주는 기반 기술과 플랫폼들이라고 할 수 있으며, 이러한 분석 인프라는 다시 대규모 데이터를 안정적으로 수집해서 저장하는 기술, 저장된 것을 효과적이면서도 빠르게 처리할 수 있는 기술, 저장된 데이터를 다양한 방식과 용도로 사용할 수 있도록 가공하고 관리해 주는 기술 등으로 나누어 볼 수 있다.

비즈니스인텔리전스, 데이터웨어하우징, 클라우드 컴퓨팅, 분산 데이터베이스(NoSQL), 분산 병렬처리(하둡 맵리듀스), 분산파일시스템 등이 분석 인프라에 해당하는 기술들이다. 빅데이터 얘기가 나오면 빠지지 않고 나오는 솔루션인 하둡은 빅데이터의 분석 인프라에 속하는 기술로서 대용량의 비정형 데이터를 분석하고 저장하는 데 많이 활용되고 있다. 이미 많은 글로벌 기업들이 분석인프라 기술로 하둡을 사용하고 있으며, 하둡 자체를 솔루션화해서 사업을 하는 기업도 점점 더 늘고 있다. 그 만큼 성능과 안정성이 검증된 기술이라고 할 수 있다.

하둡이 대규모의 비정형 데이터 분석을 배치로 처리하는 데 주로 사용된다고 했는데, 실제 빅데이터 시스템을 구축한다고 하면, 비정형 분석뿐만 아니라, 데이터의 실시간 분석, 정형 데이터 처리, 다양한 분석 알고리즘, 웍 플로우(Workflow), 시각화(Visualization) 같은 기술이 필요하다. 이러한 주요 기술들 중 상당 부분은 이미 다양한 오픈소스 프로젝트의 형태로 개발이 되어서 바로 활용 가능한 수준이며 이러한 기술들의 집합을 하둡 에코시스템 또는 빅데이터 에코시스템으로 표현을 하기도 한다

이러한 빅데이터 생태계에서 하둡의 위치는, 시스템의 운영체제로 생각해 볼 수 있다. 운영 체제만으로는 시스템을 완성하기 힘들다. 하나의 시스템을 구축하기 위해서는 운영체제 외에도 개발환경도 있어야 하고 다양한 도구와 라이브러리들도 필요하다. 이러한 다양한 도구와 라이브러리들이 하둡 에코시스템의 솔루션들이라고 할 수 있다. 지금은 하둡 자체 보다 더 강력한 솔루션으로 발전하고 있는 이러한 에코시스템 기술들을 잘 이해하고 필요 시 활용할 수 있다면, 빅데이터 처리를 위한 준비는 충분히 되었다고 할 수 있다.





댓글 없음:

댓글 쓰기