개인정보, 데이터, 정보화

하둡에 도전하는 HPCC

0 7,247

빅데이터라는 표현이 나오면 항상 따라오는 말이 바로 하둡(Hadoop)이다. 막대한 양의 데이터를 접속 가능하게 만든 기술이 바로 오픈소스 아파치 하둡 프로젝트(Apache Hadoop project)에 기반한 것이었기 때문이었다.

외부에서 들여다보면, 하둡이 곧 빅 데이터이고, 빅 데이터가 곧 하둡처럼 보이기도 한다. 이 둘 가운데 하나가 빠지면 안될 것 같이 보이는 것이다. 그러나 하둡보다도 여러 가지 면에서 더욱 성숙되고 기업에 적합한 경쟁자가 엄연히 존재한다. 바로 고성능 컴퓨팅 클러스터(High Performance Computing Cluster, HPCC)다.

데이터 서비스 업체 렉시스넥시스(LexisNexis)의 자회사인 HPCC 시스템(HPCC System)은 2000년대 초반부터 15억 달러 규모의 ‘서비스로의 데이터’(data-as-a-service: DaaS) 를 도맡아왔다.

하둡처럼, HPCC는 아파치 2.0 라이선스하의 오픈소스이며 무료로 이용할 수 있다. 두 모두 상품 하드웨어와 IP 네트워크를 통해 상호 연결된 로컬 스토리지를 활용하여 아키텍처에 걸쳐 병렬 데이터 프로세싱과 쿼리를 할 수 있게 해준다.

렉시스넥시스 정보 보안 부회장이자 HPCC 시스템 이니셔티브의 수장인 플라비오 빌라누스트레에 따르면 여기까지가 하둡과 HPCC의 공통점이다.

HPCC가 하둡보다 더 성숙했고 똑똑한가?

HPCC는 12년 이상 생산적으로 활용되어 왔음에도, HPCC 오픈소스 버전(HPCC open source version)이 이용가능해진 것은 겨우 일년 남짓에 불과하다. 반면 하둡은 원래 구글에서 로그파일을 분석하기 위해 규합한 너치 프로젝트(Nutch project)의 일부였고, 2006년부터는 빅 데이터 프로젝트의 사실상 표준이 되었다. 이전까지는 자체 아파치 프로젝트도 아니었음에도 불구하고 그렇다.

그리고 그 결과 HPCC의 60여 기업 이용자들을 수적으로 크게 앞서기 시작했다. 아울러 하둡은 수백만 명이 참여하는 오픈소스 커뮤니티와 선도적인 위치의 이점을 취하려고 속속 등장하는 전체 신생 기업 생태계를 등에 업고 있다.

그러나 HPCC는 C++에 기반한 기업 제어 언어(enterprise control language, ECL)라는 고급 프로그래밍 언어를 사용하는 성숙한 기업 전용 패키지다. 하둡의 자바(Java)와 비교되는 대표적인 특징이다. 이로 인해 HPCC가 하둡에 비해 사용 편이성은 물론 백업과 제작 복구에 있어서도 유리하다고 빌라누스트레는 말했다.

빌라누스트레에 따르면 운영체제상에서 C++가 네이티브로 실행되기 때문에 HPCC의 속도가 향상되는 반면, 자바는 실행에 있어서 자바 가상 머신(Java virtual machine, JVM)을 필요로 한다.

또한 HPCC는 더욱 미션-크리티컬한 기능성을 보유하고 있다고 포레스터 리서치 부회장이자 애플리케이션 개발과 딜리버리 수석 분석가 보리스 에벨슨은 설명했다.

에벨슨에 따르면 HPCC 사용의 역사가 훨씬 길기 때문에, HPCC에게는 하둡에 없는 보안, 복구, 감사, 준수 등의 레이어를 가지고 있다. 또 검색 중 잃은 데이터도 완전히 없어지지 않는다. 테라데이타와 같은 전통적인 데이터 웨어하우스처럼 복구가 가능하다.

상대적으로 이는 하둡에게는 단점이다. 시만텍(Symantec) 빅 데이터 선임 관리자 랙스 스리니바산은 이런 단점에 대해 2012년 5월 블로그 포스트에 기업 하둡의 문제를 다루며 다음과 같이 기술했다.

“하둡 클러스터를 위한 신뢰할 수 있는 백업 솔루션이 존재하지 않는다. 3개의 복사본을 저장하는 하둡의 방식은 백업과 같지 않다. 아카이빙이나 특정시간 복구도 제공되지 않는다.”

하지만 위키본의 빅 데이터 애널리스트 제프 켈리는 다소 관점이 다르다. 비록 하둡이 이런 분야에 성숙도가 떨어지지만, 생산 환경에 사용할 의도로 나온 것이 아니기 때문에, 이런 차이점들이 현재로선 그리 중요하지 않을 수 있다는 설명이다.

켈리에 따르면, 하둡은 막대한 양의 데이터에서 연관성을 찾아내어 이전까지는 관련짓기 어려웠던 데이터 요점들을 이어주는데 사용된다. 이런 요점들이 드러난 후, 데이터는 종종 좀더 전통적인 비즈니스 인텔리전스 솔루션과 데이터 웨어하우스로 옮겨져 심도 있는 분석에 들어가게 된다.

켈리는 “현재 하둡은 대규모 중간 대기 구역으로 가장 널리 사용되고 있다”라며 “근본적으로, [하둡은] 많은 양의 다중-비구조적 데이터에 구조를 더해주는 플랫폼으로, 그 데이터가 관게적 형식의 데이터베이스 기술로 분석될 수 있게 해주는 역할을 한다”라고 말했다.

ECL: 드래그-앤-드롭 인터페이스를 가진 고급 쿼리 언어

빌라누스트레는 ECL이 SQL같은 고급 쿼리 언어와 아주 유사하다는 것이 또 다른 주요 이점이라고 말했다. 마이크로소프트 엑셀에 통달했다면, ECL을 배우는데 전혀 어려움이 없을 정도다.

쿼리 개발은 HPCC가 드래그-앤-드롭 인터페이스를 사용해 쿼리를 만들 수 있게 해주는 오픈소스 케틀 프로젝트(Kettle project)에 의해 더욱 간단해졌다. 이런 이점은 하둡의 피그(Pig)나 하이브(Hive) 쿼리 언어에서는 아직 누릴 수 없다.

빌라누스트레는 HPCC는 실제적 질문에 대답할 수 있도록 설계됐다고 강조했다. 하둡은 이용자들이 찾은 각각의 변수들마다 따로 쿼리를 준비해야 하지만 HPCC는 그러지 않아도 된다.

빌라누스트레는 “ECL은 서술적이라는 점에서 좀 SQL같은 면이 있기 때문에, 컴퓨터에게 어떻게 할지를 이야기하기보다 무엇을 원하는지 말하면 된다”라며, 반면 피그와 하이브는 꽤 원시적이라 할 수 있다고 설명했다.

그는 이어 “피그와 하이브는 프로그래밍, 유지, 확장, 코드 재사용 모두 상당히 까다로운데, 이는 컴퓨터 언어의 특성에 배치되는 측면이 있다”라고 덧붙였다.

하둡의 장점, 확장성, 유연성, 저비용

그러나 클라우데라(Cloudera)의 제품 부회장 찰스 제들류스키는 이런 관점에 동의하지 않는다. 이베이(eBay), 셰브론(Chevron) 노키아(Nokia)같은 다양한 회사들에 턴키식으로 하둡 구현을 제공하는 클라우데라는 하둡 관련 기업들 가운데서도 가장 인지도가 높고 성공적인 업체다.

제들류스키는 “사실 오늘날의 하둡에게는 이전까지의 데이터 관리 시스템보다도 더 넓은 범위의 최종사용자들의 구미를 맞출 수 있는 능력이 있다. 그리고 이 점이 언제나 하둡의 강점이었다”라며, “하둡이 우수한 3가지 분야를 꼽자면, 확장성, 유연성, 저렴성을 들 수 있다”고 말했다.

제들류스키의 주장을 정리하면 다음과 같다 : 유연하고 튼튼함은 물론, 저비용이 바로 많은 이들을 하둡에 관심을 가지게 했다. 그러나 하둡이 별도의 하드웨어상에서 실행되기 때문에, 모든 것을 관리해줄 이를 채용하거나 클라우데라같은 서드파티 제공자에게 그 일을 맡겨야 한다. 반면 HPCC는 하둡처럼 하드웨어상에서 실행되면서도, 필요로 하는 상당수의 기능을 곧바로 사용 가능하다.

만약 클라이언트 기업이 엔터프라이즈급 기능성을 제공하는 좀더 강력한 솔루션을 찾고있다면, HPCC를 선택하는 편이 낫다. 반면, 빅 데이터가 무엇인지 느껴보는데 주안점을 둔다면, 하둡이 더 나은 선택이 될 것이다. 하둡 개발자들의 거대한 오픈소스 생태계와 수많은 서드파티 업체들이 그 배후에 있기 때문이다.

한편 제들류스키는 다음과 같이 말했다. “데이터 폭발이 이 모든 것들을 주도하는 큰 트렌드다. 데이터는 무어의 법칙보다도 더 빠르게 증가하고 있어서, 데이터를 다루기 위해 다른 아키텍처와 다른 작업 방식이 필요한 상황이다. 그리고 데이터가 무어의 법칙보다도 빠르게 증가하는 이유는 바로 가정, TV, 전화기, 탑승하는 비행기 등등 더 많은 것들이 컴퓨터에 연결되기 때문이다. 이렇게 다 컴퓨터에 묶이게 되면, 그 모든 것들이 엄청난 속도로 데이터를 쏟아내게 된다.”


소스링크 : HPCC Systems Last Updated 2016-10-04


 

이 웹 사이트에서는 사용자 환경을 개선하기 위해 쿠키를 사용합니다. 우리는 당신이 괜찮다고 생각하겠지만, 당신이 원한다면 거절할 수 있습니다. 동의 더 읽기