개인정보보호, 소프트웨어 정책
2017년 사라질 7가지 빅데이터 기술
하둡의 발표와 함께 빅데이터가 이슈를 받으며 성장한지도 어느덧 수년되었다. 그러다 보니, 과거의 기술에 대하여 대체 가능한 기술들이 나타나고 있다.
교체를 고려해야 할 기술
1. 맵리듀스(MapReduce)
맵리듀스를 ‘부분 집합’으로 간주할 수 있는 가장 흔한 DAG(Directed Acyclic Graph) 기술 등 선택할 수 있는 알고리즘들이 나타났다.
맞춤형 맵리듀스 작업을 많이 적용했다면, 스파크(Spark)와의 성능 차이만으로도 교체에 수반되는 비용과 노력이 과다고 할 수 없을 것이다.
2. 스톰(Storm)
스파크의 스트리밍 지원으로 에이펙스(Apex)와 플린크(Flink) 등 성능과 레이턴시가 스톰보다 우수한 스파크 대안들이 존재한다.
3. 피그(Pig)
처음에는 피그가 빅데이터에 꽤 좋은 ‘PL/SQL’로 보일지 모르겠으나 스파크 등 완벽한 대안 기술이 나타나고 있다.
4. 자바(Java)
빅데이터 용으로는 신택스(syntax)가 무겁우며, 람다(Lambda)와 같은 새로운 아키텍처가 복잡하게 결합되어있어 성능에 부담을 주고있다. 빅데이터의 상당 부분이 스칼라(Scala)와 파이썬(Python)으로 이동하고 있어 파이썬 라이브러리가 필요하거나, 파이썬 개발자가 많을 때 탈 자바를 고려하여야한다.
물론 통계에 R을 이용할 수도 있다. 그러나 R의 스케일 기능이 미흡하기 때문에 파이썬으로 고려하여야 한다.
5. 테즈(Tez)
테즈는 또 다른 호튼웍스의 펫 프로젝트로 DAG를 구현한 기술이다. 그러나 스파크와 다르게 호튼웍스 배포판의 경우 테즈와 하이브(Hive), 다른 도구를 이용할 수 밖에 없을 것이다. 그러나 아마 다른 배포판에서는 스파크 엔진을 이용하고 있을 수도 있다.
테즈는 특정 한 벤더의 프로젝트로서 다른 기술이나 커뮤니티의 지원을 받지 못한다. 또한 다른 솔루션에서는 찾아볼 수 없는 큰 장점도 보이지 안는다.
6. 우지(Oozie)
스트림셋(StreamSet), DAG 구현 기술 등 이 우지의 대부분 기능을 대신해 줄 수 있다.
7. 플룸(Flume)
스트림셋과 카프카(Kafka) 등 플룸의 대안이 될 수 있는 솔루션이 많다.
대체기술이 나타나면 사라질 기술
1. 하이브(Hive)
하이브는 최소 수준에서나마 성능을 충족하는 분산형 데이터베이스다. RDBMS들이 40년 동안 최고 기술임을 입증했다면, 하이브의 등장은 충격이라고할 수 도있다.
2. HDFS
자바의 메모리 관리 능력 때문에 속도가 시스템의 성능을 떨어트리며, HDFS 네임노드(NameNode)의 병목을 발생으로 여러 벤더가 이를 개선하기 위한 노력을 기울였다.
이제는 MapR-FS와 같은 또 다른 분산형 파일 시스템들이 존재하며, 글러스터(Gluster) 같은 기술도 있다.