개인정보, 데이터, 정보화

하둡에 적용할 알고리즘의 이해

0 7,133

빅데이터를 분석하기 위하여 하둡(Hadoop)의 분산처리 지원은 수집, 저장에서 유용하나 분석시 분산처리를 적용할 경우 해당 알고리즘의 구조가 분산처리를 하여도 정보의 왜곡이 발생하는가를 검토하여야 한다. 분석 시 적용하는 알고리즘이 분산처리가 가능한 알고리즘이 있고 분산처리를 할 수 없는 알고리즘이 있다.

우리가 산술식을 처리하는 데있어 [그림 1]과 같이 단일처리시에는 수식을 어떻게 계산하든 결과값에 영향을 받지 않으나 [그림 2]와 같이 맵-리듀스를 이용한 분산병렬처리를 하는 경우에는 수식을 어떻게 적용하느냐에 따라 그 결과 값이 상이하게 나타날 수 있다.

 

sw-bigdata-ag-va1

[그림 1] 단일처리방법의 알고리즘 결과

아래 [그림 2]는 통계량의 분산(Variance)를 구하는 수식의 구현 방식에 따라 그 값이 상이하게 나타나는 것을 보여주는 간단한 예시이다.

sw-bigdata-ag-va2

[그림 2] 분산처리방법의 알고리즘 결과

그러므로 분산처리가 불가능한 알고리즘을 분산처리방식으로 수행하면 전혀 다른 결과 값이 나오며, 그 결과를 서비스로 제공하게 되면 정보에 대한 왜곡이 발생하게 된다.

위 자료는 분산처리를 적용하여 정보를 분석하는데 있어 구현방식에 따라 결과값의 왜곡이 발생하게 되는 경우를 설명하는 예시이다.


붙임자료

PCIS_빅데이터와_알고리즘_2013.0827


 

이 웹 사이트에서는 사용자 환경을 개선하기 위해 쿠키를 사용합니다. 우리는 당신이 괜찮다고 생각하겠지만, 당신이 원한다면 거절할 수 있습니다. 동의 더 읽기