개인정보, 데이터, 정보화

빅데이터의 데이터 유형 및 구조 분류체계

0 11,571

빅데이터의 데이터 유형 및 구조 분류체계

빅데이터의 데이터 분류는 데이터 유형에 따른 “데이터 유형 분류체계”와 데이터의 저장 구조에 따른 “데이터 구조 분류체계”로 정의한다.

 

유형에 따른 분류

빅데이터를 분류하는데 있어 빅데이터의 유형에 따른 분류는 IBM과 UNECE(유엔유럽경제위원회)가 분류한 ‘자료출처’ 및 ‘자료유형’ 기준 참조하여 다음과 같이 정의할 수 있다.

빅데이터의 자료유형에 따른 분류
빅데이터의 자료유형에 따른 분류

 

빅데이터는 생산 주체에 따라 프로세스에 의해서 생성되는 프로세스 생성, 각종 기기에 의하여 생산되는 기계 생산 및 사람에 의하여 생산되는 사람생성으로 구분할 수 있다. 생산주체에 따라 자료가 생성되는 출처에 따라 다음과 같이 데이터 유형 분류군을 세분화할 수 있다.

데이터 유형 분류 설명
프로세스 생성 •기관 및 기업의 정보시스템이 생성
업무 활동 •업무 및 고객 서비스 등 업무 활동
기계 생성 •의료장비, 생산설비 및 각종 센서가 생성
생체 활동 •의료장비, 신분인식기 등으로 생성된 신체에 관한 생체 활동
측정 활동 •기상, 환경, 위치, 가전 등 기기 장치 및 개인장치(스마트폰 등) 센서의 측정 활동
사람 생성 •온라인 및 오프라인에서 사람이 생성
지식 활동 •기관의 지식 정보 및 논문, 문서, 미디어 등 지식 활동
웹/SNS 활동 •웹 검색 및 웹 게시글, SNS 게시글 등의 활동

앞서 분류된 데이터 유형분류체계에 의하여 메타데이터, 기준데이터, 로그데이터, 거래데이터, 분석데이터, GIS(공간)데이터, 문서데이터, 미디어데이터, 센서데이터, 활동데이터 등 10개의 데이터 유형으로 분류할 수 있다.

 

빅데이터의 유형 분류 체계

자료유형 설명 예시
메타 데이터

(Meta data)

•테크니컬 메타: 데이터 관리를 위한 대상이나 항목으로 데이터 구조, 데이터 표준, 데이터 흐름, 데이터 권한 등에 관한 데이터 •데이터셋의 물리/논리명, 항목의 물리/논리명, 데이터형식, 업무규칙, 표준사전, 표준도메인 등
•비즈니스 메타: 데이터를 활용하기 위하여 파악해야 할 대상이나 항목으로 데이터를 설명하는 데이터 •설명, 생성주기, 출처, 주제영역, 활용영역, 품질수준, 연관정보, 위치정보 등
기준 데이터

(Master data)

•업무 프로세스의 기준이 되는 데이터 및 참조데이터(Reference data : 데이터의 값이 참조하는 코드 데이터) •제품정보, 고객정보, 사업자정보 등

•지역코드, 성별코드, 학력코드 등

거래 데이터

(Transaction data)

•기업이나 기관의 고유한 업무활동 및 서비스에 의하여 생성되는 데이터 •신용/직불카드 및 금융 거래 자료, 유통업체 자료
분석 데이터

(Analytics data)

•집계 데이터 및 분석을 통하여 결과로 생성된 데이터 •지역별/업종별 매출현황, 서울 인구이동 분포, 종로 상권분석 등
GIS 데이터

(GIS data)

•GIS 시스템에 의하여 생성한 공간 정보(벡터(Vector), 래스터(Raster) 데이터)와 속성정보로 구성된 데이터 •행정구역도, 지하매설물도, 농경지지도, 산림도, 정사영상, 위성영상, 항공영상 등
로그 데이터

(Log data)

•시스템이 생성한 Log 데이터 및 인터넷 검색 및 페이지뷰 인덱싱 데이터 •시스템 로그, 웹 로그 등
센서 데이터

(Sensor data)

•추적장치정보(Tracking device data)를 포함한 각종 센서를 통하여 생성되는 데이터 •위치, 기상, 수질, 대기, IoT, 교통 등
문서 데이터

(Document data)

•문서작성기로 생성한 문서 데이터(고유의 저장형식을 가짐) •일반문서, 논문, 보고서 등
미디어 데이터

(Multimedia data)

•사진, 영상, 음성 등 미디어 데이터 •사진, 영상, 음성 등
활동 데이터

(Online behavior data)

•의견정보(Opinion data), 웹 검색정보 등을 포함한 온라인 상에서 생성된 데이터 및 분석을 위해 가공된 데이터 •이메일, 카카오톡, 트위터, 댓글, 상품평, 이용후기 등 공개 자료

구조에 따른 분류

빅데이터의 데이터 저장구조에 따른 분류는 컨텐츠 형식에 따라 ‘정형’, ‘반정형’, ‘비정형’으로 분류되며, 저장유형에 따라 ‘구조(structured)’, ‘반구조(semi-structured)’, ‘비구조(unstructured )’로 분류할 수 있으며, 이를 세분화하면 관계구조(Entity-Relationship), 키-값구조(Key-Value), 컬럼패밀리구조(Column Family), 그래프 구조(Graph), 문서 구조(Document), 비구조(Non Structure) 등의 6개 데이터 구조로 분류하여 데이터 구조분류체계로 정의할 수 있다.

빅데이터의 자료구조에 따른 분류
빅데이터의 자료구조에 따른 분류

 

 

빅데이터의 구조 분류 체계

컨텐츠형식 자료구조 설명
정형 •미리 정해 놓은 형식과 구조에 따라 저장되도록 구성된 컨텐츠
구조 •미리 정해진 데이터의 형식과 구조를 가지고 있는 데이터
관계구조 (Entity-Relationship) •객체간의 관계가 정의된 구조로 전통적 데이터베이스(RDB)
반정형 •데이터의 형식과 구조가 변경될 수 있는 컨텐츠
반구조 •데이터의 구조 정보에 대한 메타데이터를 포함하고 있는 데이터
키-값 구조 (Key-Value) •Key와 Value로 구성된 구조
컬럼 집합 구조 (Column Family) •하나의 Key에 여러 Column 속성으로 구성된 구조
그래프  구조 (Graph) •정보간의 연결 관계를 가지는 구조
문서 구조 (Document) •JSON, XML과 같이  값과 구조가 같이 정의된 구조
비정형 •특정한 자료구조형식을 갖추지 않은 컨텐츠
비구조 •정의된 구조가 없이 정형화되지 않은 데이터
비 구조 (Non Structure) •수집데이터가 데이터 객체로 구분되어 파일 시스템에 저장되는 구조로 이미지, 영상, 문서와 같은 비정형 자료

 

참고자료 : 빅데이터의 분류

빅데이터 분류 (Big Data classification, IBM, 2013)

IBM Introduction to big data classification and architecture, IBM, 2013

빅데이터 분류 (Classification of Types of Big Data developed by UNECE, 2015)
Classification of Types of Big Data developed by 유엔유럽경제위원회(United Nations Economic Commission for Europe, UNECE) (source: De Francisci, 2015, p. 16).

 

빅데이터의 분류
I. A. T. Hashem, I. Yaqoob, N. B. Anuar, S. Mokhtar, A. Gani, and S. U. Khan, “The rise of ‘big data’ on cloud computing: Review and open research issues,” Inf. Syst., vol. 47, pp. 98–115, 2015.

이 웹 사이트에서는 사용자 환경을 개선하기 위해 쿠키를 사용합니다. 우리는 당신이 괜찮다고 생각하겠지만, 당신이 원한다면 거절할 수 있습니다. 동의 더 읽기