개인정보, 데이터, 정보화

데이터 과학자란

0 5,254

데이터 과학자란 질문은 간단하게 설명할 수있을 것이다. 그러나 이에 대한 대답은 질문자가 누구인지에 따라 꽤 달라질 것이다. 비틀리(Bit.ly)의 수석 과학자 힐러리 메이슨의 표현을 빌어 이 역할에 대한 가장 일반적인 정의를 설명하자면, 데이터 과학자란, 데이터를 획득, 정리, 조사, 계량화, 해석할 수 있는 인물이다.

하이어드 브레인스(Hired Brains) CEO 닐 레이든은 한 발 더 나아가 데이터 과학자를 두 부류로 구분한다.

유형 1: 알고리즘 및 방법론의 연구와 제작, 논문 발표, 커뮤니케이션 참여에 적극적인 진짜 과학자. 이러한 인물은 (구글, 아마존, 월 스트리트와 같이) 새로운 방법론과 알고리즘을 핵심적 요소로 다루는 기관들이나 연구소, 학계에서 만나볼 수 있다.

 

유형 2: 고용 시장에서 보다 자주 만나볼 수 있는 이들이다. 이들은 과학자는 아니지만 현장에 보다 능통한 인물들로, 정량법과 디자인, 테스트, 모델 배치 등의 활동을 이해하고 실행할 수 있는, 그리고 이를 통한 통계적, 수학적 모델링 및 개발 지식을 갖춘 전문가다.

예측 애널리틱스 서비스 공급자 오페라 솔루션즈(Opera Solutions)의 연구 개발 사업부 글로벌 본부장 제이콥 스포엘스트라 역시 일반적으로 데이터 과학자의 영역으로 분류되는 작업과 자신들의 작업을 구분짓고 있다. 오페라 내부에서 ‘데이터 과학자’라 불리는 이들은 기계 학습 수준에서 대량의 데이터 흐름으로부터 예측적 인텔리전스를 발견하고 추출하기 위한 통계 모델과 패턴 인식 알고리즘을 개발하는, 레이든의 분류를 따르자면 1번 유형에 맞는 인물들이다.

이들의 작업을 통해 발견된 패턴은 금융 사기 감소나 부실 모기지 감지 등 비즈니스에 직접적 가치로 전달되고 있다. 스포엘스트라는 구글과 같은 기업들에는 이러한 유형의 데이터 과학자가 수백 명 고용되어 있을 것이라 평가하며 오페라의 경우에는 약 700 명의 직원들 중 1/3 가량이 기계 학습 전문가라 소개했다.

 

탤런트 애널리틱스(Talent Analytics Corp.)의 CEO 그레타 로버츠는 오늘날 데이터 과학자의 역할은 4개의 기능적 범주로 분류되어 이해되고 있다고 설명하고 있다.

이 기관은 데이터 과학자들을 대상으로 그들이 11 개의 애널리틱스 기능들에 얼마 간의 시간을 투자하는지에 관한 설문을 진행해 그들의 역할을 (데이터 획득 및 준비, 분석에 대부분의 시간을 할애하는) 데이터 준비 전문가, (프로그래밍과 일부 분석을 담당하는) 프로그래머, (데이터 관리 및 운영, 제출, 해석, 설계에 집중하는) 관리자, 그리고 이 모든 영역을 두루 다루는 제너럴리스트(generalist) 등 4분류로 나눴다.

로버츠는 “이 결과를 처음 접하고 든 생각은 ‘이 정의에 맞는 사람은 절대 없을 거야, 이게 말이 돼?’라는 것이었다. 모두에게 생소한 역할이었기 때문에 여기에 아무 것이나 다 집어 넣는 모양새였다. 구체화가 지나치면 알맹이는 사라지게 된다. 많은 비즈니스들은 데이터 과학자라는 역할을 하나의 그룹이 담당해야 할 여러 기능들을 홀로 처리하는 것이라 인식하고 있다. 오늘날 데이터 과학자에 대한 공급이 절대적으로 부족한 것 역시 무리가 아니다”라고 말했다.

그는 이어 “하지만 다행스러운 점이라면 데이터 과학자라는 새로운 역할의 대두로 인해 기존에 한 두 가지의 역량을 갖추고 있던 이들에게 새로운 역량을 개발할 동기가 생겨났다는 것이다”라고 말했다.

 

필요한 역량과 자격은?

로버츠의 설명처럼 데이터 과학자에게 요구되는 역량이라 소개되는 목록은 점점 더 늘어가고 있다. 일견 당혹스럽게도 보인다. 가장 빈번히 언급되는 역량들만 열거해보자. 고급 수학, 통계 분석(R, SAS, STATA 등), 프로그래밍(C, C++, C#, 파이썬(Python), 자바(Java) 등), SQL 데이터베이스, 하둡(Hadoop)이나 맵리듀스(MapReduce) 등의 플랫폼, 데이터 마이닝 및 모델링, 데이터 시각화, 창의력, 커뮤니케이션 능력, 그리고 마지막으로 비즈니스에 대한 이해까지, 말 그대로 벅찰 정도로 많다.

데이터 과학자에게 요구되는 역량은 분명 지난 세대의 데이터 애널리스트들에게 요구돼오던 것과는 차이가 있다. 레이든은 “그들이 다뤄야 하는 데이터의 다양성은 이전과는 비교 되지 않는다. 때문에 그들에겐 여러 분석 도구들을 적절히 정렬해야 한다는 과제 역시 강조되고 있다”라고 말했다.

그는 이어서 “데이터 과학자는 프로그래밍 역량뿐 아니라 정량법, 조사 및 모델링 등과 관련한 배경 역시 갖춰야 한다. 또 무수한 데이터 가운데서 의미 있는 것들만을 골라낼 수 있는 능력 역시 중요하다. 효율적인 작업을 위해서는 자신이 적용하는 도구와 방법론에 대한 이해가 부족한 이들에게 문제를 설명해줄 커뮤니케이션 능력과 비즈니스 영역에 대한 이해 지식 역시 갖춰야 할 것이다”라고 설명했다.

라이폴디는 데이터 과학자를 타 애널리틱스 전문가들과 차별화하는 핵심에 대해 데이터가 보여주는 의미와 그에 대한 대응 방안을 제시해 줄 커뮤니케이션 능력이라 말했다. 그는 “원하는 모든 데이터를 제대로 분석할 수 있다 해도, 분석의 결과물을 제대로 표현할 수 없는 이라면 데이터 과학자라 할 수 없다”라고 강조했다.

비즈니스들이 데이터 과학자를 원하는 이유는 이탈 고객 감소나 복수 채널 타겟팅, 금융 리스크 완화 등 선진 비즈니스 전략 시행 과정에 그가 가치를 제공해줄 수 있을 것이라 믿기 때문이라는 사실을 기억하자.

로버츠는 이 요구 역량 사이의 충돌에 관해서도 이야기했다. 그녀는 “몇 날 며칠을 컴퓨터 앞에 앉아서 보내다 어느 순간 벌떡 일어나 유려한 프리젠테이션을 펼친다? 너무나 다른 두 행동 양식이다”라고 말했다. (다양한 기계 학습 영역에 데이터 과학자를 고용하고 있는) 오페라 솔루션즈에서 강조되는 데이터 과학자의 역량이란, 정량법에 대한 배경, 수학 및 통계학적 개념, 이들 개념을 컴퓨터 프로그램 안에 전달할 수 있는 능력, 대규모 데이터에 대한 익숙함, 비즈니스 문제 해결에 대한 흥미 등이 있다.

이 기업의 애널리틱스 본부 글로벌 본부장 조셉 밀라나는 “그가 수학에 대한 친화력과 문제 해결 능력만 갖추고 있다면 기계 학습 알고리즘은 언제라도 교육할 수 있는 부분이다. 응용 수학자이거나 신경망 구축 경험자일 필요 까지도 없다. 핵심은 에너지와 관심이다”라고 강조했다.

어떤 배경이 필요할까?

오페라 솔루션즈에서 뛰어난 성과를 보이는 데이터 과학자들은 대개 높은 교육 수준을 자랑하며, 개중에는 박사 학위를 취득한 사람도 있다.

밀라나는 “기계 학습 과학의 발전과 지속적으로 소개되는 신종 테크닉들을 고려했을 때, 과학자들이 앞서간 교육을 받고 최신 아이디어를 받아들이는 것은 꼭 필요하다”라고 말했다. 다이스 닷컴에서도 데이터 과학자 채용 가운데 절반 이상에서 박사 학위 이상을 요구하고 있다고 실버는 말했다. “없으면 절대 안 되는 건 아니지만, 있으면 큰 가산점을 받을 수 있다”라고 그는 말했다.

오페라 솔루션즈는 컴퓨터 과학, 전기공학, 통계, 기계공학, 물리학 등 다양한 학문의 인재를 골고루 채용한다. 이런 학제간 지식은 아주 유용하게 쓰일 수 있다고 밀라나는 말한다. 예를 들어, 수문학에서 비롯된 공식이 주식 시장에서 쓰이는 경우도 있었다.

그렇지만 대부분 데이터 과학자들에게 있어 박사 학위는 필수적인 사항이 아니며, 경영 분석 및 정량 분석 분야에서 일하는 이들(특히 고급 수학 및 통계 모형 경험이 있는 이들)의 경우에는 빅 데이터 및 예측 모델링과 같은 주요 영역에서 교육 및 멘토링을 제공하는 회사에 취업할 경우 데이터 과학자로서 충분히 제 역할을 해 낼 것이라고 레이든은 설명했다.

로버츠는 특정 기술이나 학문적 성취에 집중하는 것이 지원자의 잠재적 생각을 알아보는 기회가 되기도 한다고 전했다. 그는 “기업들에서 알아보고자 하는 것은 ‘당신은 배움을 즐기는 사람인가?’ 이다. 이를 알아보기 위한 방법은 여러 가지가 있다”라고 말했다.

로버츠는 이어 적성 분석 검사(Talent Analytics survey)에서도 데이터 과학자가 되기 위한 자질로는 호기심, 창의성, 객관성, 구조적 사고, 그리고 세부 사항에 대한 이해 등이 꼽혔다고 말했다.

밀라나와 스포엘스트라 역시 지원자들에게서 주로 보는 자질이 호기심, 논리적 사고, 상식, 인내심, 현실성, 그리고 훌륭한 판단력이라고 동의했다.

앞으로도 데이터 과학자에 대한 수요가 늘 것임은 분명하다. 그러나 데이터 과학자의 역할 자체가 비교적 새로운 것이기 때문에 그 역할 및 기업에서 어떻게 이들의 자질을 구성하고 발전시켜 나갈지는 시간에 따라 점차 변화해 갈 것이다.

로버츠는 “이는 스스로 찾아 배우기를 꺼려하지 않는 IT, 프로젝트 매니지먼트, 그리고 제품 매니지먼트 종사자들에게 아주 큰 기회다”라고 강조했다.

이 웹 사이트에서는 사용자 환경을 개선하기 위해 쿠키를 사용합니다. 우리는 당신이 괜찮다고 생각하겠지만, 당신이 원한다면 거절할 수 있습니다. 동의 더 읽기