개인정보, 데이터, 정보화

한글형태소 사전 NIADic

0 3,024
한글형태소 사전 NIADic
□ 구축 내용 o 국립국어원 우리말샘 사전과 및 SNS 분석기업 인사이터에서 자체 보유한 사전을 기반으로 최신 단어로 구성된 형태소 사전(NIADic) 제작(총 93만 단어)

※ 국립국어원 ‘우리말샘’ : 기존 ‘표준국어대사전’에 수록된 50만 단어와 신어·생활어

7만5000단어, 지역어 9만단어, 전문용어 35만단어를 더해 모두 100만여 단어로 구성

※ 인사이터 자체사전 : 브랜드, 유명인, 장소, 신조어 등의 명사 위주로 모두 50만여 단어로 구성

o 중소기업, 연구자, 일반인 등이 쉽게 NIADic을 활용하여 텍스트 분석을 수행할 수 있도록 KoNLP의 기초 형태소 사전으로 추가하여 제공

 

□ 사용 방법

o K-ICT 빅데이터 센터에서 다운로드

– K-ICT 빅데이터 센터(www.kbig.kr)에서 파일형태로 다운로드받아 사용할 수 있습니다.​

(저작권) 한글형태소 사전 NIADic은크리에이티브 커먼즈 저작자표시  동일조건변경허락 2.0 국제 라이선스(CC BY-SA)​에 따라 이용할 수 있습니다.

 

저작자표시동일조건변경허락 2.0 (CC BY-SA)
저작자와 출처 등을 표시하면 영리 목적의 이용이나 변경 및 2차적 저작물의 작성을 포함한 자유이용을 허락합니다. (단, 해당 자료를 사용하여 만들어진 2차 저작물에도 동일한 라이선스를 적용해야 합니다.)

 

o KoNLP에서 활용

– 오픈소스 R에서 한글분석 패키지인 KoNLP 설치

> install.package(‘KoNLP’)

– 패키지 버전 확인(0.80.0 이상)

> packageVersion(‘KoNLP’)

– NIADic 로딩, 시스템에서 처음 NIADic을 사용할시 자동으로 사전을 다운로드하고 설치

> useNIADic()

 


붙임자료

NIADic

이 웹 사이트에서는 사용자 환경을 개선하기 위해 쿠키를 사용합니다. 우리는 당신이 괜찮다고 생각하겠지만, 당신이 원한다면 거절할 수 있습니다. 동의 더 읽기