개인정보보호, 소프트웨어 정책
한글형태소 사전 NIADic
한글형태소 사전 NIADic | ||||||
□ 구축 내용 o 국립국어원 우리말샘 사전과 및 SNS 분석기업 인사이터에서 자체 보유한 사전을 기반으로 최신 단어로 구성된 형태소 사전(NIADic) 제작(총 93만 단어)
※ 국립국어원 ‘우리말샘’ : 기존 ‘표준국어대사전’에 수록된 50만 단어와 신어·생활어 7만5000단어, 지역어 9만단어, 전문용어 35만단어를 더해 모두 100만여 단어로 구성 ※ 인사이터 자체사전 : 브랜드, 유명인, 장소, 신조어 등의 명사 위주로 모두 50만여 단어로 구성 o 중소기업, 연구자, 일반인 등이 쉽게 NIADic을 활용하여 텍스트 분석을 수행할 수 있도록 KoNLP의 기초 형태소 사전으로 추가하여 제공
□ 사용 방법 o K-ICT 빅데이터 센터에서 다운로드 – K-ICT 빅데이터 센터(www.kbig.kr)에서 파일형태로 다운로드받아 사용할 수 있습니다. – (저작권) 한글형태소 사전 NIADic은크리에이티브 커먼즈 저작자표시– 동일조건변경허락 2.0 국제 라이선스(CC BY-SA)에 따라 이용할 수 있습니다.
o KoNLP에서 활용 – 오픈소스 R에서 한글분석 패키지인 KoNLP 설치
– 패키지 버전 확인(0.80.0 이상)
– NIADic 로딩, 시스템에서 처음 NIADic을 사용할시 자동으로 사전을 다운로드하고 설치
|
붙임자료