과학 텍스트 데이터에서 지식추출
- 전문가 제언
-
○ 일반의 자연언어처리 시스템으로서 사전은 없어서는 안 될 구성요소이지만, 모든 단어나 용어가 사전에 기술되어 있는 것은 아니고, 특히 의학.생물학분야 등 고도로 전문성이 요구되는 과학기술 분야의 문서에는 일반사전 또는 기술사전에 포함되어 있지 않은 어휘가 많이 출현되므로 어려움을 겪는 경우가 많다.
○ 과학기술문서로부터 지식을 추출하는 데는, 전문용어의 추출과 분류, 논문 초록의 문장구조 해석, 지식 추출을 위한 단서 표현 발견 등의 과정이 요구되고, 실제로 전후의 문맥 또는 단어의 철(綴), 특히 접두. 접미 표현을 단서로 하여 미지의 단어 품사를 결정하고, 이에 의하여 전문용어라고 생각되는 명사구로 동정(同定)하여 의미를 찾는다.
○ 단어의 내부 정보 및 걸림씨 나무에서 추출한 문맥의 쌍방의 정보를 사용하여 SVM에 의해 용어의 의미 클라스 추정을 했을 때 약 70~88%의 정밀도를 얻었고. 특히 의학 분야의 병명 오판 여부의 판정에서 정밀도 약 90%, 재현율 약 80%로 판정이 가능하였음을 보여주었다.
○ 과학기술은 계속 발전하고 이에 따라 용어와 어휘도 한없이 증가하지만 이에 뒤따르는 사전 편찬이 이루어지지 않아, 찾고자 하는 어휘가 사전에 없다고 포기할 수 없는 현실에서, 우리가 대처할 방법은 단순검색이 아닌 단어.전문용어 및 문장구성 파악 능력이라고 생각되며, 이를 극복하기 위해서는 평소에 영어의 구문.단어 합성 등에 관한 관심과 훈련을 쌓아서 미지어(未知語)에서 정밀한 의미를 추출할 수 있어야 하겠고, 그런 의미에서 이러한 연구는 매우 유익하다.
- 저자
- Masashi Shimbo ; Yuji Matsumoto ; Hiroyasu Yamada
- 자료유형
- 학술정보
- 원문언어
- 일어
- 기업산업분류
- 과학기술일반
- 연도
- 2005
- 권(호)
- 20(2)
- 잡지명
- 인공지능학회지(N316)
- 과학기술
표준분류 - 과학기술일반
- 페이지
- 196~202
- 분석자
- 김*명
- 분석물
-
이미지변환중입니다.