텍스트로부터 학습되는 도메인 분류기법
- 전문가 제언
-
?전문가 제언?
○ 택소노미(taxonomy)의 개념은 원래 생물학에서 종(species)을 분류할 때 사용하는 분류학의 일종으로 종속 관계를 나타내는데 사용된 개념이다. 컴퓨터 과학 분야에서 택소노미는 개념 사이의 관계를 명세한 온톨로지(ontology)의 한 분야로 온톨로지 구축을 위한 첫 단계로 사용되는 기술개념이다. 택소노미는 흔히 수동적으로 만들어지나 시간이 많이 걸리는 단점이 있으므로 연구자들은 수동 택소노미에 근접하는 자동 택소노미를 만드는데 초점을 두고 있다.
○ 컴퓨터 문서에서 택소노미를 구축하려면 문서 안에서 중요한 개념 사이에 type-of 관계를 찾아야 한다. 이를 위하여서는 용어 추출 방법이 필요하고 이 중에서 핵심이 되는 개념을 자동으로 발췌하는 소프트웨어와 이들 개념들 사이에 type-of 관계의 계층구조를 생성하는 기법이 필요하다.
○ 온톨로지 분야에서는 택소노미 이외에도 콘텐츠에 태그를 붙인 폭소노미(folksonomy)와 같은 구조가 존재한다. 택소노미는 계층적 구조를 가지는데 반하여 폭소노미는 계층적 구조를 갖지 않는 개념의 분류법이다.
○ 이 연구에서는 텍스트 코퍼스로부터 도메인 택소노미를 자동으로 구축하는 ADTCT(Automatic Domain Taxonomy Construction from Text) 프레임워크를 제안한다. 이 프레임워크는 텍스트로부터 개념들을 추출하고 포섭(subsumption) 통계 기반 방법과 계층구조 클러스터링 알고리즘을 이용하여 이를 type-of 계층구조로 정렬한다. 이 논문에서는 이 두 방법을 사례를 통하여 비교 분석한다.
○ 클라우드 컴퓨팅 환경에서 빅 데이터 문서로부터 개념을 추출하여 자료 검색과 표현을 가능케 하는 온톨로지의 구축은 국내의 인공지능 분야를 비롯하여 생체의학, 지리학, 및 국방 분야에서 널리 연구되고 있으며 일부는 실용화되고 있다. 그런 의미에서 이 논문은 이 분야를 전공하는 분들에게 좋은 참고가 되리라고 본다.
- 저자
- Jeroen de Knijff, Flavius Frasincar, Frederik Hogenboom
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2013
- 권(호)
- 83
- 잡지명
- Data & Knowledge Engineering
- 과학기술
표준분류 - 정보통신
- 페이지
- 54~69
- 분석자
- 김*기
- 분석물
-
이미지변환중입니다.