알림마당

  1. home

비구조 정보처리 아키텍처(UIMA)

전문가 제언
○ 인터넷의 발전과 사용 확장은 인간의 지식과 지능을 종합적으로 저장할 수 있는 대단히 방대한 데이터베이스를 생성하게 한다. 인터넷에는 기존의 텍스트 형식의 정보뿐만 아니라 소리, 음악, 동영상 및 그림과 같은 많은 양의 데이터들을 내포하고 있다.

○ XML은 이러한 인터넷데이터를 구체적으로 검색할 수 있는 방법을 제공한다. IBM에서 제공하고 있는 UIMA(Unstructured Information Management Architecture)는 정형화되어 있지 않는 자료인 문서나 음성파일 등과 같은 비구조적인 정보 분석을 위한 종합시스템 설계를 위한 것이다.

○ IBM은 UIMA를 오픈소스 형태로 무료배포하고 있으며 Java SDK 배포본 1,2,3버전이 이미 공개되었다. UIMA는 AE(Analysis Engine)이라는 블록이 여러 개로 결합되어 있다. UIMA의 특징은 의미론 검색이다. 의미론 검색에서는 XML을 이용하여 형태소 해석 등을 통해 정확한 검색내용을 편리하게 지정할 수 있다.

○ UIMA 프로젝트는 미국 Ferrucci 박사가 이끌고 있으며, 문서분석, 기계적 번역, 생물정보공학, 지식통합 및 프로그램 분석 등 자연언어처리나 정보검색 분야의 여러 연구결과를 응용할 수 있도록 추진하고 있다.

– 이 프로젝트는 IBM 연구소 자연언어연구팀과 검색연구팀이 수행하고 있지만 서부에 위치한 IBM 연구소의 웹파운틴(Web Fountain)과도 연계되고 있다. 웹 파운틴은 비정형 정보 가운데 웹 정보 분석에 대해 주로 연구하고 있다. IBM은 이 기술을 이용하면 단순키워드 방식으로는 검색하기 어려운 정보도 쉽게 검색할 수 있을 것이라 한다.

○ 실제 통계적으로 일반기업의 약 85%의 데이터가 구조화 되어 있지 않아 정보를 검색하는데 근무시간의 약 30% 이상을 소비하는 것으로 알려져 있다. 그러므로 검색 및 텍스트 분석 프레임워크로 되어 있는 UIMA 이용기술은 향후 더욱 활성화되어 파급될 것으로 생각된다.
저자
Hironori Takeuchi, Hiroshi Kanayama, Kohichi Takeda, Hideo Watanabe
자료유형
학술정보
원문언어
일어
기업산업분류
정보통신
연도
2007
권(호)
22(6)
잡지명
人工知能??誌 
과학기술
표준분류
정보통신
페이지
808~813
분석자
오*섭
분석물
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동