인도 문자 글자체의 인식(Indian script character recognition: a survey)
- 전문가 제언
-
□ 인도는 국토가 넓고 인구가 많은 대국이며 세계 4대 고대 문명 발상지 중의 하나로 높은 정신적 문화를 갖고 있다. 그러나 인도에는 여러 민족과 종교, 언어가 복잡하게 얽혀서 살아가고 있다.
○ 실제로 인도를 현재의 상태로 통일한 것은 인도인 자신이 아니라 영국이었다. 인도는 독립 후 파키스탄과 분리 되었고, 방글라데시가 다시 파키스탄에서부터 분리 독립하였다.
○ 인도에는 영어를 포함하여 18개의 공용어가 있고, 13개의 문자를 인정하고 있다. 인도의 화폐는 “1 루피”란 화폐 단위가 열세개의 글자로 쓰여 져 있는 것으로 유명하다. 인도의 국가 “자나가나마나”는 힌디어로 되어 있고, 힌디어를 모르는 인도인은 그들의 국가의 뜻도 모르고 따라 부른다고 한다.
○ 인도 정부는 헌법 상 힌디어의 우월권을 설정하려 하였으나 비-힌디어 사용지역에서 반발이 심하여 실패한 적이 있다. 그러나 상류층에서는 영어가 널리 쓰이고 대학에서는 강의도 영어로 한다.
□ 본문은 이 인도의 여러 가지 문자를 광학적으로 인식하는 시스템 개발에 관하여 개관한 것이다. 문자의 광학적 인식은 우편물이나 수표의 자동분류 등 사무의 자동화에 용도가 크다. 물론 13개 문자 모두의 인식 전략이 각기 진행되고 있으나 거기에는 진도 차가 날 수 밖에 없다.
○ 그 중 가장 많은 인도인이 사용하는 네브나가리 문자와 방글라 문자의 인식 시스템은 이미 상업화 할 만큼 완성도와 정확도가 높다고 한다.
○ 문자의 광학적 인식, 특히 필기체의 인식은 쉬운 문제가 아니다. 여기서는 각 언어의 특색에 따라 연결-선, 획의 접점, 루프의 수나 방향을 분석하고 그 언어가 가지고 있는 문법적인 요소까지 이용하여 그 글자를 인식하려고 노력하고 있다. 그러나 13개 언어 모두의 인식작업을 소개하기는 필자에게나 분석자에게 불가능한 것이었다.
- 저자
- Pal, U; Chaudhuri, BB
- 자료유형
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2004
- 권(호)
- 37(9)
- 잡지명
- PATTERN RECOGNITION
- 과학기술
표준분류 - 정보통신
- 페이지
- 1887~1899
- 분석자
- 김*설
- 분석물
-