회화가 가능한 인간형 로봇(Anthropo-morphic conversational robot)
- 전문가 제언
-
□ 인간이 의사 전달을 하는 가장 자연스러운 형태는 음성으로, 이를 매체로 한 휴먼 로봇 인터페이스의 필요성이 크게 부각되었다. 일반적인 대화 로봇에서는 귀와 입을 마이크로폰과 스피커로 대응시키고, 음성 인식 기술과 음성 합성 기술에 의한 대화 기능을 실현하고 있다.
□ 로봇이 청각 기관 없이 소리를 듣도록 하기 위해서는 인간의 귀가 어떻게 소리를 듣는지 알아야 하며, 소리마다 다른 주파수의 특성을 이용하면 로봇도 소리를 들을 수 있다. 인간마다 발음이 조금씩 다르므로 수천 명이 발음한 데이터를 가지고 각각의 소리에 대한 음성 모델링을 하여 이를 주파수로 변환시키고 데이터베이스화한다. 그러면 입력되는 소리마다 거기에 해당하는 주파수를 찾아내어 어떤 말인지 알아들을 수 있게 되는데, 이것이 음성 인식의 원리이다.
□ 다른 사람이 알아듣게 말을 하려면 우선 정확하게 발음해야 하지만 로봇은 소리를 낼 수 있는 혀와 입술이 없기 때문에 다른 인간의 입을 빌려야 한다. 발음이 정확한 성우들의 말을 최대한 많이 녹음하여 그것을 음소 단위로 쪼개야 하는데, 이러한 작업은 컴퓨터 화면에 나타나는 소리의 파형을 보고 정밀하게 이루어진다. 텍스트가 들어오면 거기에 알맞은 음소 단위의 소리 데이터를 찾아내어 이어 붙일 때 소리가 나게 되는데, 이것이 음성 합성의 원리이다.
□ 로봇 연구와 인공 지능 연구 분야에서 세계적인 권위를 가지고 있는 미국 Carnegie Mellon대학에는 ETC(Entertainment Technology Center)라는 연구소가 설치되어 있어 여기서 개발된 로봇인 닥(Doc)은 바로 ‘의사 인공 지능’ 개념에 따라 만들어진 것으로, 인간과 적당한 수준의 대화를 주고받을 수 있다.
□ 이 대화 로봇 닥의 경우도 이미 개발된 음성인식 기술을 포함시키고, 인식된 질문에 대해 미리 지정해 둔 후보들 중에서 적당히 비슷한 답변을 골라 말하게 하는 식으로 제작되었다. 답변 시의 음성 합성도 복잡한 합성 기술을 쓰지 않고 미리 녹음된 음성을 재사용하는 등 될 수 있는 대로 간편한 기술이 사용된 것이 특징이다.
- 저자
- Tetsunori Kobayashi ; Shinya Fujie ; Yosuke Matsusaka ; Katsuhiko Shirai
- 자료유형
- 학술정보
- 원문언어
- 일어
- 기업산업분류
- 정밀기계
- 연도
- 2005
- 권(호)
- 61(2)
- 잡지명
- 일본음향학회지(L142)
- 과학기술
표준분류 - 정밀기계
- 페이지
- 85~90
- 분석자
- 이*요
- 분석물
-
이미지변환중입니다.