알림마당

  1. home

잡음 환경에서 단어 인식을 위한 복소주파수 영역에서 참조 재구성법

전문가 제언
○ 사람과 컴퓨터 기능이 내장된 전자 시스템과의 대화 시스템 기술은 최근 음성 인식 및 음성 합성 기술과 더불어 로봇이나 음성 통신기기 등에서 주목을 받고 있다. 이를 위해서는 컴퓨터의 기능이 사용자의 발화를 분석하여 응답을 실현할 수 있어야 한다.

○ 최근에는 대화 예제를 사용자 발화에 대한 응답 실현에 이용하는 예제 기반(Example-Based) 등의 방법이 많이 연구되고 있다. 그러나 자연스러운 대화 시스템을 구축하기 위해서는 사용자 발화와 예제 발화 사이의 효과적인 유사도 측정 방법의 개발이 필요하다.

○ 이 논문에서는 음성에 잡음이 중첩한 단일 채널의 신호로부터 원래의 음성을 복원하고 자동 음성 인식 성능을 향상시키는 방식에 대하여 기술한다. 기존의 논문과 달리 푸리에 변환 후의 위상 정보를 그대로 간직하고 바이너리 마스크를 부착하는 유사도와 출력 방법의 개선 방법을 제안한다.

○ 한편 성능 평가를 위하여 기악곡 잡음이나 환경 잡음을 이용해서 단어인식 실험을 한 결과 낮은 SNR에 있어서 단어 정답률의 개선을 보여주었다. 또한 실험에 의해 주파수 영역에서 스펙트럼의 절대치 정보만이 아니라 위상 정보를 이용하는 것의 유효성을 확인했다.

○ 주변 잡음이 심한 환경의 음성 통신에서 음성의 명료도는 주변 잡음의 마스킹 효과로 인하여 크게 저하되고 통화 품질이 저하된다. 따라서 금후의 연구 과제로서는 잡음 추정 및 음질의 향상 방법을 위한 요소 기술과 더불어 응용 면에서 인식 시스템이 임의 화자에게 즉시 대응하기위한 고속화와 자동 음성 인식 시스템의 확립 등을 필요로 한다.

저자
Takehiro Ihara, Kazuyuki Takagi and Kazuhiko Ozeki
자료유형
학술정보
원문언어
일어
기업산업분류
전기·전자
연도
2008
권(호)
64(9)
잡지명
日本音響學會誌
과학기술
표준분류
전기·전자
페이지
533~544
분석자
이*영
분석물
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동