[연구] 인간의 음성 인식능력 향상에 도전하는 머신러닝 기술

난청, 청력 손실은 나이가 들어감에 따라 난청에 대처하는 베이비붐 세대의 수가 계속해서 증가함에 따라 과학 연구에서 빠르게 성장하는 분야입니다.

청력 손실이 사람들에게 어떤 영향을 미치는지 이해하기 위해 연구자들은 사람들이 언어를 인식하는 능력을 연구합니다. 잔향 또는 약간의 청력 손실이 있거나 교통 소음이나 다중 스피커와 같은 상당한 배경 소음이 있는 경우 사람들이 사람의 말을 인식하기가 더 어렵습니다.

결과적으로, 보청기 알고리즘은 종종 인간의 음성 인식을 개선하는 데 사용됩니다. 이러한 알고리즘을 평가하기 위해 연구자들은 특정 수의 단어(일반적으로 50%)가 인식되는 신호 대 잡음비를 결정하는 것을 목표로 하는 실험을 수행합니다. 그러나 이러한 테스트는 시간과 비용이 많이 듭니다.

[그림] 인간의 음성 인식 모델 개요 : 이미지출처 : Jana Roßbach


미국음향학회가 AIP출판을 통해 발간하고 있는 미국음향학회지(The Journal of America)에서 독일의 연구자들은 기계학습과 심층신경망을 기반으로 한 인간 음성인식 모델을 탐구하고 있습니다.

저자인 칼 폰 오시에츠키 대학(Carl Von Ossietzky University)의 Jana Roßbach는 "우리 모델의 참신함은 복잡성이 매우 다른 소음 유형에 대해 청각 장애가 있는 청취자에게 좋은 예측을 제공하고 측정된 데이터와의 낮은 오류와 높은 상관 관계를 모두 보여줍니다."라고 말했습니다.

연구원들은 자동 음성 인식(ASR)을 사용하여 청취자가 이해하는 문장당 단어 수를 계산했습니다. 대부분의 사람들은 Alexa 및 Siri와 같은 음성 인식 도구를 통한 ASR에 익숙하기 때문입니다.

이 연구는 스피치를 방해하는 다양한 복잡한 소음에 노출된 8명의 정상 청력과 20명의 청각 장애가 있는 청자로 구성되었습니다. 청각 장애가 있는 청취자들은 연령 관련 청력 손실 수준이 다른 세 그룹으로 분류되었습니다.

이 모델을 통해 연구원들은 시간 변조의 복잡성이 증가하고 실제 음성과의 유사도가 증가하는 다양한 노이즈 마스커에 대해 청력 손실 정도가 다른 청력 장애가 있는 청취자의 인간 음성 인식 성능을 예측할 수 있었습니다. 사람의 청력 손실 가능성은 개별적으로 고려될 수 있습니다.

“우리는 예측이 모든 소음 유형에 대해 잘 작동했다는 사실에 가장 놀랐다. 우리는 그 모델이 경쟁하는 단 한 명의 말을 사용할 때 모델에 문제가 있을 것으로 예상했다. 그러나 그렇지 않았다”
- Jana Roßbach -


이 모델은 단일 귀 청력에 대한 예측을 만들어 냈습니다. 앞으로 연구원들은 말을 이해하는 것이 두 귀 청력에 영향을 받기 때문에 바이노럴 모델을 개발할 것입니다.

음성 명료도를 예측하는 것 외에도 이 모델은 또한 잠재적으로 이러한 주제가 매우 관련이 있으므로 청취 노력 또는 음성 품질을 예측하는 데 사용될 수 있을 것입니다.

* 기사 링크 : A model of speech recognition for hearing-impaired listeners based on deep learning

* 원문출처 : ASA

이편한보청기 청각센터
난청, 청력관리, 보청기 상담 (전화연결) 031-994-2544


[이편한보청기, 고양시보청기, 일산보청기, 파주보청기 찾아오시는 길]


방문예약을 남겨주신 분들께는 추가 할인혜택을 제공해드립니다.

댓글

Designed by JB FACTORY