[AI 헤드폰] 듣고 싶은 목소리에 집중할 수 있게 해주는 스마트 헤드폰 : Turn-Taking AI

군중 속에서 상대방을 바라보는 것만으로 그 사람의 말을 들을 수 있다면?

 

워싱턴 대학교 연구진은 AI 기반의 "능동적 청력 보조" 헤드폰을 개발하여, 음성 리듬을 감지하여 시끄러운 환경에서 대화 상대를 자동으로 격리합니다. 연구진은 헤드폰을 착용한 사용자가 말하는 사람을 3~5초 동안 바라보면 그 사람을 "등록"할 수 있는 인공지능 시스템을 개발했습니다. 이 시스템은 "타겟 음성 청취(Target Speech Hearing, TSH)"라고 불립니다. TSH는 주변의 다른 모든 소음을 차단하고 등록된 화자의 목소리만 실시간으로 재생합니다. 사용자가 시끄러운 환경에서 움직이거나 화자를 더 이상 바라보지 않아도 작동합니다.

1. 이 시스템은 두 가지 AI 모델을 사용하여 누가 말하고 있는지 식별하고 모든 비참여 음성과 배경 소음을 실시간으로 억제합니다.
2. 초기 테스트 결과, 사용자들은 필터링되지 않은 기본 오디오보다 필터링된 오디오를 두 배 이상 더 선호하는 것으로 나타났습니다.
3. 오픈 소스 기술은 결국 보청기, 이어버드, 스마트 글래스에 통합되어 핸즈프리 의도 인식 사운드 필터링을 제공할 수 있게 되었습니다.


혼잡한 방에서 대화를 나누다 보면 종종 답답한 "칵테일 파티 문제" 즉, 대화 상대의 목소리와 소란스러움을 분리하는 도전으로 이어집니다. 더욱이 청력 손실이 있다면, 그로 인해 정신적으로 부담스러운 상황이 더해질 수 있습니다. 

 

"인간은 소리를 통해 거리를 인지하는 데 능숙하지 못하며, 특히 주변에 여러 음원이 있을 때는 더욱 그렇습니다."라고 워싱턴대학교 폴 G. 앨런 컴퓨터 과학 및 공학부의 샤얌 골라코타 교수는 말했습니다.

"시끄러운 레스토랑 같은 곳에서는 주변 사람들에게 집중하는 능력이 제한될 수 있기 때문에, 지금까지는 웨어러블 기기에서 소리 영역을 구분하는 것이 불가능했습니다. 하지만 저희 AI 시스템은 방 안의 각 음원까지의 거리를 학습하고, 이를 8밀리초 이내에 실시간으로 웨어러블 기기 자체에서 처리할 수 있습니다."

 

[사진제공] 워싱턴대학교

이런 상황을 상상해 보세요. 사무실에서 주변 소음을 차단하기 위해 노이즈 캔슬링 헤드폰을 착용하고 있습니다. 동료가 당신 책상으로 와서 질문을 하는데, 헤드폰을 벗고 "뭐라고요?"라고 되물을 필요 없이 질문을 또렷하게 들을 수 있습니다.

 

한편, 같은 방 정수기 앞에서 나누는 잡담 소리는 조용하게 유지됩니다. 또는 시끄러운 레스토랑에서 테이블에 앉은 모든 사람의 목소리는 들리지만, 다른 사람들의 말소리와 레스토랑 전체의 소음은 줄인다고 상상해 보세요.

워싱턴 대학교 연구진이 주도하는 연구팀이 청취자가 '소리 버블(Sound Bubble)'을 만들 수 있는 헤드폰 프로토타입을 개발했습니다. 이 연구팀의 인공지능 알고리즘과 헤드폰 프로토타입을 결합하여 사용자는 반경 3~6피트(약 0.9~1.8미터)로 ​​설정 가능한 버블안에서 사람들이 말하는 소리를 들을 수 있습니다.

버블 바깥의 목소리와 소리는 평균 49데시벨(진공 상태와 나뭇잎 바스락거리는 소리의 차이 정도) 정도 줄어듭니다. 멀리서 들려오는 소리가 버블 안쪽 소리보다 크더라도 마찬가지입니다.


시스템 개발자들은 회전 리듬을 인식하는 기술이 언젠가 보청기, 이어버드, 스마트 글래스 사용자가 AI의 "주의"를 수동으로 지시할 필요 없이 사운드스케이프를 필터링하는 데 도움이 될 수 있다고 생각합니다.

 

프로토타입 시스템

연구팀은 11월 7일 중국 쑤저우에서 열린 자연어 처리 실증 방법 컨퍼런스에서 이 기술을 발표했습니다.네이처 일렉트로닉스(Nature Electronics)에도 연구 결과를 발표했습니다. 연구진은 이 기술을 상용화 하기 위해 스타트업을 설립하고 있습니다. 기본 코드는 오픈소스이며 다운로드할 수 있습니다.

골라코타 교수는 다음과 같이 말했습니다.

 

"착용자가 누구의 말을 듣고 있는지 식별하는 기존 접근 방식은 주로 주의력을 추적하기 위해 뇌에 이식된 전극을 사용합니다. 특정 그룹의 사람들과 대화할 때, 우리의 말은 자연스럽게 턴테이크 리듬을 따른다는 것이 우리의 통찰입니다. 그리고 전극을 이식할 필요 없이 오디오만으로 이러한 리듬을 예측하고 추적하도록 AI를 훈련시킬 수 있습니다."

[사진] 연구팀은 기성품 노이즈 캔슬링 헤드폰과 바이노럴 마이크를 결합하여 프로토타입을 만들었습니다

"사전 청력 보조기"라고 불리는 프로토타입 시스템은 헤드폰을 착용한 사람이 말하기 시작하면 활성화됩니다. 거기서부터 한 AI 모델이 "누가 언제 말했는지" 분석을 수행하고 교류에서 낮은 중복을 찾아 대화 참여자를 추적하기 시작합니다. 그런 다음 시스템은 결과를 두 번째 모델로 전달하여 참가자를 격리하고 착용자를 위해 정리된 오디오를 재생합니다. 연구자들에 따르면, 이 시스템은 사용자가 오디오 지연을 혼동하지 않도록 충분히 빠르며, 현재 착용자의 오디오 외에도 하나에서 네 개의 대화 상대를 저글링할 수 있다고 합니다.

연구팀은 11명의 참가자를 대상으로 헤드폰을 테스트했으며, AI 필터링 유무에 관계없이 소음 억제 및 이해력과 같은 품질을 평가했습니다. 전반적으로, 그룹은 필터링된 오디오를 기준치보다 두 배 이상 더 긍정적으로 평가했습니다. 

 

기술 개선

골라코타의 교수의 연구팀은 지난 몇 년 동안 AI 기반 보청기를 실험해 왔습니다. 그들은 착용자가 군중 속에서 사람의 오디오를 볼 때 선택할 수 있는 스마트 헤드폰 프로토타입과, 착용자로부터 설정된 거리 내에서 모든 소리를 음소거하여 "소리 거품"을 생성하는 스마트 헤드폰 프로토타입을 개발했습니다. 

앨런 스쿨의 박사 과정 학생인 수석 저자 길린 후(Guilin Hu)는 "이전에 우리가 한 모든 작업은 사용자가 특정 화자나 들을 거리를 수동으로 선택해야 하므로 사용자 경험에 좋지 않습니다."라고 말합니다. "우리가 시연한 것은 인간의 의도를 비침습적이고 자동적으로 추론하는 능동적인 기술입니다."

경험을 다듬기 위해 많은 노력이 남아 있습니다. 대화가 더 역동적일수록 참가자들이 서로 대화하거나 더 긴 독백으로 대화할 때 시스템이 더 어려움을 겪을 가능성이 높습니다. 대화에 들어오고 나가는 참가자들은 또 다른 장애물을 제시하지만, 골라코타 교수는 현재 프로토타입이 이러한 더 복잡한 시나리오에서 얼마나 잘 작동하는지에 놀랐습니다. 저자들은 또한 모델이 영어, 중국어, 일본어 대화에서 테스트되었으며, 다른 언어의 리듬도 추가적인 미세 조정이 필요할 수 있다고 지적합니다.

 

보청기 적용 가능성

현재 프로토타입은 상업용 오버더이어 헤드폰, 마이크, 그리고 회로를 사용합니다. 결국 골라코타는 이어버드나 보청기 안의 작은 칩으로 작동할 수 있을 만큼 시스템을 작게 만들 것으로 기대하고 있습니다. MobiCom 2025에 발표된 동시 연구에서 저자들은 작은 보청기 장치에서 AI 모델을 실행할 수 있음을 입증했습니다.

 

* 참조 : The Hearing Review

 

이편한보청기 일산센터 문의,상담

(전화) 031-994-2544 (ARS) 0507-1424-2544

 

 

 

댓글

Designed by JB FACTORY