Montreal 에 본사를 둔 Lyrebird 라는 회사에서 고속으로 음성을 합성하고, 다른 화자의 적은 데이터로도 음성 모방이 가능한 TTS 시스템을 개발하였다는 내용입니다.

개발자는 Lyrebird의 TTS 시스템은 1초에 수천 문장이 생성 가능하기 때문에, 합성 퀄리티에서 높은 성능을 보이는 WaveNet 보다 Lyrebird의 시스템이 실시간 음성합성 시스템에 더더욱 적합하다고 주장합니다.

또한 개발자는 서로 다른 화자의 음성일지라 하더라도 공통된 정보가 많기 때문에, 이미 훈련된 음성 합성기를 다른 화자의 음성정보로 변조시키는 것은 어려운 일이 아니라고 하고, 제안하는 음성 합성기의 경우에는 1분가량의 타화자 정보만 있어도 충분하다고 말하고 있습니다.

전문가들은 이러한 기술이 소비자들에게 친근한 개인비서 서비스, 오디오 북 나레이션, 혹은 장애인들을 위한 음성합성 서비스 등에 효과적으로 이용될 수 있을 것으로 예측하지만, 반면 윤리적 혹은 안전적인 문제들에 악용될 가능성 또한 다분할 것으로 예상합니다. 

개인적으로는 생성되는 TTS 음성 합성기의 블랙박스에 speech watermarking 혹은 audio watermarking 기술을 적용함으로써 소비자 측면에서 악용될 수 있는 문제들을 해결 가능할 것이라 생각합니다 :)

자세한 내용은 링크를 참조하시면 될 듯 합니다.

https://www.scientificamerican.com/article/new-ai-tech-can-mimic-any-voice/
profile