Inaugurando o ano de 2023, desenvolvedores de tecnologia da Microsoft apresentam um novo modelo de IA de texto em fala chamado VALL-E, que pode simular de perto a voz de uma pessoa quando recebe uma amostra de áudio de três segundos.
.
A partir do momento em que o o VALL-E “aprende” aquela entonação, ele pode sintetizar o áudio dessa pessoa dizendo qualquer coisa – e fazê-lo de uma maneira que tente preservar o tom emocional do falante.
.
A Microsoft chama o VALL-E de "modelo de linguagem de codec neural" e se baseia em uma tecnologia chamada EnCodec, que a Meta anunciou em outubro de 2022.
.
Além de preservar o timbre vocal e o tom emocional de um falante, o VALL-E também pode imitar o "ambiente acústico" do áudio da amostra. Por exemplo, se a amostra veio de uma chamada telefônica, a saída de áudio simulará as propriedades acústicas e de frequência de uma chamada telefônica em sua saída sintetizada.
.
A tecnologia desperta preocupação dos pesquisadores, que apontam para o risco de falsificação de identificação para o cometimento de fraudes. Por esta razão, é preciso construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado pela VALL-E e tornar isso de fácil acesso.
.
Seguiremos acompanhando o surgimento das novas tecnologias e seus riscos para o Direito!
.
Fonte: https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/
Kommentare