NOVA IA DA MICROSOFT SIMULA A VOZ DE QUALQUER PESSOA COM 3 SEGUNDOS DE ÁUDIO

Inaugurando o ano de 2023, desenvolvedores de tecnologia da Microsoft apresentam um novo modelo de IA de texto em fala chamado VALL-E, que pode simular de perto a voz de uma pessoa quando recebe uma amostra de áudio de três segundos.

A partir do momento em que o o VALL-E “aprende” aquela entonação, ele pode sintetizar o áudio dessa pessoa dizendo qualquer coisa – e fazê-lo de uma maneira que tente preservar o tom emocional do falante.

A Microsoft chama o VALL-E de "modelo de linguagem de codec neural" e se baseia em uma tecnologia chamada EnCodec, que a Meta anunciou em outubro de 2022.

Além de preservar o timbre vocal e o tom emocional de um falante, o VALL-E também pode imitar o "ambiente acústico" do áudio da amostra. Por exemplo, se a amostra veio de uma chamada telefônica, a saída de áudio simulará as propriedades acústicas e de frequência de uma chamada telefônica em sua saída sintetizada.

A tecnologia desperta preocupação dos pesquisadores, que apontam para o risco de falsificação de identificação para o cometimento de fraudes. Por esta razão, é preciso construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado pela VALL-E e tornar isso de fácil acesso.

Seguiremos acompanhando o surgimento das novas tecnologias e seus riscos para o Direito!

Fonte: https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/

LEVIATHAN

CYBER

//OBSERVATORIO DO MUNDO EM REDE

NOVA IA DA MICROSOFT SIMULA A VOZ DE QUALQUER PESSOA COM 3 SEGUNDOS DE ÁUDIO

Posts recentes

Comments