top of page
Foto do escritorCyber Leviathan

NOVA IA DA MICROSOFT SIMULA A VOZ DE QUALQUER PESSOA COM 3 SEGUNDOS DE ÁUDIO


Inaugurando o ano de 2023, desenvolvedores de tecnologia da Microsoft apresentam um novo modelo de IA de texto em fala chamado VALL-E, que pode simular de perto a voz de uma pessoa quando recebe uma amostra de áudio de três segundos.

.

A partir do momento em que o o VALL-E “aprende” aquela entonação, ele pode sintetizar o áudio dessa pessoa dizendo qualquer coisa – e fazê-lo de uma maneira que tente preservar o tom emocional do falante.

.

A Microsoft chama o VALL-E de "modelo de linguagem de codec neural" e se baseia em uma tecnologia chamada EnCodec, que a Meta anunciou em outubro de 2022.

.

Além de preservar o timbre vocal e o tom emocional de um falante, o VALL-E também pode imitar o "ambiente acústico" do áudio da amostra. Por exemplo, se a amostra veio de uma chamada telefônica, a saída de áudio simulará as propriedades acústicas e de frequência de uma chamada telefônica em sua saída sintetizada.

.

A tecnologia desperta preocupação dos pesquisadores, que apontam para o risco de falsificação de identificação para o cometimento de fraudes. Por esta razão, é preciso construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado pela VALL-E e tornar isso de fácil acesso.

.

Seguiremos acompanhando o surgimento das novas tecnologias e seus riscos para o Direito!

.

Fonte: https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/

11 visualizações0 comentário

Kommentare


bottom of page