top of page

NOVA IA DA MICROSOFT SIMULA A VOZ DE QUALQUER PESSOA COM 3 SEGUNDOS DE ÁUDIO

  • Foto do escritor: Cyber Leviathan
    Cyber Leviathan
  • 24 de jan. de 2023
  • 1 min de leitura

Inaugurando o ano de 2023, desenvolvedores de tecnologia da Microsoft apresentam um novo modelo de IA de texto em fala chamado VALL-E, que pode simular de perto a voz de uma pessoa quando recebe uma amostra de áudio de três segundos.

.

A partir do momento em que o o VALL-E “aprende” aquela entonação, ele pode sintetizar o áudio dessa pessoa dizendo qualquer coisa – e fazê-lo de uma maneira que tente preservar o tom emocional do falante.

.

A Microsoft chama o VALL-E de "modelo de linguagem de codec neural" e se baseia em uma tecnologia chamada EnCodec, que a Meta anunciou em outubro de 2022.

.

Além de preservar o timbre vocal e o tom emocional de um falante, o VALL-E também pode imitar o "ambiente acústico" do áudio da amostra. Por exemplo, se a amostra veio de uma chamada telefônica, a saída de áudio simulará as propriedades acústicas e de frequência de uma chamada telefônica em sua saída sintetizada.

.

A tecnologia desperta preocupação dos pesquisadores, que apontam para o risco de falsificação de identificação para o cometimento de fraudes. Por esta razão, é preciso construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado pela VALL-E e tornar isso de fácil acesso.

.

Seguiremos acompanhando o surgimento das novas tecnologias e seus riscos para o Direito!

.

Fonte: https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/

Comments


Receba nossas atualizações!

Obrigado por enviar!

  • Ícone cinza LinkedIn
  • Grey Facebook Ícone
  • Grey Instagram Ícone
  • Cinza ícone do YouTube
bottom of page