A IA ouviu as vozes das pessoas. Então isso gerou seus rostos.

Pin
Send
Share
Send

Você já construiu uma imagem mental de uma pessoa que nunca viu, baseada apenas na voz deles? A inteligência artificial (IA) agora pode fazer isso, gerando uma imagem digital do rosto de uma pessoa usando apenas um breve clipe de áudio como referência.

Chamada Speech2Face, a rede neural - um computador que "pensa" de maneira semelhante ao cérebro humano - foi treinada por cientistas em milhões de vídeos educacionais da Internet que mostraram mais de 100.000 pessoas falando.

A partir desse conjunto de dados, o Speech2Face aprendeu associações entre pistas vocais e certas características físicas em um rosto humano, escreveram os pesquisadores em um novo estudo. A IA então usou um clipe de áudio para modelar um rosto fotorrealista correspondente à voz.

Os resultados foram publicados on-line em 23 de maio no jornal arXiv e não foram revisados ​​por pares.

Felizmente, a IA (ainda) não sabe exatamente como é um indivíduo específico, apenas com base na sua voz. A rede neural reconheceu certos marcadores na fala que apontavam para sexo, idade e etnia, características que são compartilhadas por muitas pessoas, relataram os autores do estudo.

"Como tal, o modelo produzirá apenas rostos com aparência mediana", escreveram os cientistas. "Não produzirá imagens de indivíduos específicos".

A IA já mostrou que pode produzir rostos humanos estranhamente precisos, embora suas interpretações de gatos sejam francamente um pouco aterradoras.

Os rostos gerados pelo Speech2Face - todos voltados para a frente e com expressões neutras - não combinavam com precisão as pessoas por trás das vozes. Mas as imagens geralmente capturavam as faixas etárias, etnias e sexos corretos dos indivíduos, de acordo com o estudo.

No entanto, as interpretações do algoritmo estavam longe de serem perfeitas. O Speech2Face demonstrou "desempenho misto" quando confrontado com variações de idioma. Por exemplo, quando a IA ouviu um clipe de áudio de um homem asiático falando chinês, o programa produziu uma imagem de um rosto asiático. No entanto, quando o mesmo homem falou em inglês em um clipe de áudio diferente, a IA gerou o rosto de um homem branco, relataram os cientistas.

O algoritmo também mostrou viés de gênero, associando vozes agudas com rostos masculinos e vozes agudas com rostos femininos. E como o conjunto de dados de treinamento representa apenas vídeos educacionais do YouTube, "não representa igualmente toda a população mundial", escreveram os pesquisadores.

Outra preocupação sobre esse conjunto de dados de vídeo surgiu quando uma pessoa que apareceu em um vídeo do YouTube ficou surpresa ao saber que sua semelhança havia sido incorporada ao estudo, informou Slate. Nick Sullivan, chefe de criptografia da empresa de segurança na Internet Cloudflare, em São Francisco, inesperadamente viu seu rosto como um dos exemplos usados ​​para treinar o Speech2Face (e que o algoritmo havia reproduzido aproximadamente).

Sullivan não consentiu em aparecer no estudo, mas os vídeos do YouTube neste conjunto de dados são amplamente considerados disponíveis para os pesquisadores usarem sem adquirir permissões adicionais, de acordo com Slate.

Pin
Send
Share
Send