ElevenLabs, deep learning voice synthesis e eleições

Em um momento em que a voz do Presidente dos EUA, Joe Biden, é clonada para realizar chamadas automáticas em apoio a Donald Trump, as tecnologias de IA capazes de enganar nossos olhos e ouvidos estão em alta. Contudo, agora é ilegal nos EUA que operadores de chamadas automáticas usem vozes geradas por IA, como, por exemplo, as geradas através da ElevenLabs, graças a uma nova decisão da Comissão Federal de Comunicações.¹

Embora as análises da Pindrop Security Inc. e de Berkeley sugiram que deva ser possível desmascarar a fonte de chamadas robôs geradas por IA, o incidente também destaca quão despreparadas estão as autoridades, a indústria de tecnologia e o público à medida que a temporada eleitoral de 2024 se intensifica. E como será no Brasil?

É difícil para pessoas leigas confirmarem a origem de áudios ou verificarem se são gerados por IA. E análises mais sofisticadas, realizadas por autoridades e especialistas, podem não ser concluídas rapidamente o suficiente para compensar os danos causados pela propaganda gerada por IA.

Quem é a ElevenLabs?

A ElevenLabs comercializa suas ferramentas de IA para usos como audiolivros e videogames; recentemente, atingiu a posição de “unicórnio” ao levantar US$ 80 milhões em uma avaliação de US$ 1,1 bilhão em uma nova rodada de financiamento liderada pela empresa de capital de risco Andreessen Horowitz. Além da Andreessen Horowitz, seus investidores incluem figuras proeminentes como Nat Friedman, ex-CEO do GitHub, e Mustafa Suleyman, co-fundador do laboratório de IA DeepMind, agora parte da Alphabet. Entre os investidores também estão empresas como Sequoia Capital e SV Angel.

Qualquer pessoa pode se inscrever no serviço pago da empresa e clonar uma voz a partir de uma amostra de áudio.

Com seu financiamento generoso, a ElevenLabs está, argumentalmente, em uma posição melhor do que outras startups de IA para direcionar recursos para criar salvaguardas eficazes contra agentes mal-intencionados – uma tarefa tornada ainda mais urgente pelas próximas eleições presidenciais nos Estados Unidos. “Ter as salvaguardas certas é importante, porque, caso contrário, qualquer pessoa pode criar qualquer semelhança de qualquer pessoa”, diz Balasubramaniyan. “À medida que nos aproximamos de um ciclo eleitoral, isso ficará apenas mais insano.”

O Termo de Serviço da empresa sugere que é melhor obter a permissão de alguém antes de clonar sua voz, mas que a clonagem sem permissão pode ser aceitável para diversas finalidades não comerciais, incluindo “discursos políticos que contribuem para debates públicos”. Estas permissões também incluem que os usuários criem clones de voz de figuras públicas, como o Presidente Biden; no entanto, ela afirma que isso só pode ser feito para “expressar humor ou zombaria de uma forma que fique claro para o ouvinte que o que estão ouvindo é uma paródia”.

Primária de New Hampshire

As ligações telefônicas tentaram induzir que os eleitores democratas evitassem as urnas durante as primárias de New Hampshire. A ElevenLabs rastreou o deepfake até um usuário específico e suspendeu a sua conta. O rastreamento das ligações levou até uma empresa no Texas chamada Life Corporation, segundo o Procurador-Geral de New Hampshire.

No mês passado, várias ligações foram feitas para vários eleitores de New Hampshire pedindo que não votassem nas primárias presidenciais do Estado. A ligação, que parecia ser do Presidente Biden, era, na verdade, um deepfake criado com ferramentas desenvolvidas pela ElevenLabs.

Análises de Especistas sobre o caso

A empresa de detecção de fraude de voz, Pindrop Security Inc., que analisou o áudio, identificou que a tecnologia da ElevenLabs foi utilizada para o deepfake, conforme relata a Bloomberg. A ligação em questão foi apresentada de tal forma que os eleitores podem não ter percebido que, na verdade, não era o Biden falando na linha.

A Pindrop, uma empresa de segurança que desenvolve ferramentas para identificar áudio sintético, afirmou em um post no blog na quinta-feira que sua análise do áudio da chamada indicava a tecnologia da ElevenLabs ou um “sistema usando componentes semelhantes”. A equipe de pesquisa da Pindrop verificou padrões no trecho de áudio em mais de 120 motores de síntese vocal diferentes em busca de correspondência, mas não esperava encontrar uma, pois identificar a origem de áudio gerado por IA pode ser difícil. Os resultados foram surpreendentemente claros, diz o CEO da Pindrop, Vijay Balasubramaniyan. “Chegou bem acima de 99 por cento de certeza de que era a ElevenLabs”, afirma.

No mês passado, um comunicado do CEO da ElevenLabs, Mati Staniszewski, afirmou que a empresa está “comprometida em prevenir o uso indevido de ferramentas de áudio de IA”, mas que não pode comentar sobre incidentes específicos. A ElevenLabs toma medidas em casos de uso indevido, inclusive auxiliando as autoridades, diz o comunicado.

A ElevenLabs oferece seu próprio detector de fala por IA em seu site, que afirma poder determinar se um trecho de áudio foi criado usando a tecnologia da empresa. Quando a Pindrop executou sua amostra da chamada robô suspeita por meio desse sistema, o resultado indicou 84% de probabilidade de ter sido gerado usando as ferramentas da ElevenLabs.

Hany Farid, um especialista em forense digital na Escola de Informação da UC Berkeley, estava inicialmente cético em relação às alegações de que a chamada robô de Biden era da ElevenLabs. “Quando você ouve o áudio de uma voz clonada da ElevenLabs, é realmente bom”, diz ele. “A versão da chamada de Biden que ouvi não era particularmente boa, mas a cadência era muito estranha. Simplesmente não tinha a qualidade que eu esperaria da ElevenLabs.”

No entanto, quando Farid teve sua equipe em Berkeley conduzindo sua própria análise independente da amostra de áudio obtida pela Pindrop, eles também chegaram à mesma conclusão. “Nosso modelo diz com alta confiança que é gerado por IA e provavelmente é da ElevenLabs”, afirma.

Não foi a primeira vez

Esta não é a primeira vez que os pesquisadores suspeitam que as ferramentas da ElevenLabs foram usadas para propaganda política. Em setembro passado, a NewsGuard, uma empresa que rastreia desinformação online, afirmou que contas do TikTok compartilhando teorias da conspiração usando vozes geradas por IA, incluindo um clone da voz de Barack Obama, usavam a tecnologia da ElevenLabs. “Mais de 99 por cento dos usuários em nossa plataforma estão criando conteúdo interessante, inovador e útil”, disse a ElevenLabs em um comunicado por e-mail ao The New York Times na época, “mas reconhecemos que há casos de uso indevido, e estamos continuamente desenvolvendo e lançando salvaguardas para contê-los.”

Sobre a tecnologia

Embora a ElevenLabs seja líder de mercado em clonagem de voz por IA, em poucos anos a tecnologia se tornou amplamente disponível para empresas e indivíduos experimentarem. Isso criou novas oportunidades de negócios, como a criação mais barata de audiolivros, mas também aumenta o potencial para o uso malicioso da tecnologia. “Temos um problema real”, diz Sam Gregory, diretor de programa da organização sem fins lucrativos Witness, que ajuda as pessoas a usar tecnologia para promover direitos humanos. “Quando você tem essas ferramentas amplamente disponíveis, é bastante difícil policiar.”

“Jornalistas, autoridades eleitorais e outros não têm acesso a ferramentas confiáveis para fazer isso de maneira rápida e eficaz quando áudios potencialmente alteradores de eleições são vazados ou compartilhados”, diz Gregory. “Se isso tivesse sido algo relevante no dia da eleição, seria tarde demais.”

A Comissão Federal de Comunicações

Em uma decisão unânime, a FCC expande a Lei de Proteção ao Consumidor de Telefone, ou TCPA, para abranger golpes de chamadas automáticas que contenham clones de voz gerados por IA. A nova regra entra em vigor imediatamente, permitindo que a comissão aplique multas a empresas e bloqueie provedores que realizem esse tipo de chamada.

“Atores mal-intencionados estão usando vozes geradas por IA em chamadas automáticas não solicitadas para extorquir membros vulneráveis da família, imitar celebridades e desinformar eleitores”, disse a presidente da FCC, Jessica Rosenworcel, em comunicado na quinta-feira. “Estamos avisando os fraudadores por trás dessas chamadas automáticas.”

A medida vem alguns dias após a FCC e o procurador-geral de New Hampshire, John Formella, identificarem a Life Corporation como a empresa por trás das misteriosas chamadas automáticas imitando o presidente Joe Biden no mês passado antes das primárias do estado. Em uma coletiva de imprensa na terça-feira, Formella disse que seu escritório abriu uma investigação criminal sobre a empresa e seu proprietário, Walter Monk.

A FCC anunciou pela primeira vez seu plano de proibir golpes de chamadas automáticas geradas por IA atualizando a TCPA na semana passada. A agência já usou a lei no passado para combater chamadas indesejadas, incluindo os ativistas conservadores e brincalhões Jacob Wohl e Jack Burkman. Em 2021, a FCC multou-os em mais de $ 5 milhões por conduzirem um esquema massivo de chamadas automáticas para desencorajar os eleitores a votarem pelo correio na eleição de 2020.

“Embora essa tecnologia de IA generativa seja nova e represente muitos desafios, já temos muitas ferramentas necessárias para lidar com esse desafio. Podemos aplicar leis existentes como a TCPA, e uma agência reguladora como a FCC tem a flexibilidade e a experiência para lidar com essas ameaças em tempo real.”
Nicholas Garcia, conselheiro de políticas na Public Knowledge

Notas de Rodapé

A Comissão Federal de Comunicações (Federal Communications Commission, FCC) é uma agência federal que regula as comunicações interestaduais e internacionais em várias formas de transmissão. Ela tem jurisdição sobre comunicação via rádio, telefone, TV, cabo e satélite nos EUA e em seus territórios. ↩︎

Refências

BLOOMBERG. AI Voice-Cloning Startup ElevenLabs Valued at $ 1.1 Billion. Disponível em: https://www.bloomberg.com/news/articles/2024-01-22/ai-voice-cloning-startup-elevenlabs-valued-at-1-1-billion. Acesso em: 26 fev. 2024.

FORBES. Eleven Labs Secures US$ 80 Million For Voice Cloning. Disponível em: https://www.forbes.com/sites/charliefink/2024/01/25/eleven-labs-secures-80-million-for-voice-cloning-ai-photo-app-artisse-bags-67-million-ai-art-films/?sh=546d90aa6419. Acesso em: 26 fev. 2024.

PCMAG. N.H. Primary Biden Deepfake Robocall Traced to AI Startup. Disponível em: https://www.pcmag.com/news/ai-powered-deepfake-biden-robocall-traced-back-to-elevenlabs. Acesso em: 26 fev. 2024.

WIRED. Researchers Say the Deepfake Biden Robocall Was Likely Made With Tools From AI Startup ElevenLabs. Disponível em: https://www.wired.com/story/biden-robocall-deepfake-elevenlabs. Acesso em: 26 fev. 2024.

ACPD Brasil Estrutura de Privacidade Privacidade

ElevenLabs, deep learning voice synthesis e eleições

NOTÍCIAS RECENTES

Próximos Eventos

BUSCAR POR MÊS

BUSCAR POR CATEGORIA

ACPD Brasil

ElevenLabs, deep learning voice synthesis e eleições

Quem é a ElevenLabs?

Primária de New Hampshire

Análises de Especistas sobre o caso

Não foi a primeira vez

Sobre a tecnologia

A Comissão Federal de Comunicações

Notas de Rodapé

Refências

Deixe um comentário Cancelar resposta

NOTÍCIAS RECENTES

BUSCAR POR MÊS

BUSCAR POR CATEGORIA

ACPD Brasil