A inteligência artificial avança a um ritmo tão rápido que já é capaz de criar vozes e imagens quase indistinguibles dos humanos. Esta sofisticación tecnológica, no entanto, também está a ser aproveitada por delinquentes.
Fazem-se passar por familiares, empresas ou instituições para roubar aos utentes dinheiro ou dados pessoais. A simples vista (ou mais bem, a simples ouvido), resulta a cada vez mais difícil detectar quando uma voz é real ou quando se trata de uma imitação sintética.
Como identificar um 'deepfake'
À medida que os modelos generativos melhoram, as falhas que dantes delatavam um deepfake (conteúdo audiovisual manipulado mediante inteligência artificial) se voltam mais subtis.
A diferença já não é escutar a um robô, sina reconhecer os matizes que delatam uma impressão algorítmica em frente a uma má conexão de rede. Assim o adverte Josep Curto, professor dos Estudos de Informática, Multimédia e Telecomunicação da Universidade Aberta de Cataluña (UOC).
Falhas na conversa
Segundo o experiente, a maioria dos deepfakes de voz falham na conversa, não no timbre. A entonación, o ritmo ou as pausas costumam revelar irregularidades que o ouvido humano pode perceber se sabe em que se fixar.
Por isso é importante prestar atenção ao contexto. Os telefonemas urgentes, avisos bancários ou videollamadas improvisadas são palcos ideais para o engano. Neles, a pessoa tende a reagir rápido e não conserta nesses detalhes mínimos que podem delatar uma falsificação.
Como diferenciar uma má conexão de um 'deepfake'
Curto propõe uma regra de ouro: aprender a distinguir os artefactos próprios da rede dos defeitos gerados por um algoritmo. Se os erros repetem-se de maneira uniforme, como as pausas onde a gramática não as espera ou saltos de tom improváveis, é provável que se trate de uma voz criada com IA.
No caso das videollamadas, o especialista recomenda fixar nos detalhes do rosto. As microseñales, como o pisco, as sombras ou o movimento do cabelo, costumam ser mais reveladoras que a sincronização dos lábios (lipsync). Se aparecem incoherencias visuais que não se explicam pela qualidade do largo de banda, há motivos para suspeitar.
Provas ao vivo e sinais de alerta
Uma forma eficaz de comprová-lo é romper a inércia do modelo, segundo Curto. Para isso, se pode pedir ao interlocutor que repita uma frase inesperada, gerar ruído de fundo (por exemplo, ao aplaudir cerca do microfone) ou interromper brevemente a conversa.
Se a entonación segue sendo antinatural ou as respostas chegam com a mesma latencia, convém activar o protocolo de segurança. Consiste em realizar uma devolução de telefonema a um número verificado e confirmar uma palavra#-chave lembrada previamente. Estas são, segundo Curto, os cinco sinais mais fiáveis para detectar um deepfake de voz:
1. Prosodia não natural e entonación plana. A voz não flui emocionalmente: pausas uniformes, tons monótonos ou saltos abruptos. Numa má rede há cortes, mas a entonación humana mantém-se.
2. Sons demasiado limpos em frente ao ruído que fluctúa numa má conexão.
3. Desajuste dos lábios e a voz na videollamada.
4. Microgestos estranhos no rosto.
5. Respostas uniformes e com a mesma duração.