Loading...

Cómo identificar una voz creada con IA para evitar estafas

Los expertos advierten de que la mayoría de los 'deepfakes' fallan en la sonoridad de la conversación

Ana Siles

Inteligencia artificial / FREEPIK

La inteligencia artificial avanza a un ritmo tan rápido que ya es capaz de crear voces e imágenes casi indistinguibles de los humanos. Esta sofisticación tecnológica, sin embargo, también está siendo aprovechada por delincuentes. 

Se hacen pasar por familiares, empresas o instituciones para robar a los usuarios dinero o datos personales. A simple vista (o más bien, a simple oído), resulta cada vez más difícil detectar cuándo una voz es real o cuándo se trata de una imitación sintética.

Cómo identificar una voz creada con IA para evitar estafas

A medida que los modelos generativos mejoran, los fallos que antes delataban un deepfake (contenido audiovisual manipulado mediante inteligencia artificial) se vuelven más sutiles

Una persona víctima de estafa telefónica / CANVA

La diferencia ya no es escuchar a un robot, sino reconocer los matices que delatan una huella algorítmica frente a una mala conexión de red. Así lo advierte Josep Curto, profesor de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC). 

Fallos en la conversación

Según el experto, la mayoría de los deepfakes de voz fallan en la conversación, no en el timbre. La entonación, el ritmo o las pausas suelen revelar irregularidades que el oído humano puede percibir si sabe en qué fijarse.

Por eso es importante prestar atención al contexto. Las llamadas urgentes, avisos bancarios o videollamadas improvisadas son escenarios ideales para el engaño. En ellos, la persona tiende a reaccionar rápido y no repara en esos detalles mínimos que pueden delatar una falsificación.

Cómo diferenciar una mala conexión de un 'deepfake'

Curto propone una regla de oro: aprender a distinguir los artefactos propios de la red de los defectos generados por un algoritmo. Si los errores se repiten de manera uniforme, como las pausas donde la gramática no las espera o saltos de tono improbables, es probable que se trate de una voz creada con IA.

Una consumidora comprueba si está recibiendo una llamada de un 'deepfake' / PEXELS

En el caso de las videollamadas, el especialista recomienda fijarse en los detalles del rostro. Las microseñales, como el parpadeo, las sombras o el movimiento del cabello, suelen ser más reveladoras que la sincronización de los labios (lipsync). Si aparecen incoherencias visuales que no se explican por la calidad del ancho de banda, hay motivos para sospechar.

Pruebas en directo y señales de alerta

Una forma eficaz de comprobarlo es romper la inercia del modelo, según Curto. Para ello, se puede pedir al interlocutor que repita una frase inesperada, generar ruido de fondo (por ejemplo, al aplaudir cerca del micrófono) o interrumpir brevemente la conversación.

Una consumidora recibe un correo con un enlace sospechoso / FREEPIK

Si la entonación sigue siendo antinatural o las respuestas llegan con la misma latencia, conviene activar el protocolo de seguridad. Consiste en realizar una devolución de llamada a un número verificado y confirmar una palabra clave acordada previamente. Estas son, según Curto, las cinco señales más fiables para detectar un deepfake de voz

1. Prosodia no natural y entonación plana. La voz no fluye emocionalmente: pausas uniformes, tonos monótonos o saltos abruptos. En una mala red hay cortes, pero la entonación humana se mantiene.

2. Sonidos demasiado limpios frente al ruido que fluctúa en una mala conexión. 

3. Desajuste de los labios y la voz en la videollamada.

4. Microgestos extraños en el rostro

5. Respuestas uniformes y con la misma duración.