¿Puede una imagen generada por inteligencia artificial ser «demasiado» real?

De REDACCION USA TODAY ESPAÑOL en marzo 18, 2026

¿Por qué a veces nos incomoda una imagen o un vídeo generado por inteligencia artificial aunque parezca casi real? El fenómeno conocido como "valle inquietante" describe precisamente esa reacción de extrañeza o rechazo que sentimos ante reproducciones casi humanas.

Originalmente formulado en 1970 por el roboticista Masahiro Mori, el valle inquietante afirma que cuanto más humano sea un robot o una figura artificial, más positiva será la reacción... hasta que el parecido casi perfecto provoca repulsión.

En los últimos años, con la inteligencia artificial generativa capaz de producir rostros realistas e incluso vídeos, esto ha cobrado nueva relevancia: ¿cómo viven las personas estas creaciones sintéticas? ¿Somos capaces de percibir que son artificiales? ¿Por qué a veces no podemos resolverlo?

¿Qué es el valle inquietante y por qué aparece?

El valle inquietante es una hipótesis que describe una reacción emocional negativa ante entidades artificiales muy humanas, pero no del todo auténticas. Cuando una figura antropomorfa, un robot, un avatar digital, un rostro generado por inteligencia artificial, se acerca mucho a la apariencia humana, pero muestra algo sutilmente "fuera de lugar", tendemos a sentirnos incómodos. Nuestro cerebro percibe que "algo no está bien", lo que provoca preocupación o simplemente rechazo.

Un robot que intenta parecerse a una mujer de carne y hueso vestida con uniforme.

Un robot recepcionista en un hotel de Tokio. El nuevo muñeco de nieve/Shutterstock

Diferentes teorías intentan explicar las causas de este efecto: desde razones evolutivas (nuestro cerebro asociaría distorsiones faciales con enfermedad o peligro, activando una reacción instintiva de aversión) hasta cognitivas (la incertidumbre de no poder clasificar algo como humano o no humano genera rechazo) o existenciales hasta nuestro propio recordatorio existencial de nuestro casi duplicado arte. sustituibilidad).

Desde la neurociencia cognitiva se empiezan a revelar los mecanismos cerebrales detrás del valle inquietante. Investigadores de la Universidad de Cambridge mostraron a voluntarios imágenes de personas reales, rostros virtuales y robots mientras medían su actividad cerebral mediante imágenes por resonancia magnética funcional (fMRI). Descubrieron que el cerebro funciona como una especie de "detector de humanidad": la corteza prefrontal ventromedial aumentaba su actividad ante figuras más humanizadas, pero caía bruscamente cuando tocaba el límite de ser humano sin ser humano, mientras que la amígdala se activaba intensamente, sugiriendo una respuesta de alarma emocional.

El ojo humano ante las imágenes de IA: descubriendo lo artificial

Los humanos son expertos en rostros y en descifrar señales sociales sutiles; Desde bebés aprendemos a leer expresiones, seguir miradas y distinguir entre individuos. Este dominio de la percepción explica por qué podemos notar pequeños detalles que están fuera de lugar en la imagen de un rostro humano. Cuando se enfrentan a fotografías o vídeos generados por IA, muchos usuarios informan que "hay algo en el aspecto" o una "sensación extraña" que les dice que no son reales.

Una azafata saluda a un hombre en una imagen generada por IA.

Solía ser fácil distinguir una imagen creada por inteligencia artificial porque las personas tenían más dedos en las manos de lo habitual. Rhetos/Wikimedia Commons

Hasta hace poco, las imágenes sintéticas a menudo se veían delatadas por defectos obvios: manos con seis dedos, ojos asimétricos, texturas de piel poco realistas. Pero incluso sin errores evidentes, nuestro cerebro reconoce algo: una mirada apagada, un gesto congelado, una falta de sincronización entre la apariencia y la "vida" interior.

Los últimos datos son elocuentes. Las imágenes de rostros generadas por ChatGPT y DALL·E son casi indistinguibles de fotografías auténticas para la mayoría de los observadores. Los programas de IA logran una precisión del 97% en la detección de rostros sintéticos en fotografías, pero los humanos no superan el porcentaje atribuible al azar; Curiosamente, con los vídeos deep fake, la situación se invirtió y las personas acertaron dos tercios de las veces. Incluso los "superreconocedores", el 2% superior en reconocimiento facial, apenas detectan el 41% de los rostros falsos, una tasa por debajo de la probabilidad.

Sin embargo, cinco minutos de capacitación sobre errores de renderizado comunes mejoraron significativamente su precisión. Es decir, nuestro sistema perceptual no está calibrado para esta amenaza, pero puede ser entrenado.

Inteligencia artificial avanzada: ¿se está superando el valle inquietante?

Dado el rápido progreso de la inteligencia artificial generativa, surge la pregunta: ¿pueden las máquinas cruzar el valle inquietante, eliminando lo milagroso por completo? Los avances recientes apuntan en esa dirección.

En el campo de las imágenes fijas, generadores basados en redes generativas adversarias (GAN) y modelos de difusión han logrado crear rostros y cuerpos virtuales que son indistinguibles de fotografías reales. Los rostros generados por StileGAN2 ya alcanzan un nivel de detalle anatómico y calidad fotográfica que engaña a la mayoría de los observadores.

Lo vemos en ejemplos cotidianos. Los verificadores de hechos hablan ahora de la "perfección inquietante" como el nuevo signo: fotogramas con personas de belleza impecable, sin una sola arruga, con simetrías casi matemáticas.

Paradójicamente, la IA crea imágenes tan pulidas que producen otra forma de habilidad: no por defectos grotescos, sino por la ausencia de pequeñas imperfecciones que presten autenticidad. Pese a ello, para la mayoría del público estas pequeñas cosas pasan desapercibidas.

Las imágenes no se mueven, huyen.

El mayor desafío, sin embargo, está en el vídeo. Un marco realista no es suficiente; Hay que encadenar miles por segundo sin caer en gestos espasmódicos o inexpresivos. Hasta hace poco, los primeros sistemas de conversión de texto a vídeo producían resultados entre cómicos y espeluznantes: imágenes borrosas, figuras humanas inestables que parecían sacadas de un extraño sueño... Pero es difícil sobreestimar la velocidad a la que esto está cambiando.

En los últimos meses se han producido lanzamientos que están redefiniendo lo que es posible. En octubre de 2025, Google DeepMind presentó Veo 3.1, un modelo que trata el sonido como una parte integral del vídeo: genera diálogos sincronizados con los labios, efectos de sonido relacionados con la acción y paisajes sonoros ambientales. No es un detalle menor: una de las pistas clásicas para detectar un vídeo falso era la desincronización entre los labios y la voz. Cuando eso desaparece, la barrera perceptiva cae con él.

En febrero de 2026, la empresa china Kuaishou lanzó Kling 3.0, que permite generar hasta seis tomas diferentes dentro de un mismo clip de 15 segundos, manteniendo la coherencia de personajes y ambientación, con resolución 4K y sincronización labial en múltiples idiomas. Lo importante para Uncanny Valley es la coherencia temporal: cuando cada fotograma se genera teniendo en cuenta docenas de fotogramas vecinos, las "mutaciones" faciales que antes delataban orígenes artificiales se reducen drásticamente.

Pero el modelo que más debate ha causado es el Seedance 2.0, de BiteDance. Imágenes virales muestran a Brad Pitt y Tom Cruise en una pelea coreografiada tan convincente que Disney envió una carta de cese y desistimiento y Paramount acusó a la compañía de infracción de propiedad intelectual.

¿Se cruzó entonces el valle? De nada. Las modelos en 2026 todavía luchan con las acciones cotidianas: comer, manipular cubiertos, interactuar con objetos pequeños. No sabemos cómo se mueve el dragón, pero hemos visto a miles de personas comer pasta y cualquier desviación es obvia. Además de esto, los modelos de imágenes fijas como la familia Nano Banana de Google ya sirven como marcos de referencia para generadores de vídeo, minimizando las inconsistencias entre fotogramas que anteriormente revelaban contenido sintético.

Otro dato que ayuda a encuadrar la velocidad del cambio: el número de deepfakes en Internet ha aumentado de unos 500.000 en 2023 a unos 8 millones en 2025, con un crecimiento anual cercano al 900%. Un investigador de la Universidad de Buffalo, especializado en medios sintéticos, escribió a Fortune que la clonación de voces ha superado lo que él llama el "umbral de la indiscernibilidad": unos pocos segundos de sonido son suficientes para generar un clon convincente con entonación, ritmo, pausas e incluso ruidos naturales de la respiración.

Nuestros ojos ya no son suficientes

El valle inquietante no parece limitarse a lo visual: también se manifiesta en interacciones basadas en texto con chatbots. Sin embargo, los usuarios siguen prefiriendo la naturalidad y las imperfecciones humanas: mientras los defectos humanos aumentan la cercanía, las desviaciones que alteran la percepción de la humanidad provocan rechazo.

El sector tecnológico está respondiendo a soluciones de verificación que funcionan donde nuestros ojos ya no pueden. La lógica es sencilla: si no vemos la diferencia, al menos podemos marcar el contenido en el momento de su creación. Estas etiquetas sobreviven a las conversiones de formato, recorte y compresión comunes.

A partir de mayo de 2025, el portal de verificación de Google DeepMind permite verificar que un archivo contiene un SinthID, una marca de agua invisible insertada durante la generación. Paralelamente, C2PA (Coalition for Content Provenance and Authenticity), impulsada por Adobe, Microsoft, Google, OpenAI y Meta, está desarrollando un estándar abierto que adjunta a un archivo información criptográfica verificable sobre su origen y ediciones. Si bien SinthID es una huella digital invisible que persiste cuando se pierden metadatos, C2PA ofrece la posibilidad de rastrearla cuando las plataformas la guardan.

La regulación también está progresando, aunque fragmentada. El Reglamento sobre IA de la Unión Europea, que entrará en vigor en agosto de 2024, exige que todo el contenido generado por IA esté etiquetado en un formato legible por máquina, y su cumplimiento total será obligatorio para agosto de 2026. Pero el panorama de la industria muestra que cada empresa importante está desarrollando su propio sistema, sin un estándar universal para la detección.

¿Te gustaría recibir más artículos como este? Suscríbete a Suplemento Cultural y recibe noticias culturales y una selección de los mejores artículos sobre historia, literatura, cine, arte o música, seleccionados por la editora de cultura Claudia Lorenzo.

Cambio de concepto

La percepción del valle inquietante es una fascinante intersección de biología, mente y tecnología. Nos sentimos incómodos frente a seres casi humanos, porque nuestro cerebro está finamente calibrado para reconocer a nuestros semejantes y detectar lo que se desvía de la norma. Esa misma nitidez es activada por creaciones de IA que casi logran imitarnos.

A principios de 2026, la situación es clara: la frontera avanza a una velocidad vertiginosa. Lo que era una limitación de un modelo en enero de 2026, ya quedó solucionada por el siguiente en febrero. Quizás el cambio más profundo no sea visual, sino conceptual: en lugar de descubrir "algo extraño", comenzaremos a desconfiar de "algo demasiado perfecto".

¿Desaparecerá por completo el valle inquietante? Probablemente no: todavía tendremos reservas sobre un robot físico que intente ser nuestro doble perfecto. Pero en el campo visual digital la diferencia entre lo generado y lo real dependerá cada vez más de la tecnología que nos ayude. Cuando ya no podamos creer "lo siento en mis entrañas, parece falso", necesitaremos marcas de agua universales, credenciales de origen y, sobre todo, educación mediática que nos guíe en un mundo donde la artificialidad queda camuflada por la completa naturalidad.

Una versión de este artículo fue publicada en la revista Telos de la Fundación Telefónica.