Tal Hagin
Publicado en Fathom Journal. Agradecemos su autorización para la traducción
En una explicación detallada que resultará especialmente informativa para quienes conocen la influencia cada vez mayor de la IA, pero no su funcionamiento real, el analista de guerra de la información Tal Hagin detalla el papel problemático de los Grandes Modelos de Lenguaje (LLM) de la IA en la verificación de datos de los medios. Concluye que «en última instancia, los LLM deberían considerarse una herramienta que amplía el razonamiento humano en lugar de reemplazarlo. Al comprender cómo funcionan estos sistemas, reconocer sus sesgos inherentes y mantener una supervisión crítica, podemos aprovechar los LLM eficazmente y, al mismo tiempo, prevenir la propagación de noticias falsas».
El panorama mediático moderno está fragmentado. Las audiencias ya no dependen de unas pocas redacciones para interpretar los acontecimientos. En cambio, la información se filtra a través de tribus ideológicas, donde la verdad se mide más por la coincidencia con las creencias que por la evidencia. Los medios tradicionales, antaño ampliamente confiables, han perdido credibilidad, y los medios alternativos, los influencers y las personalidades en línea ahora suelen servir como árbitros de la «verdad».
En este entorno, marcado por los prejuicios y la presión de internet por la información instantánea, existe una enorme presión para obtener respuestas inmediatas, lo que posteriormente crea un espacio para que actores maliciosos alimenten la desinformación. Dos ejemplos claros son los apuñalamientos en Bondi (13 de abril de 2024) y Portland (29 de julio de 2024), que se cobraron seis y tres víctimas, respectivamente. Ninguno de los dos incidentes proporcionó información verificada de inmediato al público, lo que dejó un vacío. A falta de información fiable, se llenó el vacío y los actores maliciosos contaminaron el espacio informativo con afirmaciones falsas.
En ambos casos, la culpa inmediata recayó sobre inmigrantes ilegales, musulmanes, israelíes y judíos, a pesar de no haber pruebas. Se circularon nombres falsos como «Benjamin Cohen» y «Ali-Al-Shakati», lo que alimentó aún más la falsa narrativa: en Bondi, un hombre inocente llamado Benjamin Cohen sufrió acoso, mientras que en Portland una turba atacó la mezquita de Southport, cerca del lugar del crimen. En realidad, los perpetradores no eran inmigrantes ilegales, musulmanes, judíos ni israelíes.
Estos casos ponen de relieve una tendencia más amplia: en el panorama mediático actual, las fuentes y las pruebas verificables suelen desestimarse, los titulares se juzgan más por su fidelidad que por su precisión, y los debates matizados son cada vez más escasos. Este creciente escepticismo hacia los medios también se ha extendido a la propia verificación de datos, que antes se consideraba un árbitro neutral de la verdad, pero que ahora se enfrenta al escrutinio.
Los desafíos actuales de la verificación de datos
Durante décadas, se asumió que las organizaciones de verificación de datos proporcionaban una verificación neutral de las afirmaciones, incluso cuando los medios tradicionales perdieron su influencia. Hoy en día, muchas son acusadas de parcialidad. Algunos grupos de verificación de datos se concentran en un lado del conflicto o en una única perspectiva ideológica, lo que puede, involuntariamente o, en algunos casos, reforzar deliberadamente las cámaras de resonancia. La desinformación (difundir falsedades sin saberlo) y la desinformación (difundir falsedades a sabiendas) se han convertido en términos que a menudo se utilizan como arma contra narrativas o pruebas que no se ajustan a una cosmovisión específica, en lugar de utilizarse objetivamente para señalar falsedades demostrables.
Como verificador de datos profesional, experimento estas tensiones de primera mano. Existe una lucha constante entre el rigor y la viabilidad, comprendiendo los límites de mis capacidades y sabiendo cómo estos límites pueden influir en la percepción. Por ejemplo, mi limitada fluidez en árabe y mi incapacidad para leer textos árabes me obligan a recurrir a fuentes secundarias, como aplicaciones de traducción o hablantes nativos, para verificar afirmaciones sobre desinformación o información errónea en árabe. Esta dependencia crea un punto ciego autoimpuesto, que puede dar a mis seguidores la impresión de que las noticias falsas en árabe no existen, cuando en realidad sí existen. En otras palabras, incluso el acto de intentar verificar datos puede crear involuntariamente una burbuja, limitando la visibilidad del alcance total del contenido malicioso en línea.
Más allá del sesgo, todas las organizaciones de verificación de datos, incluyéndome a mí, nos enfrentamos a otro gran desafío: la velocidad. La verificación de datos tradicional suele ser lenta, lo que deja sin satisfacer la demanda del público de respuestas inmediatas y crea un vacío en el que las narrativas sin contrastar pueden arraigarse rápidamente.
Cómo la IA llena el vacío
La IA, en particular los Modelos Extensos de Lenguaje (Large Language Model, LLM en sus siglas en ingles), llena el vacío dejado por la verificación de datos tradicional, lenta o limitada, ofreciendo respuestas rápidas y resúmenes pulidos que parecen objetivos. Su velocidad y apariencia de neutralidad satisfacen el apetito moderno.
Algunos modelos, como los LLM generativos estándar (por ejemplo, ChatGPT básico), se basan únicamente en patrones aprendidos durante el entrenamiento para generar respuestas. Si bien suelen ser utilizados por personas para verificar información, no acceden a fuentes externas en tiempo real y no pueden verificar hechos, sino que producen lo que es estadísticamente probable dados sus datos de entrenamiento.
Otros sistemas, a menudo llamados modelos de recuperación aumentada (por ejemplo, Grok, Perplexity, Gemini), combinan la generación con la recuperación de datos en vivo. Al formular una pregunta, estos modelos pueden obtener la documentación relevante. Los sistemas de recuperación de datos (IA) analizan publicaciones de noticias o contenido web, y luego generan respuestas basadas en la información recuperada. Esto les permite citar y hacer referencia a eventos recientes. Sin embargo, incluso los sistemas de recuperación de datos aumentada no verifican de forma independiente la precisión de las fuentes, ya que asumen que el material recuperado es fiable.

Estos sistemas parecen dinámicos, receptivos, bien informados y, quizás lo más importante, imparciales. En un mundo de confianza erosionada, esto resulta reconfortante. Los usuarios suelen tratar los resultados de la IA como neutrales, objetivos e infalibles. Como resultado, los modelos de lenguaje extensos como ChatGPT, Grok y Gemini se han convertido en los verificadores de datos más recientes del público digital; responden al instante, con párrafos seguros y bien estructurados que parecen fidedignos de una manera que los periodistas o verificadores de datos rara vez pueden concretar.
Sin embargo, esta creciente dependencia refleja una incomprensión fundamental de cómo funcionan realmente estos sistemas. La IA no verifica los hechos. Predice el texto
Entendiendo por qué la IA no verifica datos
Para comprender por qué los LLM no verifican datos como cabría esperar, es útil analizar su funcionamiento básico. Tenga en cuenta que esta sección es una descripción general simplificada y no abarca todos los detalles.
Un LLM es una red neuronal entrenada con conjuntos de datos masivos, que incluyen artículos académicos, artículos de noticias, blogs y publicaciones en redes sociales. El texto se tokeniza, lo que significa que se divide en pequeñas unidades, a menudo fragmentos de palabras o frases. A cada token se le asigna un peso numérico que refleja su fuerte vínculo con otros, basándose en los patrones observados en los datos.
Cuando un usuario envía una pregunta, el modelo genera un token a la vez, prediciendo la siguiente palabra más probable basándose en la secuencia anterior. Por ejemplo:
“Investigadores académicos publicaron un…”
El modelo puede asignar probabilidades como:
“artículo” – 80%
“entrada de blog” – 15%
“tuit” – 5%
La IA elige un token basándose en estas probabilidades y repite el proceso hasta obtener una respuesta coherente. El resultado puede ser fluido y convincente, pero la comprensión es solo aparente. La IA no comprende realmente qué es un artículo académico ni si realmente existe. En esencia, es una máquina predictiva que ordena palabras en secuencias estadísticamente probables.
Este enfoque probabilístico puede generar resultados confiables pero incorrectos, a menudo denominados “alucinaciones”.
Ejemplo 1: Identificación errónea de una foto en Gaza
Encontré este problema con la imagen de una niña recibiendo ayuda en Gaza. Grok, un modelo de recuperación aumentada, identificó erróneamente la foto, afirmando que mostraba a una niña yazidí huyendo de ISIS en el Monte Sinjar, Irak, en 2014.
La secuencia comenzó cuando un usuario X subió la imagen, probablemente para concienciar sobre las condiciones en Gaza. Otros usuarios pidieron a Grok que verificara el contexto, y la IA afirmó con seguridad: «Esta foto es de agosto de 2014 y muestra a una niña yazidí huyendo de ISIS en el Monte Sinjar, Irak, según Reuters y múltiples verificaciones de datos».
La afirmación se extendió por la plataforma y se consideró evidencia de que la imagen había sido mal utilizada. Sin embargo, las fuentes citadas no incluían la misma foto.
Al verificar la afirmación, me basé en evidencia primaria, no en probabilidades. Tras una revisión detallada, confirmé que la imagen era auténtica, tomada en Gaza el 26 de julio de 2025 por el fotoperiodista Abdel Kareem Hana. También pude geolocalizar la ubicación exacta: un punto de distribución de alimentos en la ciudad de Gaza, a 31°31’12.8’N, 34°26’12.2’E.
La narrativa falsa probablemente surgió porque Grok comparó la imagen con otra foto de una niña yazidí de 2014 que compartía similitudes visuales y temáticas, como el color del pelo y los ojos, la postura y el contexto más amplio de recibir ayuda en una zona de conflicto. En lugar de geolocalizar la imagen o verificar fuentes primarias, el modelo se basó en el reconocimiento de patrones y la probabilidad estadística, tratando dos imágenes superficialmente similares como si fueran la misma.
Ejemplo 2: Atribución errónea de la foto de una muñeca con una trampa explosiva
Un segundo ejemplo ilustra un problema similar. El 11 de octubre de 2025, varias cuentas en X afirmaron que la Defensa Civil de Gaza había descubierto juguetes infantiles con trampas explosivas y comida enlatada, supuestamente dejados por las FDI y destinados a causar víctimas. Una foto mostraba una muñeca con cables en su interior, similar a un artefacto explosivo improvisado.
Cuando se le pidió que identificara la imagen, Grok estableció:
La imagen parece provenir de informes de 2016 sobre juguetes con trampas explosivas para niños por parte de ISIS en Mosul, Irak, según informaron The Guardian y CNN. Se está reutilizando en afirmaciones recientes sobre Gaza, pero ninguna fuente verificada confirma su procedencia. Por ejemplo, una publicación de Instagram de 2025 la utiliza para una afirmación de la Defensa Civil de Gaza, aunque los contextos más antiguos coinciden con las imágenes.
Grok no proporcionó enlaces ni citas.
Tras un análisis más detallado, se descubrió que la imagen apareció por primera vez en línea en Yemen en 2018. Los artículos de 2016 de CNN y The Guardian, que supongo fueron los que menciona Grok, no incluyeron esta foto. No hay pruebas que relacionen la imagen con esos eventos. Una vez más, la conclusión de la IA… Se basó en similitudes visuales superficiales en lugar de evidencia primaria o fuentes verificadas.
Estos ejemplos demuestran que incluso cuando la IA intenta verificar datos, la verificación humana sigue siendo esencial para establecer el verdadero origen y contexto de la información.
Un sesgo tácito: Datos de entrenamiento
Además, para comprender los resultados de la IA, es fundamental considerar no solo cómo se entrenan los modelos LLM, sino también qué datos procesan realmente. Los modelos aprenden patrones de conjuntos de datos masivos durante el entrenamiento inicial, y su comportamiento puede moldearse aún más mediante el ajuste fino, que introduce datos seleccionados para ajustar las respuestas a temas específicos. Sin embargo, el proceso de entrenamiento y ajuste fino no garantiza la integridad ni la precisión. Los modelos solo «conocen» lo que se ha publicado digitalmente y se ha incorporado a sus conjuntos de datos.
La calidad, el alcance y la representatividad de estos datos son importantes. En regiones con informes fiables limitados, los modelos de IA están expuestos principalmente a narrativas repetidas, relatos parciales e información de amplia circulación, pero con errores contextuales. Esto crea un sesgo estructural: el modelo refleja desproporcionadamente las perspectivas más visibles en línea, mientras que las voces subrepresentadas o marginadas pueden estar completamente ausentes.
Un ejemplo claro son las masacres en Sudán. Con pocos periodistas profesionales sobre el terreno, gran parte de la información disponible proviene de escasas publicaciones en redes sociales, a menudo en plataformas como TikTok. Ante la falta de imágenes verificadas, nuestros feeds se han visto inundados de contenido generado por IA, a menudo diseñado para evitar material gráfico o maximizar la interacción. Una imagen generada por IA, compartida como auténtica por los usuarios, de una niña sostenida por su madre en un pozo, se convirtió en el centro del discurso en línea, eclipsando las imágenes reales de familias suplicando por sus vidas. Otro video parecía mostrar a un hombre siendo enterrado vivo. Grok lo marcó como «de apariencia auténtica«, pero en realidad provenía de un creador de contenido nigeriano que publica videos de acrobacias que demuestran fuerza física.
Los casos mencionados ponen de relieve vulnerabilidades sistémicas que van más allá de los ejemplos aislados. Las organizaciones que monitorean la integridad de la información han documentado patrones similares en toda la región. Por ejemplo, según el informe Libertad en el Mundo 2024 de Freedom House, más del 90% de la población de Oriente Medio vive en países clasificados como No Libres, con derechos políticos y libertades civiles severamente restringidos. El informe destaca que los conflictos armados, la represión y otros factores influyen considerablemente en la región, dejando a los ciudadanos en entornos donde la información pública es limitada, controlada o filtrada.
El propio informe señala varias limitaciones estructurales que condicionan el acceso a la información. La libertad de prensa está fuertemente restringida, y los periodistas se enfrentan a sanciones legales, acoso o encarcelamiento, mientras que la autocensura y el control editorial por parte del Estado y de poderosos actores privados son generalizados. Las organizaciones de la sociedad civil y las ONG que documentan abusos de derechos humanos o desigualdades sociales operan bajo estrictas limitaciones, y la libertad académica a menudo se ve restringida, omitiendo temas políticamente sensibles del currículo o la investigación. En conjunto, estos factores crean importantes lagunas en la información disponible para el público.
Estas limitaciones condicionan directamente la calidad de los datos disponibles para el entrenamiento de IA. Los modelos a menudo se basan en narrativas repetidas que circulan en línea, publicaciones en redes sociales o informes internacionales parciales, que incorporan sesgos sistémicos. Como resultado, los resultados de la IA reflejan desproporcionadamente las perspectivas con mayor visibilidad, que a menudo se alinean con las narrativas dominantes u oficiales, mientras que las voces marginadas permanecen subrepresentadas o ausentes. Esto ni siquiera considera las normas culturales e ideológicas que influyen en cómo el modelo interpreta el contenido, qué fuentes se consideran confiables o ilegítimas, ni el impacto de los datos protegidos por derechos de autor a los que la IA no puede acceder.
Equilibrio entre los LLM y la verificación de datos
Los LLM pueden ser útiles asistentes de investigación, ayudándole a explorar temas complejos y a guiar la verificación de afirmaciones en línea, pero no pueden reemplazar el juicio humano. Sus resultados dependen de la calidad y el alcance de los datos con los que fueron entrenados, por lo que los errores, sesgos o lagunas en los datos de entrenamiento afectarán sus respuestas. La supervisión humana sigue siendo esencial para interpretar, contextualizar y validar el contenido generado por la IA.
Piense en los LLM como si fueran motores de búsqueda avanzados. Por ejemplo, pueden ayudar a determinar qué países utilizan matrículas blancas con etiquetas azules en la franja superior, lo que facilita la geolocalización de una imagen. También pueden ayudar a delimitar las posibles ubicaciones de las tiendas de campaña de los campamentos de refugiados de UNICEF en terrenos montañosos, lo que proporciona una herramienta de filtrado útil, aunque no siempre sea perfectamente precisa.
En definitiva, los LLM deben considerarse una herramienta que amplía el razonamiento humano en lugar de reemplazarlo. Al comprender cómo funcionan estos sistemas, reconocer sus sesgos inherentes y mantener… Mediante una supervisión crítica, podemos aprovechar eficazmente los LLM y, al mismo tiempo, prevenir la propagación de noticias falsas. En un panorama mediático donde la velocidad y la percepción a menudo prevalecen sobre el rigor, equilibrar la IA basada en probabilidades con la verificación humana basada en evidencia ya no es opcional, sino esencial.


0 comentarios