OpenAI ha lanzado recientemente sus modelos de inteligencia artificial más avanzados, conocidos como o3 y o4-mini, diseñados con un enfoque en razonamiento complejo. Aunque estos modelos ofrecen mejoras notables en áreas como programación y matemáticas, presentan un problema inquietante para empresas y desarrolladores: alucinan más que sus predecesores.
¿Qué son las “alucinaciones” en IA?
En el contexto de modelos de lenguaje, las “alucinaciones” se refieren a cuando una IA inventa información falsa o engañosa al responder preguntas. Este problema ha sido una barrera clave para la adopción empresarial de IA, especialmente en sectores donde la precisión es crítica, como el legal, médico o financiero.
Modelos más inteligentes… y más inexactos
De acuerdo al sitio TechCrunch, los nuevos modelos o3 y o4-mini tienen tasas de alucinación más altas que versiones anteriores como o1, o1-mini y o3-mini. También superan en este fallo a modelos no orientados al razonamiento como GPT-4o, su versión con capacidades de búsqueda en la web.
Uno de los datos más preocupantes se registró en PersonQA, una métrica desarrollada por OpenAI para evaluar conocimiento sobre personas. El modelo o3 alucinó en el 33% de los casos, más del doble que o1 (16%) y o3-mini (14.8%). Peor aún, o4-mini alucinó en el 48% de las preguntas.
¿Por qué alucinan más? Ni OpenAI lo sabe con certeza
El reporte técnico de OpenAI indica que “se necesita más investigación” para entender por qué a mayor capacidad de razonamiento, mayor propensión a inventar respuestas. La hipótesis interna es que, como estos modelos hacen más afirmaciones en general, terminan incluyendo tanto más aciertos como más errores.
Además, algunos expertos creen que el entrenamiento con aprendizaje por refuerzo podría amplificar estos errores. Neil Chowdhury, investigador de la organización sin fines de lucro Transluce y ex OpenAI, sugiere que los pipelines tradicionales que mitigan alucinaciones no están siendo tan efectivos en los nuevos modelos de la serie o.
Impacto en el sector empresarial: entre innovación y riesgos
Kian Katanforoosh, CEO de la startup Workera y profesor adjunto en Stanford, señala que, aunque están utilizando o3 en flujos de trabajo de programación con buenos resultados, han notado que el modelo genera enlaces rotos al inventar URLs inexistentes, un detalle que puede parecer menor pero que puede tener repercusiones serias en entornos donde los datos deben ser verificables.
En industrias como la legal, estas alucinaciones pueden convertirse en errores costosos. Ninguna firma de abogados estaría dispuesta a aceptar una IA que inserte hechos falsos en contratos.
¿La solución? Integrar búsqueda en la web
Una vía prometedora para reducir este problema sería dar a los modelos capacidades integradas de búsqueda online. Por ejemplo, GPT-4o con acceso web alcanza un 90% de precisión en SimpleQA, otro benchmark interno de OpenAI. Al permitir que el modelo consulte información real y actualizada, se puede mitigar la necesidad de “inventar” respuestas cuando su entrenamiento no le da certezas.
El desafío es si los usuarios están dispuestos a compartir sus preguntas con motores de búsqueda externos, lo que puede ser sensible en aplicaciones privadas o reguladas.
Razonamiento vs precisión: el nuevo dilema de la IA moderna
El desarrollo de modelos basados en razonamiento es la nueva frontera de la inteligencia artificial, ya que permite mejorar rendimiento sin requerir cantidades masivas de datos o potencia de cómputo. Sin embargo, este enfoque también está generando nuevas vulnerabilidades.
Elizabeth Laird, del Center for Democracy and Technology, advierte que errores como falsos positivos podrían tener consecuencias graves si, por ejemplo, un modelo malinterpreta información crítica en contextos de vigilancia o procesos judiciales. Ya no se trata solo de responder con estilo humano: ahora, el reto es hacerlo con verdad verificable.
OpenAI reconoce que está trabajando activamente en reducir las alucinaciones en todos sus modelos. Pero si los modelos de razonamiento continúan generando más errores, será necesario replantear desde la arquitectura hasta el entrenamiento para que estos avances sean comercialmente viables y éticamente seguros.
Para más noticias del mundo, cultura geek & tech, sigue en: GeekandLife.com.mx | Si quieres noticias Anime, Videojuegos y diversión, visita MultiAnime.com.mx

Fuente: TechCrunch