
Los recientes avances en inteligencia artificial (IA) podrían no ser tan significativos como se cree. Esta es la conclusión principal de un estudio llevado a cabo por investigadores de la Universidad Nacional de Educación a Distancia (UNED) en España, quienes sugieren que las capacidades de modelos como OpenAI o3-mini y DeepSeek R-1 dependen más de la memorización que de un razonamiento auténtico.
El desarrollo de sistemas de IA con habilidades de razonamiento se ha convertido en el nuevo eje de competencia en la industria. La mayoría de estos modelos han sido entrenados para responder a solicitudes mediante “cadenas privadas de pensamiento”, un método que les permite «reflexionar» antes de generar una respuesta, según lo indicado por empresas como OpenAI. Estos sistemas están diseñados para descomponer la solicitud y relacionarla con información previa, con el fin de ofrecer respuestas más precisas.
La industria sostiene que esta forma de razonamiento es avanzada y se asemeja al humano, evaluándose a través de pruebas de referencia conocidas como benchmarks. Los modelos que obtienen mejores puntuaciones en estos exámenes suelen ser considerados los más potentes. Sin embargo, los especialistas advierten sobre la fiabilidad de estos tests, una preocupación que se ha intensificado debido a la intensa competencia en el sector.
Un investigador de la UNED ha señalado que, ante la presión competitiva, se presta demasiada atención a los benchmarks, lo que podría facilitar que las empresas manipulen los resultados. Por lo tanto, no se puede confiar plenamente en los números que se reportan.
Evaluación de la confiabilidad de los tests
Para evaluar la fiabilidad de estas pruebas, los investigadores diseñaron un experimento sencillo pero efectivo. Su objetivo era determinar si los modelos responden a los tests mediante un razonamiento real o si simplemente buscan la opción más probable basada en sus datos de entrenamiento.
El ensayo consistió en modificar los benchmarks tradicionales al introducir una opción de respuesta genérica: “Ninguna de las anteriores”. Esto obligó a las IA a razonar en lugar de identificar patrones previamente aprendidos. Las pruebas se aplicaron a 16 modelos de lenguaje de gran tamaño, incluyendo DeepSeek-R1, OpenAI o3, Gemma 2-27b, Claude-3.5, Llama 3, GPT-4 y Mistral 7B. Los resultados fueron sorprendentes, mostrando que todos los modelos perdieron precisión de manera notable con esta variación, con una caída promedio del 57% y del 50% en dos indicadores tradicionales de referencia, variando entre el 10% y el 93% según el modelo.
Influencia del idioma en el rendimiento de la IA
Los investigadores también destacaron que el idioma influye en el desempeño de los modelos de IA. Las pruebas en inglés suelen arrojar mejores resultados, mientras que el rendimiento disminuye en español y se reduce drásticamente con lenguas menos comunes. Esta diferencia es más notable en modelos con estructuras de procesamiento neuronal más limitadas. Las versiones compactas de los LLM, que pueden ejecutarse en dispositivos y ofrecen mayor privacidad, tienden a presentar más sesgos lingüísticos, dependiendo del idioma utilizado.
El estudio, realizado en el marco del proyecto Odesia en colaboración con la plataforma Red.es, concluye que los modelos de IA dependen en gran medida de la memorización más que del razonamiento genuino. Este tipo de variaciones ya se había probado en la formulación de preguntas en los benchmarks, pero la modificación en las opciones de respuesta permite evaluar con mayor precisión el progreso real en las capacidades de razonamiento de los sistemas, sin que el acierto por memorización distorsione los resultados.
A pesar de las limitaciones identificadas, el estudio reconoce que los desarrolladores están explorando