abril 20, 2025

Alibaba, el gigante chino, promete superar a DeepSeek con su nuevo modelo de IA Qwen2.5-Max

Alibaba, el coloso del comercio electrónico en China, ha presentado Qwen2.5-Max, un avanzado modelo de lenguaje (LLM) basado en inteligencia artificial (IA) que, según la compañía, supera a su competidor DeepSeek V3 en diversas pruebas de conocimiento general, programación y resolución de problemas.

Qwen2.5-Max ha sido preentrenado con más de 20 billones de tokens. Su rendimiento se ha optimizado mediante técnicas de Ajuste Fino Supervisado (SFT) y Aprendizaje de Refuerzo a Partir de Retroalimentación Humana (RLHF). Una de sus características más destacadas es su arquitectura de “mezcla de expertos” (MoE, por sus siglas en inglés), un enfoque de aprendizaje automático que utiliza redes secundarias para procesar conjuntos específicos de datos. Esto permite al modelo decidir cuáles de estos componentes activar para responder con precisión a solicitudes complejas.

Innovación en el diseño de IA

El enfoque MoE facilita la creación de modelos de IA de gran tamaño que requieren menos recursos computacionales y pueden adaptarse a diferentes tipos de datos y tareas con mayor eficiencia, según los expertos. Esta técnica también ha sido empleada por DeepSeek para entrenar sus modelos más recientes.

“El lanzamiento de DeepSeek V3 ha captado la atención de la comunidad de IA hacia los modelos MoE. Sin embargo, los investigadores y la industria aún tienen una experiencia limitada para escalar este tipo de algoritmos”, señala Alibaba.

Desempeño superior en pruebas comparativas

Los ingenieros de Alibaba han evaluado los modelos básicos e instructivos de Qwen2.5-Max utilizando varios puntos de referencia, como MMLU-Pro, que mide el conocimiento a nivel universitario; LiveCodeBench, que analiza las capacidades de codificación; LiveBench, que evalúa respuestas generales, y Arena-Hard, que se aproxima a las preferencias humanas. El rendimiento del algoritmo fue comparado con DeepSeek V3, Llama-3.1-405B, Qwen2.5-72B, GPT-4o y Claude-3.5-Sonnet, demostrando ser superior en todas las pruebas.

Leer:  Empleados de la industria de los videojuegos forman un sindicato para enfrentar las políticas laborales de Trump

Qwen2.5-Max es un modelo de código abierto y su API está disponible para desarrolladores a través de Alibaba Cloud. Además, el público puede probar sus capacidades de manera gratuita mediante Qwen Chat, un bot similar a ChatGPT y DeepSeek que ofrece funciones de búsqueda en la web y generación de contenidos multimedia.

Un entorno competitivo en el sector de IA

El lanzamiento de Qwen2.5-Max ha sido interpretado como una respuesta al rápido crecimiento de DeepSeek en las últimas semanas. La startup recientemente lanzó su modelo R1, una alternativa más económica y accesible a los algoritmos avanzados de razonamiento. Según algunos expertos, su entrenamiento costó alrededor de 6 millones de dólares, una cifra notablemente inferior a los más de 60 millones que Meta invirtió en capacitar a Llama 3.1. Esta optimización de recursos reduce drásticamente los costos de acceso para los usuarios, ya que el uso de DeepSeek-R1 cuesta una trigésima parte de lo que implica utilizar OpenAI.

Este avance ha llevado a los inversores a cuestionar los elevados planes de gasto de las principales empresas de IA. La situación ha generado presión entre los competidores internacionales y locales de DeepSeek, quienes han acelerado el lanzamiento de nuevas soluciones y han reducido sus precios para mantenerse competitivos. Recientemente, ByteDance presentó Doubao-1.5-pro, una actualización de su modelo de IA con capacidades mejoradas de razonamiento. Por su parte, la división de servicios en la nube de Alibaba anunció recortes de hasta el 97% en el precio de múltiples modelos de IA.

Liang Wenfeng, fundador de DeepSeek, afirmó el año pasado que la intención de su empresa no es provocar una guerra de precios. Subrayó que su misión es desarrollar un sistema de inteligencia artificial general y destacó que DeepSeek opera como un laboratorio de investigación que evita las estructuras jerárquicas tradicionales de las grandes corporaciones tecnológicas. El directivo asegura que este modelo de gestión flexible es clave para abordar el futuro de la industria de la IA, afirmando que “los grandes modelos fundacionales requieren innovación continua. Las capacidades de los gigantes tecnológicos tienen sus límites”.

Leer:  Filtración de base de datos de generador de imágenes con IA expone su inquietante uso

Noticias relacionadas