Evaluación de la inteligencia artificial: Xbench, una herramienta para evaluar la efectividad de los modelos de IA
La evaluación de la efectividad de los modelos de inteligencia artificial (IA) es un desafío común en el campo. Xbench, una prueba desarrollada por la empresa china de capital riesgo HSG (HongShan Capital Group), tiene como objetivo abordar este problema. Esta herramienta evalúa los modelos de IA no solo en función de su capacidad para superar pruebas arbitrarias, sino también en función de su capacidad para ejecutar tareas reales y valiosas. Para lograr esto, Xbench se basa en dos sistemas de evaluación diferentes.
El primero es similar a la evaluación comparativa tradicional, que califica la aptitud de un modelo en diversas materias. El segundo es más parecido a una entrevista técnica para un puesto de trabajo, que evalúa el valor económico real que puede aportar un modelo.
Los métodos de Xbench para evaluar la inteligencia bruta incluyen dos componentes: Xbench-ScienceQA y Xbench-DeepResearch. ScienceQA incluye preguntas que abarcan campos que van desde la bioquímica a la mecánica orbital, redactadas por estudiantes de posgrado y revisadas por profesores.
DeepResearch, por su parte, se centra en la capacidad del modelo para navegar por la web en chino y responder a preguntas que requieren una investigación importante.
Además, el equipo detrás de Xbench ha publicado una tabla clasificatoria que compara los resultados de los principales modelos de IA en Xbench. En esta tabla, ChatGPT o3 ocupa el primer puesto en todas las categorías, seguido de otros modelos como Doubao, Gemini 2.5 Pro y Grok, de ByteDance.
La empresa comenzó a desarrollar Xbench en 2022 como una herramienta interna para evaluar qué modelos merecían la inversión. Sin embargo, a medida que el proyecto se hacía más sofisticado, decidieron hacerlo público. Ahora, Xbench está disponible para cualquier persona y se actualizará periódicamente para mantenerlo actualizado.
En el futuro, el equipo planea agregar más dimensiones a la prueba, como la capacidad creativa, la colaboración y la fiabilidad de los modelos. Además, trabajan en desarrollar tareas basadas en flujos de trabajo reales en diversas categorías, como finanzas, derecho, contabilidad y diseño.
En resumen, Xbench es una herramienta innovadora para evaluar la efectividad de los modelos de IA y puede ayudar a los desarrolladores y usuarios a tomar decisiones informadas sobre la inversión en modelos de IA.