domingo 7 septiembre 2025
  • Acceso
suscríbete
El CiberConfidencial
Sin resultados
Ver todos los resultados
  • Ciberseguridad
  • Inteligencia Artificial
  • Móviles y apps
  • Ciencia
  • Defensa
  • Tecnología
  • Negocios
  • Dispositivos
  • Gaming
El CiberConfidencial
Sin resultados
Ver todos los resultados
Home Inteligencia Artificial

«Empresa china lanza test dinámico para evaluar IA.»

28/06/2025
En Inteligencia Artificial
«Empresa china lanza test dinámico para evaluar IA.»
Share on FacebookShare on TwitterShare on LinkedinShare on WhatsappShare on Email

Evaluación de la inteligencia artificial: Xbench, una herramienta para evaluar la efectividad de los modelos de IA

La evaluación de la efectividad de los modelos de inteligencia artificial (IA) es un desafío común en el campo. Xbench, una prueba desarrollada por la empresa china de capital riesgo HSG (HongShan Capital Group), tiene como objetivo abordar este problema. Esta herramienta evalúa los modelos de IA no solo en función de su capacidad para superar pruebas arbitrarias, sino también en función de su capacidad para ejecutar tareas reales y valiosas. Para lograr esto, Xbench se basa en dos sistemas de evaluación diferentes.

Noticias relacionadas

OpenAI presents GPT-5, nearing AGI

OpenAI presents GPT-5, nearing AGI

09/08/2025
«Agencia de IA de EE.UU. debilitada por recortes de Trump»

«Agencia de IA de EE.UU. debilitada por recortes de Trump»

04/08/2025

El primero es similar a la evaluación comparativa tradicional, que califica la aptitud de un modelo en diversas materias. El segundo es más parecido a una entrevista técnica para un puesto de trabajo, que evalúa el valor económico real que puede aportar un modelo.

Los métodos de Xbench para evaluar la inteligencia bruta incluyen dos componentes: Xbench-ScienceQA y Xbench-DeepResearch. ScienceQA incluye preguntas que abarcan campos que van desde la bioquímica a la mecánica orbital, redactadas por estudiantes de posgrado y revisadas por profesores.

DeepResearch, por su parte, se centra en la capacidad del modelo para navegar por la web en chino y responder a preguntas que requieren una investigación importante.

Además, el equipo detrás de Xbench ha publicado una tabla clasificatoria que compara los resultados de los principales modelos de IA en Xbench. En esta tabla, ChatGPT o3 ocupa el primer puesto en todas las categorías, seguido de otros modelos como Doubao, Gemini 2.5 Pro y Grok, de ByteDance.

La empresa comenzó a desarrollar Xbench en 2022 como una herramienta interna para evaluar qué modelos merecían la inversión. Sin embargo, a medida que el proyecto se hacía más sofisticado, decidieron hacerlo público. Ahora, Xbench está disponible para cualquier persona y se actualizará periódicamente para mantenerlo actualizado.

En el futuro, el equipo planea agregar más dimensiones a la prueba, como la capacidad creativa, la colaboración y la fiabilidad de los modelos. Además, trabajan en desarrollar tareas basadas en flujos de trabajo reales en diversas categorías, como finanzas, derecho, contabilidad y diseño.

En resumen, Xbench es una herramienta innovadora para evaluar la efectividad de los modelos de IA y puede ayudar a los desarrolladores y usuarios a tomar decisiones informadas sobre la inversión en modelos de IA.

Previous Post

«Sorpresivo y fuera de control»

Next Post

El Ejército del Aire español ha incorporado al sistema de defensa aérea nacional el avanzado radar Lanza-T, potenciando así su capacidad para detectar y responder a amenazas aéreas.

Next Post
El Ejército del Aire español ha incorporado al sistema de defensa aérea nacional el avanzado radar Lanza-T, potenciando así su capacidad para detectar y responder a amenazas aéreas.

El Ejército del Aire español ha incorporado al sistema de defensa aérea nacional el avanzado radar Lanza-T, potenciando así su capacidad para detectar y responder a amenazas aéreas.

BROWSE BY CATEGORIES

  • Ciberseguridad
  • Ciencia
  • Defensa
  • Gaming
  • Inteligencia Artificial
  • Móviles y apps
  • Noticia Destacada
  • Tecnología

Bienvenido a El CiberConfidencial, el periódico digital diseñado para los lectores que exigen información rigurosa, actualizada y estratégica sobre los temas que están redefiniendo nuestro mundo: ciberseguridad, tecnología, seguridad digital, inteligencia artificial y ciencia…..

Secciones

Newsletter

  • Ciberseguridad
  • Inteligencia Artificial
  • Móviles y apps
  • Ciencia
  • Defensa
  • Tecnología
  • Negocios

© 2024 El CiberConfidencial S.L

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
Sin resultados
Ver todos los resultados
  • Ciberseguridad
  • Inteligencia Artificial
  • Móviles y apps
  • Ciencia
  • Defensa
  • Tecnología
  • Negocios
  • Dispositivos
  • Gaming

© 2024 El CiberConfidencial S.L