Anthropic ha presentado dos nuevos modelos de IA que representan un avance significativo hacia la creación de agentes de IA verdaderamente efectivos. Los agentes de IA capacitados con Claude Opus 4, el modelo más potente de la empresa hasta la fecha, elevan el estándar de lo que estos sistemas son capaces de lograr al abordar tareas complejas durante períodos extensos y responder de manera más útil a las instrucciones del usuario. Claude Opus 4 ha sido diseñado para llevar a cabo tareas complejas que implican la realización de miles de pasos a lo largo de varias horas, demostrando su eficacia al crear una guía para el videojuego Pokémon Rojo mientras jugaba de forma ininterrumpida durante más de 24 horas. Este hito supera con creces la capacidad de su predecesor, Claude 3.7 Sonnet, que solo era capaz de jugar durante 45 minutos, según lo señalado por Dianne Penn, jefa de investigación de producto en Anthropic.
La empresa destaca el caso de Rakuten, una compañía tecnológica japonesa, que recientemente utilizó con éxito Claude Opus 4 para codificar de forma autónoma durante aproximadamente siete horas en un proyecto de código abierto complejo. Anthropic logró estos avances al mejorar la capacidad del modelo para crear y mantener «archivos de memoria» que almacenaban información clave, lo que permitió al modelo completar tareas más extensas de manera más efectiva.
Este avance es considerado como la transición de un simple asistente a un agente de IA plenamente capaz de tomar decisiones por sí mismo, permitiendo a los humanos actuar como delegadores o jueces en lugar de tener que guiar continuamente estos sistemas en cada paso. Mientras que Claude Opus 4 estará disponible únicamente para los clientes de pago de Anthropic, un segundo modelo llamado Claude Sonnet 4 estará disponible tanto para usuarios de pago como gratuitos. Opus 4 se presenta como un modelo potente y de gran tamaño para desafíos complejos, mientras que Sonnet 4 se describe como un modelo inteligente y eficiente para un uso cotidiano. Ambos modelos son híbridos, lo que les permite proporcionar respuestas rápidas o más detalladas y razonadas según la naturaleza de la solicitud.
Además, durante el cálculo de una respuesta, estos modelos pueden recurrir a recursos en línea o a otras herramientas para mejorar sus resultados. Las empresas de IA se encuentran inmersas en una competencia por desarrollar agentes de IA efectivos capaces de planificar, razonar y ejecutar tareas complejas de manera confiable y autónoma.
Sin embargo, aún existen obstáculos de seguridad que deben superarse, ya que los agentes de IA pueden comportarse de manera impredecible y realizar acciones no deseadas, lo cual se vuelve aún más problemático cuando se espera que actúen sin supervisión humana. Anthropic ha logrado reducir estos problemas en los nuevos modelos en un 65% en comparación con su predecesor, Claude Sonnet 3.7, mediante una vigilancia más estrecha de los comportamientos problemáticos durante el entrenamiento y la mejora del entorno y métodos de evaluación.
En resumen, estos avances en la capacidad de los modelos de IA de Anthropic representan un paso significativo hacia la creación de agentes de IA verdaderamente útiles y confiables que pueden adaptarse a una amplia gama de tareas y situaciones de manera eficaz y autónoma.