El Movimiento de OpenAI en Productos de Agentes IA

3 de octubre de 2024Guantum @puppyone founder

OpenAI, un líder en modelos de lenguaje grandes, también ha sido pionero en la implementación de productos basados en agentes. A lo largo del último año, OpenAI ha presentado múltiples productos de agentes. Examinaré la progresión de los productos de agentes de OpenAI y su influencia en este artículo.

Plugin Store

La primera aplicación comercial de agentes se originó en la tienda de Plugins de OpenAI, lanzada en abril de 2023. Los usuarios podían especificar hasta tres plugins a los que un agente podía acceder para ayudar en el chat con los usuarios.

Lanzada inicialmente a principios de abril de 2023, fue considerada la tienda de aplicaciones de próxima generación. Sin embargo, el número de usuarios no cumplió con las expectativas. Finalmente, fue cerrada en noviembre de 2023 y reemplazada por los GPTs y All-tools.

GPTs

Los GPTs se lanzaron como la tienda de agentes en el Dev Day de noviembre de 2023. Se centraba en la capacidad de desarrollar e implementar rápidamente un agente propio a través del diálogo en lenguaje natural, dirigido a escenarios ToC (para consumidores). Inicialmente, generó grandes expectativas.

Sin embargo, más tarde se demostró que los GPTs no pueden satisfacer las necesidades de un desarrollo profundo y no pueden manejar escenarios complejos, mientras que los escenarios simples pueden resolverse completamente usando el agente All-tools.

Finalmente, los GPTs se convirtieron más en una herramienta para que las startups atraigan usuarios a sus productos, en lugar de ser la piedra angular de un ecosistema próspero.

Agente All-tools

El agente All-tools se lanzó en el Dev Day de noviembre de 2023. Integraba tres herramientas: búsqueda web, interpretación de código y DALLE-3. Adicionalmente, incluía implícitamente navegación web y RAG local.

Estas integraciones de herramientas, al transferir el costo de configurar y seleccionar herramientas al modelo, eliminan la necesidad de que los usuarios configuren manualmente sus propias herramientas, disminuyendo objetivamente el esfuerzo del usuario.

Sin embargo, OpenAI eliminó secretamente la herramienta de búsqueda web del agente All-tools a mediados de 2024 para usuarios seleccionados. Esta prueba A/B fue tan sutil que muchas personas no la notaron.

Este cambio posiblemente se debió a que usar la búsqueda en escenarios donde no estaba previsto podría reducir la calidad de las respuestas. Además, reconocer la intención de los usuarios sobre si usar la búsqueda para responder preguntas resultó ser un desafío. Por lo tanto, el enfoque de producto de OpenAI sobre este tema sigue siendo ambiguo.

Esto puede sugerir que existe una diferenciación entre dos tipos de productos: el motor de búsqueda de IA y el ChatBot.

Intérprete de Código (Análisis de Datos)

El Intérprete de Código se lanzó a principios de julio de 2023, con la capacidad de que ChatGPT ejecutara código automáticamente después de escribirlo. Si el código resultaba en un error, generaba automáticamente nuevo código basado en el error e intentaba ejecutarlo de nuevo. Si había tres o más errores consecutivos, se daba una respuesta de 'No se puede completar la tarea'. El Intérprete de Código puede depurar automáticamente hasta cierto punto, lo que lo hace bastante práctico.

Posteriormente, el Intérprete de Código fue renombrado a Análisis de Datos. Se realizaron muchas mejoras en la experiencia del usuario en torno a escenarios de análisis de datos. Por ejemplo, las imágenes generadas durante el procesamiento de datos se pueden ampliar y centrar, y la barra de chat se ha movido a la barra lateral, permitiendo a los usuarios chatear con la figura.

OpenAI-o1

OpenAI-o1 no es un producto, sino un modelo. Este modelo fue lanzado en septiembre de 2024, con el objetivo de resolver problemas complejos aumentando los costos de inferencia y usando la Cadena de Pensamiento (CoT). Requiere pensar antes de proporcionar una respuesta, por lo que puede considerarse una forma de agente, decidiendo qué pensar a continuación basándose en sus pensamientos anteriores. Este pensamiento paso a paso ayuda al modelo a resolver problemas más difíciles. Este enfoque metódico permite al modelo abordar problemas complejos que antes eran difíciles de resolver.

Resumen

OpenAI ha probado muchos escenarios de agentes. La Plugin Store y los GPTs tienen resultados mixtos, no del todo un éxito. En contraste, el Intérprete de Código y el Agente All-tools han demostrado una utilidad práctica considerable.

Plugin store VS Agente All-tools

Un agente que depende de herramientas para trabajar debe tener suficientes datos a nivel de modelo sobre estas herramientas. Simplemente usar prompts para llamar a herramientas, como se hacía en la tienda de plugins, es actualmente ineficaz con las capacidades del modelo.

Agente All-tools (con búsqueda web) VS Agente All-tools (sin búsqueda web)

Incluso un pionero como OpenAI tiene dificultades para decidir cuándo usar un motor de búsqueda como apoyo en escenarios generales. Actualmente, OpenAI simplemente ha entregado este problema en parte a los usuarios (decidir si usar ChatGPT o SearchGPT), lo que también puede significar oportunidades para algunas startups de búsqueda de IA.

Intérprete de Código VS GPTs

Un agente práctico requiere más que solo programación a nivel de prompt. Necesita numerosos mecanismos de toma de decisiones, que a menudo se logran con código en lugar de un prompt en lenguaje natural. Irónicamente, la propia plataforma de asistentes de OpenAI no puede crear un agente tan avanzado como el intérprete de código.