O Movimento da OpenAI em Produtos de Agentes de IA

3 de outubro de 2024Guantum @puppyone founder

A OpenAI, líder em modelos de linguagem grandes, também tem sido pioneira na implementação de produtos baseados em agentes. Ao longo do ano passado, a OpenAI revelou múltiplos produtos de agentes. Examinarei a progressão dos produtos de agentes da OpenAI e sua influência neste artigo.

Plugin Store

A primeira aplicação comercial de agentes originou-se da loja de plugins da OpenAI lançada em abril de 2023. Usuários podiam especificar até três plugins que um agente poderia acessar e auxiliar no chat com usuários.

Inicialmente lançada no início de abril de 2023, foi considerada a app store da próxima geração. No entanto, os números de usuários subsequentes não atenderam às expectativas. Finalmente foi encerrada em novembro de 2023 e substituída por GPTs e All-tools.

GPTs

GPTs foi lançado como a loja de agentes no Dev Day em novembro de 2023. Focou na capacidade de desenvolver e implantar rapidamente o próprio agente através de diálogo em linguagem natural, direcionando cenários ToC. Inicialmente, foi recebido com altas expectativas.

No entanto, foi posteriormente provado que GPTs não conseguem atender às necessidades de desenvolvimento aprofundado e não conseguem lidar com cenários complexos, enquanto cenários simples podem ser completamente resolvidos usando o agente all-tools.

Finalmente, GPTs se tornou mais como uma ferramenta para startups atraírem usuários para seus produtos, em vez de uma pedra angular para um ecossistema próspero.

Agente All-tools

O agente All-tools foi lançado no Dev Day em novembro de 2023. Integrou três ferramentas: busca web, interpretação de código e DALLE-3. Adicionalmente, incluiu implicitamente navegação web e RAG local.

Essas integrações de ferramentas, ao transferir o custo de configurar e selecionar ferramentas para o modelo, remove a necessidade dos usuários configurarem manualmente suas próprias ferramentas, objetivamente diminuindo o esforço do usuário.

No entanto, a OpenAI secretamente removeu a ferramenta de busca web do agente All-tools em meados de 2024 para usuários selecionados. Este teste AB foi tão sutil que muitas pessoas não o notaram.

Esta mudança foi possivelmente porque usar busca em cenários onde não era pretendida poderia diminuir a qualidade das respostas. Além disso, reconhecer a intenção dos usuários sobre usar busca para responder perguntas provou ser desafiador. Portanto, a abordagem de produto da OpenAI para esta questão permanece ambígua.

Isso pode sugerir que há diferenciação entre dois tipos de produtos: motor de busca IA e ChatBot.

Code interpreter (Análise de dados)

Code interpreter foi lançado no início de julho de 2023, apresentando a capacidade do ChatGPT executar código automaticamente após terminá-lo. Se o código resulta em erro, automaticamente gera novo código baseado no erro e tenta executá-lo novamente. Se há três ou mais erros consecutivos, uma resposta de 'Incapaz de completar a tarefa' será dada. Code interpreter pode debugar automaticamente até certo ponto, tornando-o bastante prático.

Subsequentemente, Code interpreter foi renomeado para Análise de dados. Muitas melhorias de experiência do usuário foram feitas em torno de cenários de análise de dados. Por exemplo, imagens geradas durante processamento de dados podem ser ampliadas e centralizadas, e a barra de chat foi movida para a barra lateral, permitindo que usuários conversem com a figura.

OpenAI-o1

OpenAI-o1 não é um produto, mas um modelo. Este modelo foi lançado em setembro de 2024, visando resolver problemas complexos aumentando custos de inferência e usando Chain of Thought (CoT). Requer pensar antes de fornecer uma resposta, então pode ser considerado uma forma de agente, decidindo sobre o que pensar em seguida baseado em seus pensamentos anteriores. Este pensamento passo-a-passo ajuda o modelo a resolver problemas mais difíceis. Esta abordagem metódica permite que o modelo enfrente problemas complexos que eram anteriormente desafiadores de resolver.

Resumo

A OpenAI tentou muitos cenários de agentes. Plugin store e GPTs tiveram resultados mistos, não exatamente um sucesso. Em contraste, o Code Interpreter e Agente All-tools mostraram utilidade prática considerável.

Plugin store VS Agente All-tools

Um agente que depende de ferramentas para trabalhar deve ter dados suficientes de camada de modelo sobre essas ferramentas. Simplesmente usar prompts para chamar ferramentas, como feito na plugin store, é atualmente ineficaz com as capacidades do modelo.

Agente All-tools (com busca web) VS Agente All-tools (sem busca web)

Mesmo um pioneiro como OpenAI luta com decidir quando usar um motor de busca para suporte em cenários gerais. Atualmente, a OpenAI simplesmente entregou esta questão aos usuários parcialmente (decidindo usar ChatGPT ou SearchGPT), o que também pode significar oportunidades para algumas startups de busca IA.

Code interpreter VS GPTs

Um agente prático requer mais que apenas programação de nível de prompt. Necessita numerosos mecanismos de tomada de decisão, que são frequentemente alcançados por código em vez de prompt de linguagem natural. Ironicamente, a própria plataforma assistente da OpenAI não consegue criar um agente tão avançado quanto o code interpreter.