OctoTools: a estrutura de código aberto de Stanford otimiza o raciocínio do LLM por meio da orquestração de ferramentas modulares

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba mais
OctoTools , uma nova plataforma de agente de código aberto lançada por cientistas da Universidade de Stanford, pode turbinar modelos de linguagem grandes (LLMs) para tarefas de raciocínio ao dividir tarefas em subunidades e aprimorar os modelos com ferramentas. Embora o uso de ferramentas já tenha se tornado uma aplicação importante de LLMs, o OctoTools torna esses recursos muito mais acessíveis ao remover barreiras técnicas e permitir que desenvolvedores e empresas estendam uma plataforma com suas próprias ferramentas e fluxos de trabalho.
Experimentos mostram que o OctoTools supera métodos clássicos de solicitação e outras estruturas de aplicativos LLM, tornando-o uma ferramenta promissora para usos reais de modelos de IA.
Os LLMs frequentemente lutam com tarefas de raciocínio que envolvem múltiplas etapas, decomposição lógica ou conhecimento especializado de domínio. Uma solução é terceirizar etapas específicas da solução para ferramentas externas, como calculadoras, intérpretes de código, mecanismos de busca ou ferramentas de processamento de imagem. Neste cenário, o modelo foca no planejamento de nível superior, enquanto o cálculo e o raciocínio reais são feitos por meio das ferramentas.
No entanto, o uso de ferramentas tem seus próprios desafios. Por exemplo, LLMs clássicos geralmente exigem treinamento substancial ou aprendizado de poucas tentativas com dados curados para se adaptar a novas ferramentas e, uma vez aumentados, eles serão limitados a domínios e tipos de ferramentas específicos.
A seleção de ferramentas também continua sendo um ponto problemático. Os LLMs podem se tornar bons em usar uma ou algumas ferramentas, mas quando uma tarefa exige o uso de várias ferramentas, eles podem ficar confusos e ter um desempenho ruim.

O OctoTools aborda esses pontos problemáticos por meio de uma estrutura de agente sem treinamento que pode orquestrar várias ferramentas sem a necessidade de ajustar ou refinar os modelos. O OctoTools usa uma abordagem modular para lidar com tarefas de planejamento e raciocínio e pode usar qualquer LLM de propósito geral como sua espinha dorsal.
Entre os principais componentes do OctoTools estão os “tool cards”, que agem como wrappers para as ferramentas que o sistema pode usar, como intérpretes de código Python e APIs de pesquisa na web. Os tool cards incluem metadados como formatos de entrada-saída, limitações e melhores práticas para cada ferramenta. Os desenvolvedores podem adicionar seus próprios tool cards à estrutura para se adequarem às suas aplicações.
Quando um novo prompt é alimentado no OctoTools, um módulo “planejador” usa o backbone LLM para gerar um plano de alto nível que resume o objetivo, analisa as habilidades necessárias, identifica ferramentas relevantes e inclui considerações adicionais para a tarefa. O planejador determina um conjunto de subobjetivos que o sistema precisa atingir para realizar a tarefa e os descreve em um plano de ação baseado em texto.
Para cada etapa do plano, um módulo “preditor de ação” refina a submeta para especificar a ferramenta necessária para alcançá-la e garantir que ela seja executável e verificável.
Uma vez que o plano esteja pronto para ser executado, um “gerador de comando” mapeia o plano baseado em texto para o código Python que invoca as ferramentas especificadas para cada subobjetivo, então passa o comando para o “executor de comando”, que executa o comando em um ambiente Python. Os resultados de cada etapa são validados por um módulo “verificador de contexto” e o resultado final é consolidado por um “resumidor de solução”.

“Ao separar o planejamento estratégico da geração de comandos, o OctoTools reduz erros e aumenta a transparência, tornando o sistema mais confiável e fácil de manter”, escrevem os pesquisadores.
O OctoTools também usa um algoritmo de otimização para selecionar o melhor subconjunto de ferramentas para cada tarefa. Isso ajuda a evitar sobrecarregar o modelo com ferramentas irrelevantes.
Existem várias estruturas para criar aplicativos LLM e sistemas de agentes, incluindo Microsoft AutoGen , LangChain e OpenAI API “ chamada de função ”. O OctoTools supera essas plataformas em tarefas que exigem raciocínio e uso de ferramentas, de acordo com seus desenvolvedores.

Os pesquisadores testaram todas as estruturas em vários benchmarks para raciocínio visual, matemático e científico, bem como conhecimento médico e tarefas de agente. O OctoTools obteve um ganho médio de precisão de 10,6% sobre o AutoGen, 7,5% sobre o GPT-Functions e 7,3% sobre o LangChain ao usar as mesmas ferramentas. De acordo com os pesquisadores, a razão para o melhor desempenho do OctoTools é sua distribuição superior de uso de ferramentas e a decomposição adequada da consulta em subobjetivos.
OctoTools oferece às empresas uma solução prática para usar LLMs para tarefas complexas. Sua integração de ferramentas extensível ajudará a superar as barreiras existentes para criar aplicativos avançados de raciocínio de IA. Os pesquisadores lançaram o código para OctoTools no GitHub .
Se você quer impressionar seu chefe, o VB Daily tem o que você precisa. Nós damos a você informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para obter o máximo de ROI.
Leia nossa Política de Privacidade
Obrigado por assinar. Confira mais boletins informativos do VB aqui .
Ocorreu um erro.

venturebeat