OctoTools: il framework open source di Stanford ottimizza il ragionamento LLM attraverso l'orchestrazione modulare degli strumenti

Iscriviti alle nostre newsletter giornaliere e settimanali per gli ultimi aggiornamenti e contenuti esclusivi sulla copertura AI leader del settore. Scopri di più
OctoTools , una nuova piattaforma agentica open source rilasciata dagli scienziati della Stanford University, può potenziare i grandi modelli linguistici (LLM) per le attività di ragionamento suddividendo le attività in sottounità e potenziando i modelli con strumenti. Mentre l'uso di strumenti è già diventato un'applicazione importante degli LLM, OctoTools rende queste capacità molto più accessibili rimuovendo le barriere tecniche e consentendo a sviluppatori e aziende di estendere una piattaforma con i propri strumenti e flussi di lavoro.
Gli esperimenti dimostrano che OctoTools supera in prestazioni i metodi di prompt classici e altri framework applicativi LLM, il che lo rende uno strumento promettente per l'impiego pratico dei modelli di intelligenza artificiale.
Gli LLM spesso hanno difficoltà con compiti di ragionamento che implicano più passaggi, scomposizione logica o conoscenza di dominio specializzata. Una soluzione è quella di esternalizzare passaggi specifici della soluzione a strumenti esterni come calcolatrici, interpreti di codice, motori di ricerca o strumenti di elaborazione delle immagini. In questo scenario, il modello si concentra sulla pianificazione di livello superiore mentre il calcolo e il ragionamento effettivi vengono eseguiti tramite gli strumenti.
Tuttavia, l'uso degli strumenti ha le sue sfide. Ad esempio, gli LLM classici spesso richiedono una formazione sostanziale o un apprendimento di poche sessioni con dati curati per adattarsi ai nuovi strumenti e, una volta aumentati, saranno limitati a specifici domini e tipi di strumenti.
Anche la selezione degli strumenti rimane un punto dolente. Gli LLM possono diventare bravi a usare uno o pochi strumenti, ma quando un compito richiede l'uso di più strumenti, possono confondersi e avere prestazioni scadenti.

OctoTools affronta questi punti critici tramite un framework agentico senza formazione che può orchestrare più strumenti senza la necessità di mettere a punto o adattare i modelli. OctoTools utilizza un approccio modulare per affrontare attività di pianificazione e ragionamento e può utilizzare qualsiasi LLM generico come struttura portante.
Tra i componenti chiave di OctoTools ci sono le "tool card", che fungono da wrapper per gli strumenti che il sistema può usare, come gli interpreti di codice Python e le API di ricerca web. Le tool card includono metadati come formati di input-output, limitazioni e best practice per ogni strumento. Gli sviluppatori possono aggiungere le proprie tool card al framework per adattarle alle proprie applicazioni.
Quando un nuovo prompt viene immesso in OctoTools, un modulo "planner" utilizza il backbone LLM per generare un piano di alto livello che riassume l'obiettivo, analizza le competenze richieste, identifica gli strumenti rilevanti e include considerazioni aggiuntive per l'attività. Il planner determina un set di sotto-obiettivi che il sistema deve raggiungere per portare a termine l'attività e li descrive in un piano d'azione basato su testo.
Per ogni fase del piano, un modulo “predittore di azioni” perfeziona il sotto-obiettivo per specificare lo strumento necessario per raggiungerlo e assicurarsi che sia eseguibile e verificabile.
Una volta che il piano è pronto per essere eseguito, un "generatore di comandi" mappa il piano basato su testo in codice Python che richiama gli strumenti specificati per ogni sotto-obiettivo, quindi passa il comando al "command executor", che esegue il comando in un ambiente Python. I risultati di ogni passaggio vengono convalidati da un modulo "context verifier" e il risultato finale viene consolidato da un "solution summaryer".

"Separando la pianificazione strategica dalla generazione dei comandi, OctoTools riduce gli errori e aumenta la trasparenza, rendendo il sistema più affidabile e più facile da manutenere", scrivono i ricercatori.
OctoTools utilizza anche un algoritmo di ottimizzazione per selezionare il miglior sottoinsieme di strumenti per ogni attività. Ciò aiuta a evitare di sovraccaricare il modello con strumenti irrilevanti.
Esistono diversi framework per la creazione di applicazioni LLM e sistemi agenti, tra cui Microsoft AutoGen , LangChain e OpenAI API " function calling ". Secondo i suoi sviluppatori, OctoTools supera queste piattaforme nelle attività che richiedono ragionamento e utilizzo di strumenti.

I ricercatori hanno testato tutti i framework su diversi benchmark per ragionamento visivo, matematico e scientifico, nonché conoscenze mediche e attività agentiche. OctoTools ha ottenuto un guadagno di accuratezza medio del 10,6% rispetto ad AutoGen, del 7,5% rispetto a GPT-Functions e del 7,3% rispetto a LangChain quando si utilizzano gli stessi strumenti. Secondo i ricercatori, il motivo delle migliori prestazioni di OctoTools è la sua distribuzione superiore dell'utilizzo degli strumenti e la corretta scomposizione della query in sotto-obiettivi.
OctoTools offre alle aziende una soluzione pratica per utilizzare LLM per attività complesse. La sua integrazione di strumenti estensibili aiuterà a superare le barriere esistenti per la creazione di applicazioni di ragionamento AI avanzate. I ricercatori hanno rilasciato il codice per OctoTools su GitHub .
Se vuoi impressionare il tuo capo, VB Daily ha quello che fa per te. Ti diamo informazioni privilegiate su cosa stanno facendo le aziende con l'intelligenza artificiale generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere approfondimenti per il massimo ROI.
Leggi la nostra Informativa sulla Privacy
Grazie per esserti iscritto. Scopri altre newsletter VB qui .
Si è verificato un errore.

venturebeat