Anthropic ha utilizzato Pokémon per confrontare il suo nuovo modello di intelligenza artificiale

Anthropic ha utilizzato Pokémon per fare il benchmark del suo nuovo modello di IA. Sì, davvero.
In un post del blog pubblicato lunedì, Anthropic ha affermato di aver testato il suo ultimo modello, Claude 3.7 Sonnet , sul classico Game Boy Pokémon Red. L'azienda ha dotato il modello di memoria di base, input pixel dello schermo e chiamate di funzione per premere pulsanti e navigare sullo schermo, consentendogli di giocare a Pokémon ininterrottamente.
Una caratteristica unica di Claude 3.7 Sonnet è la sua capacità di impegnarsi nel "pensiero esteso". Come o3-mini di OpenAI e R1 di DeepSeek, Claude 3.7 Sonnet può "ragionare" su problemi complessi applicando più elaborazione e impiegando più tempo.
A quanto pare, questo si è rivelato utile in Pokémon Rosso.
Rispetto alla versione precedente di Claude, Claude 3.0 Sonnet, che non riusciva a uscire dalla casa di Biancavilla dove inizia la storia, Claude 3.7 Sonnet ha combattuto con successo tre capipalestra Pokémon e ha vinto le loro medaglie.

Ora, non è chiaro quanta elaborazione sia stata necessaria a Claude 3.7 Sonnet per raggiungere quelle pietre miliari, e quanto tempo ci sia voluto per ognuna. Anthropic ha detto solo che il modello ha eseguito 35.000 azioni per raggiungere l'ultimo capopalestra, Surge.
Di sicuro non passerà molto tempo prima che qualche intraprendente sviluppatore lo scopra.
Pokémon Red è più un benchmark per giocattoli che altro. Tuttavia, c'è una lunga storia di giochi usati per scopi di benchmarking dell'IA. Solo negli ultimi mesi, sono spuntate diverse nuove app e piattaforme per testare le capacità di gioco dei modelli su titoli che vanno da Street Fighter a Pictionary .
techcrunch