Nowy agent sztucznej inteligencji Google’a naśladuje pisanie człowieka, aby usprawnić badania w przedsiębiorstwach

Chcesz otrzymywać mądrzejsze informacje w swojej skrzynce odbiorczej? Zapisz się na nasz cotygodniowy newsletter, aby otrzymywać tylko to, co istotne dla liderów w dziedzinie sztucznej inteligencji, danych i bezpieczeństwa w przedsiębiorstwach. Subskrybuj teraz
Naukowcy z Google opracowali nowe ramy dla agentów badawczych zajmujących się sztuczną inteligencją, które w kluczowych testach porównawczych przewyższają wiodące systemy konkurencji, takie jak OpenAI, Perplexity i inne .
Nowy agent o nazwie Test-Time Diffusion Deep Researcher (TTD-DR) został zainspirowany sposobem, w jaki ludzie piszą, przechodząc przez proces tworzenia szkiców, wyszukiwania informacji i wprowadzania iteracyjnych poprawek.
System wykorzystuje mechanizmy dyfuzyjne i algorytmy ewolucyjne w celu prowadzenia kompleksowych i dokładnych badań nad złożonymi tematami.
Przedsiębiorstwa mogą dzięki temu stworzyć nową generację dedykowanych asystentów badawczych do realizacji wartościowych zadań , z którymi standardowe systemy rozszerzonej generacji danych (RAG) mają problemy, np. generowanie analizy konkurencji lub raportu wejścia na rynek.
Skalowanie sztucznej inteligencji osiąga swoje granice
Limity mocy, rosnące koszty tokenów i opóźnienia w wnioskowaniu zmieniają oblicze sztucznej inteligencji w przedsiębiorstwach. Dołącz do naszego ekskluzywnego salonu i odkryj, jak najlepsze zespoły:
- Przekształcenie energii w przewagę strategiczną
- Projektowanie efektywnego wnioskowania w celu rzeczywistego zwiększenia przepustowości
- Odblokowanie konkurencyjnego zwrotu z inwestycji (ROI) dzięki zrównoważonym systemom AI
Zarezerwuj sobie miejsce i bądź na bieżąco : https://bit.ly/4mwGngO
Zdaniem autorów artykułu, to właśnie rzeczywiste przypadki biznesowe były głównym celem systemu.
Agenci głębokiego badania (DR) zostali zaprojektowani do obsługi złożonych zapytań wykraczających poza proste wyszukiwanie. Wykorzystują duże modele językowe (LLM) do planowania, narzędzia takie jak wyszukiwarka internetowa do gromadzenia informacji, a następnie syntetyzują wyniki w szczegółowym raporcie za pomocą technik skalowania w czasie testu, takich jak metoda łańcucha myśli (CoT), próbkowanie „best-of-N” i przeszukiwanie drzewa Monte Carlo.
Wiele z tych systemów ma jednak fundamentalne ograniczenia projektowe. Większość publicznie dostępnych agentów DR stosuje algorytmy i narzędzia testowe bez struktury odzwierciedlającej ludzkie zachowania poznawcze. Agenci open source często stosują sztywny, liniowy lub równoległy proces planowania, wyszukiwania i generowania treści, co utrudnia interakcję i wzajemną korektę poszczególnych faz badań.

Może to spowodować, że agent straci globalny kontekst badań i nie dostrzeże istotnych powiązań między różnymi informacjami.
Jak zauważają autorzy artykułu, „wskazuje to na fundamentalne ograniczenie obecnych prac nad agentami DR i podkreśla potrzebę stworzenia bardziej spójnego, specjalnie zaprojektowanego frameworka dla agentów DR, który będzie imitował lub przewyższał możliwości badawcze człowieka”.
W przeciwieństwie do liniowego procesu większości agentów AI, badacze-ludzie pracują iteracyjnie . Zazwyczaj zaczynają od planu wysokiego poziomu, tworzą wstępny szkic, a następnie angażują się w wiele cykli rewizji . Podczas tych rewizji poszukują nowych informacji, aby wzmocnić swoje argumenty i uzupełnić luki.
Naukowcy z Google zaobserwowali, że ten proces ludzki można naśladować za pomocą mechanizmu modelu dyfuzyjnego, wzbogaconego o komponent wyszukiwania. (Modele dyfuzyjne są często wykorzystywane w generowaniu obrazów. Zaczynają od obrazu z szumem i stopniowo go udoskonalają, aż do uzyskania obrazu szczegółowego).
Jak wyjaśniają badacze: „W tej analogii wytrenowany model dyfuzji początkowo generuje zaszumiony projekt, a moduł usuwania szumów, wspomagany przez narzędzia do wyszukiwania, przekształca ten projekt w dane wyjściowe o wyższej jakości (lub wyższej rozdzielczości)”.
TTD-DR opiera się na tym schemacie. Struktura traktuje tworzenie raportu badawczego jako proces dyfuzji, w którym początkowy, „hałaśliwy” projekt jest stopniowo udoskonalany w dopracowany raport końcowy.

Osiąga się to poprzez dwa podstawowe mechanizmy. Pierwszy, który badacze nazywają „Odszumianiem z Odszumianiem”, rozpoczyna się od wstępnego projektu i iteracyjnie go ulepsza. Na każdym etapie agent wykorzystuje bieżący projekt do formułowania nowych zapytań, pobiera informacje zewnętrzne i integruje je w celu „odszumiania” raportu poprzez korygowanie nieścisłości i dodawanie szczegółów.
Drugi mechanizm, „Self-Evolution”, zapewnia, że każdy komponent agenta (planista, generator pytań i syntezator odpowiedzi) niezależnie optymalizuje swoją wydajność. W komentarzu dla VentureBeat, Rujun Han, naukowiec w Google i współautor artykułu, wyjaśnił, że ta ewolucja na poziomie komponentów jest kluczowa, ponieważ sprawia, że „odszumianie raportów jest bardziej efektywne”. Jest to podobne do procesu ewolucyjnego, w którym każda część systemu stopniowo poprawia swoje zadanie, zapewniając lepszy kontekst dla głównego procesu rewizji.

„Złożona interakcja i synergistyczne połączenie tych dwóch algorytmów są kluczowe dla osiągnięcia wysokiej jakości wyników badań” – stwierdzają autorzy. Ten iteracyjny proces bezpośrednio przekłada się na raporty, które są nie tylko dokładniejsze, ale także bardziej spójne logicznie. Jak zauważa Han, ponieważ model został oceniony pod kątem przydatności, obejmującej płynność i spójność, wzrost wydajności jest bezpośrednim miernikiem jego zdolności do tworzenia dobrze ustrukturyzowanych dokumentów biznesowych.
Jak wynika z artykułu, powstałe narzędzie towarzyszące badaniom „jest w stanie generować pomocne i kompleksowe raporty dotyczące złożonych kwestii badawczych w różnych dziedzinach przemysłu, w tym w finansach, biomedycynie, rekreacji i technologii”, co stawia je w tej samej klasie co dogłębne produkty badawcze firm OpenAI, Perplexity i Grok.
Aby zbudować i przetestować swoje ramy, badacze wykorzystali Agent Development Kit (ADK) firmy Google, rozszerzalną platformę do organizowania złożonych przepływów pracy związanych ze sztuczną inteligencją, przy czym głównym LLM był Gemini 2.5 Pro (choć można go zamienić na inne modele).
Przeprowadzili testy porównawcze TTD-DR z wiodącymi systemami komercyjnymi i typu open source, w tym OpenAI Deep Research , Perplexity Deep Research, Grok DeepSearch i systemem typu open source GPT-Researcher .
Ocena koncentrowała się na dwóch głównych obszarach. Do generowania obszernych raportów, wykorzystano test porównawczy DeepConsult , zbiór pytań biznesowych i konsultingowych, a także własny zestaw danych LongForm Research. Aby odpowiedzieć na pytania wieloskokowe, wymagające rozbudowanego wyszukiwania i rozumowania, agent został przetestowany w wymagających testach akademickich i praktycznych, takich jak Humanity's Last Exam (HLE) i GAIA .
Wyniki pokazały, że TTD-DR konsekwentnie przewyższa konkurencję. W bezpośrednim porównaniu z OpenAI Deep Research w zakresie generowania raportów długoterminowych, TTD-DR osiągnął wskaźniki skuteczności na poziomie 69,1% i 74,5% dla dwóch różnych zestawów danych. Przewyższył również system OpenAI w trzech oddzielnych testach porównawczych, które wymagały wnioskowania wieloskokowego w celu znalezienia zwięzłych odpowiedzi, osiągając wzrost wydajności o 4,8%, 7,7% i 1,7%.

Chociaż obecne badania koncentrują się na raportach tekstowych generowanych z wykorzystaniem wyszukiwania internetowego, struktura została zaprojektowana tak, aby była wysoce adaptowalna. Han potwierdził, że zespół planuje rozszerzyć prace o więcej narzędzi do złożonych zadań korporacyjnych.
Podobny proces „dyfuzji w czasie testów” można zastosować do generowania złożonego kodu oprogramowania , tworzenia szczegółowego modelu finansowego lub projektowania wieloetapowej kampanii marketingowej , w której początkowy „szkic” projektu jest iteracyjnie udoskonalany za pomocą nowych informacji i opinii z różnych specjalistycznych narzędzi.
„Wszystkie te narzędzia można naturalnie włączyć do naszego frameworka” – powiedział Han, sugerując, że takie podejście skoncentrowane na projektach może stać się podstawową architekturą dla szerokiej gamy złożonych, wieloetapowych agentów AI.
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Przedstawiamy Ci informacje z pierwszej ręki na temat tego, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz podzielić się swoimi spostrzeżeniami, aby zmaksymalizować zwrot z inwestycji (ROI).
Przeczytaj naszą Politykę prywatności
Dziękujemy za subskrypcję. Więcej newsletterów VB znajdziesz tutaj .
Wystąpił błąd.

venturebeat