Новый диффузионный ИИ-агент Google имитирует человеческий текст для улучшения корпоративных исследований

Хотите получать более ценную информацию? Подпишитесь на наши еженедельные рассылки, чтобы получать только то, что важно для руководителей в сфере корпоративного ИИ, данных и безопасности. Подпишитесь сейчас
Исследователи Google разработали новую структуру для исследовательских агентов на основе ИИ, которая превосходит ведущие системы конкурентов OpenAI, Perplexity и других по ключевым показателям.
Новый агент под названием Test-Time Diffusion Deep Researcher (TTD-DR) создан по образцу того, как люди пишут, проходя через процесс составления черновика, поиска информации и внесения итеративных правок.
Система использует механизмы диффузии и эволюционные алгоритмы для проведения более комплексных и точных исследований по сложным темам.
Для предприятий эта платформа может стать основой нового поколения специализированных исследовательских помощников для решения важных задач , с которыми не справляются стандартные системы дополненной генерации (RAG) поиска , например, для создания конкурентного анализа или отчета о выходе на рынок.
Масштабирование ИИ достигает предела
Ограничения мощности, рост стоимости токенов и задержки в выводе данных меняют корпоративный ИИ. Присоединяйтесь к нашему эксклюзивному салону, чтобы узнать, как обстоят дела у лучших команд:
- Превращение энергии в стратегическое преимущество
- Разработка эффективного вывода для реального увеличения пропускной способности
- Обеспечение конкурентоспособной рентабельности инвестиций с помощью устойчивых систем ИИ
Забронируйте свое место, чтобы оставаться впереди : https://bit.ly/4mwGngO
По словам авторов статьи, именно эти реальные бизнес-кейсы были основной целью системы.
Агенты глубоких исследований (DR) предназначены для решения сложных запросов, выходящих за рамки простого поиска. Они используют большие языковые модели (LLM) для планирования, используют такие инструменты, как веб-поиск, для сбора информации, а затем синтезируют результаты в подробный отчёт с помощью методов масштабирования времени тестирования, таких как цепочка мыслей (CoT), выборка с лучшим из N и поиск по дереву Монте-Карло.
Однако многие из этих систем имеют фундаментальные ограничения в плане проектирования. Большинство общедоступных агентов DR используют алгоритмы и инструменты, используемые во время тестирования, без структуры, отражающей когнитивное поведение человека. Агенты с открытым исходным кодом часто следуют жёсткому линейному или параллельному процессу планирования, поиска и генерации контента, что затрудняет взаимодействие и корректировку различных этапов исследования.

Это может привести к тому, что агент потеряет глобальный контекст исследования и упустит важные связи между различными фрагментами информации.
Как отмечают авторы статьи, «это указывает на фундаментальное ограничение в работе современных агентов DR и подчеркивает необходимость в более целостной, специально созданной структуре для агентов DR, которая имитирует или превосходит исследовательские возможности человека».
В отличие от линейного процесса большинства агентов искусственного интеллекта, исследователи-люди работают итеративно . Обычно они начинают с общего плана, создают первоначальный черновик, а затем проходят несколько циклов доработки . В ходе этих доработок они ищут новую информацию для подкрепления своих аргументов и заполнения пробелов.
Исследователи Google заметили, что этот человеческий процесс можно смоделировать с помощью механизма модели диффузии, дополненной компонентом поиска. (Модели диффузии часто используются при создании изображений. Они начинают с зашумленного изображения и постепенно улучшают его, пока оно не станет детальным.)
Как объясняют исследователи, «в этой аналогии обученная модель диффузии изначально генерирует зашумленный проект, а модуль шумоподавления с помощью инструментов поиска перерабатывает этот проект в выходные данные более высокого качества (или более высокого разрешения)».
TTD-DR построен на этой схеме. В рамках этой схемы создание исследовательского отчёта рассматривается как процесс диффузии, в ходе которого первоначальный, «шумный» черновик постепенно дорабатывается до безупречного финального отчёта.

Это достигается двумя основными механизмами. Первый, который исследователи называют «Шумоподавлением с поиском», начинается с предварительного черновика и итеративно его улучшает. На каждом этапе агент использует текущий черновик для формулировки новых поисковых запросов, извлекает внешнюю информацию и интегрирует её для «шумоподавления» отчёта, исправляя неточности и добавляя детали.
Второй механизм, «Самоэволюция», гарантирует, что каждый компонент агента (планировщик, генератор вопросов и синтезатор ответов) независимо оптимизирует свою производительность. В комментариях для VentureBeat Руджун Хан, исследователь Google и соавтор статьи, объяснил, что эта эволюция на уровне компонентов критически важна, поскольку она делает «более эффективным шумоподавление в отчётах». Это похоже на эволюционный процесс, в котором каждая часть системы постепенно совершенствует свою конкретную задачу, предоставляя более качественный контекст для основного процесса доработки.

«Сложное взаимодействие и синергетическое сочетание этих двух алгоритмов имеют решающее значение для достижения высококачественных исследовательских результатов», — утверждают авторы. Этот итеративный процесс непосредственно приводит к получению отчётов, которые не только более точны, но и более логически связны. Как отмечает Хан, поскольку модель оценивалась по показателям полезности, включающей беглость и связность, прирост производительности напрямую отражает её способность создавать хорошо структурированные деловые документы.
Согласно статье, полученный исследовательский компаньон «способен генерировать полезные и исчерпывающие отчеты по сложным исследовательским вопросам в различных отраслях промышленности, включая финансы, биомедицину, рекреацию и технологии», что ставит его в один ряд с продуктами для глубоких исследований от OpenAI, Perplexity и Grok.
Для создания и тестирования своей платформы исследователи использовали Agent Development Kit (ADK) от Google — расширяемую платформу для организации сложных рабочих процессов ИИ, используя Gemini 2.5 Pro в качестве базовой LLM (хотя ее можно заменить другими моделями).
Они сравнили TTD-DR с ведущими коммерческими системами и системами с открытым исходным кодом, включая OpenAI Deep Research , Perplexity Deep Research, Grok DeepSearch и систему с открытым исходным кодом GPT-Researcher .
Оценка была сосредоточена на двух основных областях. Для создания подробных длинных отчетов они использовали бенчмарк DeepConsult , набор вопросов, связанных с бизнесом и консалтингом, а также собственный набор данных LongForm Research. Для ответов на вопросы, требующие многоадресного поиска и рассуждений, они протестировали агента на сложных академических и практических бенчмарках, таких как Humanity's Last Exam (HLE) и GAIA .
Результаты показали, что TTD-DR стабильно превосходит конкурентов. В параллельных сравнениях с OpenAI Deep Research при генерации длинных отчётов TTD-DR достигла показателей побед 69,1% и 74,5% на двух разных наборах данных. Система также превзошла систему OpenAI в трёх отдельных тестах, требующих многошагового рассуждения для нахождения кратких ответов, продемонстрировав прирост производительности на 4,8%, 7,7% и 1,7%.

Хотя текущее исследование сосредоточено на текстовых отчётах с использованием веб-поиска, фреймворк разработан с учётом высокой степени адаптации. Хан подтвердил, что команда планирует расширить работу, включив в неё больше инструментов для решения сложных корпоративных задач.
Похожий процесс «тестового распространения» может быть использован для создания сложного программного кода , создания подробной финансовой модели или разработки многоэтапной маркетинговой кампании , где первоначальный «черновик» проекта итеративно дорабатывается с использованием новой информации и отзывов от различных специализированных инструментов.
«Все эти инструменты могут быть естественным образом включены в нашу структуру», — сказал Хан, предположив, что этот ориентированный на проект подход может стать базовой архитектурой для широкого спектра сложных многошаговых агентов ИИ.
Если вы хотите произвести впечатление на своего руководителя, VB Daily поможет вам. Мы расскажем вам всё изнутри о том, что компании делают с генеративным ИИ, от изменений в законодательстве до практического внедрения, чтобы вы могли поделиться своими идеями и получить максимальную отдачу от инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Больше новостей VB можно найти здесь .
Произошла ошибка.

venturebeat