Anthropic запускает новую модель ИИ, которая «думает» столько, сколько вы хотите

Anthropic выпускает новую передовую модель искусственного интеллекта под названием Claude 3.7 Sonnet, которую компания разработала так, чтобы она «думала» над вопросами столько времени, сколько нужно пользователям.
Anthropic называет Claude 3.7 Sonnet первой в отрасли «гибридной моделью рассуждений ИИ», потому что это единая модель, которая может давать как ответы в реальном времени, так и более взвешенные, «продуманные» ответы на вопросы. Пользователи могут выбирать, активировать ли «рассудочные» способности модели ИИ, которые побуждают Claude 3.7 Sonnet «думать» в течение короткого или длительного периода времени.
Модель представляет собой более широкие усилия Anthropic по упрощению пользовательского опыта вокруг своих продуктов ИИ. Большинство чат-ботов ИИ сегодня имеют пугающий выбор модели, который заставляет пользователей выбирать из нескольких различных вариантов, которые различаются по стоимости и возможностям. Такие лаборатории, как Anthropic, предпочли бы, чтобы вы не думали об этом — в идеале одна модель делает всю работу.
Anthropic сообщила, что Claude 3.7 Sonnet будет доступен всем пользователям и разработчикам в понедельник, но только пользователи, заплатившие за премиум-планы чат-бота Claude от Anthropic, получат доступ к функциям рассуждений модели. Бесплатные пользователи Claude получат стандартную версию Claude 3.7 Sonnet без рассуждений, которая, по утверждению Anthropic, превосходит ее предыдущую передовую модель ИИ Claude 3.5 Sonnet . (Да, компания пропустила номер.)
Claude 3.7 Sonnet стоит $3 за миллион входных токенов (то есть вы можете ввести примерно 750 000 слов, больше слов, чем вся серия «Властелин колец», в Claude за $3) и $15 за миллион выходных токенов. Это делает его дороже, чем o3-mini от OpenAI ($1,10 за 1 млн входных токенов/$4,40 за 1 млн выходных токенов) и R1 от DeepSeek ($0,55 за 1 млн входных токенов/$2,19 за 1 млн выходных токенов), но имейте в виду, что o3-mini и R1 — это строго рассуждающие модели, а не гибриды, как Claude 3.7 Sonnet.

Claude 3.7 Sonnet — первая модель искусственного интеллекта от Anthropic, способная «рассуждать» — метод , к которому обратились многие лаборатории искусственного интеллекта, поскольку традиционные методы повышения производительности искусственного интеллекта теряют свою актуальность .
Модели рассуждений, такие как o3-mini, R1, Gemini 2.0 Flash Thinking от Google и Grok 3 (Think) от xAI, используют больше времени и вычислительной мощности перед ответом на вопросы. Модели разбивают проблемы на более мелкие шаги, что повышает точность окончательного ответа. Модели рассуждений не обязательно думают или рассуждают так, как это делает человек, но их процесс моделируется после дедукции.
В конечном итоге Anthropic хотела бы, чтобы Claude самостоятельно определял, как долго ему следует «думать» над вопросами, не требуя от пользователей предварительного выбора элементов управления, рассказала в интервью TechCrunch руководитель отдела исследований и разработки продуктов Anthropic Дайан Пенн.
«Подобно тому, как у людей нет двух отдельных мозгов для вопросов, на которые можно ответить немедленно, и для тех, которые требуют размышлений», — написал Антропик в сообщении в блоге, опубликованном TechCrunch, — «мы рассматриваем рассуждение просто как одну из возможностей, которой должна обладать пограничная модель, которую необходимо плавно интегрировать с другими возможностями, а не как что-то, что должно быть представлено в отдельной модели».
Anthropic сообщает, что позволяет Claude 3.7 Sonnet демонстрировать свою внутреннюю фазу планирования с помощью «видимого блокнота». Ли сообщил TechCrunch, что пользователи увидят полный ход мыслей Клода для большинства подсказок, но некоторые части могут быть отредактированы в целях обеспечения доверия и безопасности.

Anthropic утверждает, что оптимизировала режимы мышления Клода для задач реального мира, таких как сложные проблемы кодирования или агентские задачи. Разработчики, использующие API Anthropic, могут контролировать «бюджет» для мышления, обменивая скорость и стоимость на качество ответа.
В одном тесте для измерения задач кодирования реального текста, SWE-Bench, точность Claude 3.7 Sonnet составила 62,3%, по сравнению с моделью OpenAI o3-mini, которая набрала 49,3%. В другом тесте для измерения способности модели ИИ взаимодействовать с моделируемыми пользователями и внешними API в розничной торговле, TAU-Bench, точность Claude 3.7 Sonnet составила 81,2%, по сравнению с моделью OpenAI o1, которая набрала 73,5%.
Anthropic также заявляет, что Claude 3.7 Sonnet будет реже отказываться отвечать на вопросы, чем предыдущие модели, утверждая, что модель способна проводить более тонкие различия между вредными и безвредными подсказками. Anthropic заявляет, что она сократила ненужные отказы на 45% по сравнению с Claude 3.5 Sonnet. Это происходит в то время, когда некоторые другие лаборатории ИИ пересматривают свой подход к ограничению ответов своего чат-бота ИИ .
В дополнение к Claude 3.7 Sonnet, Anthropic также выпускает агентный инструмент кодирования под названием Claude Code. Запущенный в качестве исследовательского предварительного просмотра, инструмент позволяет разработчикам запускать определенные задачи через Claude прямо со своего терминала.
В демонстрации сотрудники Anthropic показали, как Claude Code может анализировать проект кодирования с помощью простой команды, например, « Объясните структуру этого проекта». Используя простой английский в командной строке, разработчик может изменять кодовую базу. Claude Code будет описывать свои правки по мере внесения изменений и даже тестировать проект на наличие ошибок или отправлять его в репозиторий GitHub.
Представитель Anthropic сообщил TechCrunch, что изначально Claude Code будет доступен ограниченному числу пользователей в порядке живой очереди.
Anthropic выпускает Claude 3.7 Sonnet в то время, когда лаборатории ИИ поставляют новые модели ИИ с головокружительной скоростью. Anthropic исторически придерживалась более методичного, ориентированного на безопасность подхода. Но на этот раз компания стремится возглавить группу.
Насколько долго — вопрос. OpenAI может быть близка к выпуску собственной гибридной модели ИИ ; генеральный директор компании Сэм Альтман заявил, что она появится через «месяцы».
techcrunch