Этот исследователь превратил открытую весовую модель OpenAI gpt-oss-20b в нелогическую «базовую» модель с меньшим выравниванием и большей свободой.


Хотите получать более ценную информацию? Подпишитесь на наши еженедельные рассылки, чтобы получать только то, что важно для руководителей в сфере корпоративного ИИ, данных и безопасности. Подпишитесь сейчас
Новое мощное семейство больших языковых моделей ИИ (LLM) с открытыми весами gpt-oss от OpenAI было выпущено менее двух недель назад по разрешительной лицензии Apache 2.0 — первый запуск открытой весовой модели компании с момента GPT-2 в 2019 году — но разработчики за пределами компании уже вносят в него изменения.
Один из самых ярких примеров приводит Джек Моррис , аспирант Технического университета Корнелла, бывший резидент Google Brain и нынешний исследователь в Meta, который на этой неделе представил gpt-oss-20b-base, свою собственную переработанную версию меньшей модели gpt-oss-20B от OpenAI, которая удаляет «логическое» поведение модели и возвращает ее к предварительно обученной «базовой» версии, которая предлагает более быстрые, свободные, неотредактированные и не имеющие ограничений ответы.
Модель теперь доступна на Hugging Face по разрешительной лицензии MIT , что позволяет использовать ее как для дополнительных исследований, так и для коммерческих приложений.
Чтобы понять, что сделал Моррис, полезно узнать разницу между версией OpenAI и тем, что исследователи ИИ называют «базовой моделью».
Масштабирование ИИ достигает предела
Ограничения мощности, рост стоимости токенов и задержки в выводе данных меняют корпоративный ИИ. Присоединяйтесь к нашему эксклюзивному салону, чтобы узнать, как обстоят дела у лучших команд:
- Превращение энергии в стратегическое преимущество
- Разработка эффективного вывода для реального увеличения пропускной способности
- Обеспечение конкурентоспособной рентабельности инвестиций с помощью устойчивых систем ИИ
Забронируйте свое место, чтобы оставаться впереди : https://bit.ly/4mwGngO
Большинство программ LLM, предлагаемых ведущими лабораториями ИИ, такими как OpenAI, Anthropic, Google, а также игроками с открытым исходным кодом, такими как Meta, DeepSeek и команда Qwen компании Alibaba, являются «постобученными».
Это значит, что они прошли дополнительную фазу, на которой им демонстрируются специально подобранные примеры желаемого поведения.
Для моделей, настроенных на выполнение инструкций, это означает предоставление ей множества примеров инструкций в сочетании с идеальными ответами, чтобы она научилась более услужливо, вежливо и безопасно реагировать на запросы на естественном языке.
Модели gpt-oss, представленные OpenAI 5 августа, были «оптимизированы для рассуждений»: обучены и настроены не только на предсказание следующего слова, но и на выполнение инструкций безопасным и последовательным образом, часто проходя по проблемам с помощью структурированной «цепочки мыслей» перед выдачей окончательного ответа.
Эта тенденция восходит к модели OpenAI o1, выпущенной почти год назад в сентябре 2024 года, но которую теперь переняли многочисленные ведущие лаборатории ИИ, заставляя модели дольше обдумывать несколько шагов и проверять свою собственную работу, прежде чем выдавать пользователю обоснованный ответ.
Это делает их более подходящими для таких задач, как программирование, решение математических задач или ответы на фактические вопросы с пояснениями, — но также означает, что их ответы фильтруются и отсеиваются от небезопасного или нежелательного контента.
Базовая модель — это другое дело. Это сырая, предварительно обученная версия большой языковой модели до применения выравнивания, специфичного для логического мышления. Базовые модели просто пытаются предсказать следующий фрагмент текста на основе предыдущего, без встроенных ограничений, стилистических предпочтений или моделей отказа.
Некоторые исследователи ценят их за то, что они могут выдавать более разнообразные и менее ограниченные результаты, а также за то, что изучение их несогласованного поведения может показать, как модели хранят знания и закономерности из своих обучающих данных.
Целью Морриса было «обратить» процесс выравнивания OpenAI и восстановить меньший gpt-oss-20B до состояния, намного более близкого к его первоначальному предварительно обученному состоянию.
«Мы, по сути, полностью изменили этап выравнивания в обучении LLM, так что теперь у нас есть инструмент, который снова выдаёт текст, выглядящий естественно», — написал он в ветке X, анонсируя проект . «Она больше не использует CoT. Она возвращается к модели, которая просто предсказывает следующий токен на основе общего текста».
OpenAI не открывала исходный код базовой модели с момента выхода GPT-2 в 2019 году. Недавно они выпустили GPT-OSS, которая предназначена только для рассуждений... или нет? Оказывается, под поверхностью всё ещё скрывается сильная базовая модель. Поэтому мы её извлекли.
Представляем gpt-oss-20b-base? pic.twitter.com/3xryQgLF8Z
Вместо того чтобы пытаться взломать модель с помощью хитрых подсказок (что, по словам Морриса, оказалось неэффективным во время его ранних экспериментов), он выбрал другой подход после разговора с бывшим соучредителем OpenAI , бывшим исследователем Anthropic и нынешним главным научным сотрудником Thinking Machines Джоном Шульманом.
Ключевым моментом было рассматривать изменение выравнивания как небольшую задачу оптимизации: если большая часть предварительно обученных знаний модели все еще присутствует в ее весах, то может потребоваться лишь небольшое обновление низкого ранга, чтобы подтолкнуть ее обратно к поведению базовой модели.
Моррис реализовал эту идею, применив обновление LoRA (адаптер низкого ранга) всего к трем слоям модели — слоям MLP в позициях 7, 15 и 23 — с рангом 16.
Это означало обучение около 60 миллионов параметров, или 0,3% от общего числа параметров модели в 21 миллиард. Он использовал около 20 000 документов из набора данных FineWeb, максимально приблизив формат к исходному предварительному обучению (стиль «…»), чтобы модель не обучалась ничему новому, а просто снова включала генерацию свободного текста.
Как Моррис сообщил VentureBeat в прямом сообщении на X, обучение заняло четыре дня на восьми графических процессорах NVIDIA H200 со скоростью обучения 2e-6, размером пакета 16 и максимальной длиной последовательности 8192 токена.
После этого он объединил веса LoRA обратно в модель, чтобы пользователи могли запускать ее как автономный, полностью настроенный артефакт.
Моррису также пришлось столкнуться с ограничениями существующих открытых инструментов для тонкой настройки архитектур смешанной архитектуры (MoE), таких как gpt-oss.
Моррис рассказал, что использовал фреймворк Hugging Face, который, по его словам, часто дает сбои и поддерживает только определенные режимы обучения, и написал собственную схему для частого создания контрольных точек и пропуска пакетов данных, которые могли привести к перегрузке памяти графического процессора.
Важно отметить, что в ответ на вопросы и критику со стороны сообщества ИИ по поводу X Моррис также пояснил, что он не утверждает, что восстановил «веса» базовой модели — внутренние настройки искусственных нейронов, которые составляют нейронную сеть модели и управляют ее поведением.
Мир искусственного интеллекта сейчас сошел с ума, потому что вы можете просто заявить, что извлекли базовую модель из GPT-OSS, хотя на самом деле вы только что обучили лора на Fineweb, лол https://t.co/oAnAWpMQ26
– Нильс Рогге (@NielsRogge) 15 августа 2025 г.
Вместо этого Моррис утверждает, что его работа «восстановила *распределение* базовой модели с некоторой погрешностью», то есть закономерности вероятности, которые модель использует для генерации выходных данных — даже если веса, создающие эти закономерности, могут различаться.
некоторые люди запутались в эксперименте: мы не восстановили *веса* базовой модели. Это может быть даже невозможно. мы восстановили *распределение* базовой модели, с некоторой погрешностью. важный вопрос — насколько.
пытаюсь разобраться в этом прямо сейчас... https://t.co/lfUG5QY4h0
— Джек Моррис (@jxmnop) 15 августа 2025 г.
Полученная в результате модель gpt-oss-20b-base заметно свободнее в выводе. Она больше не по умолчанию объясняет рассуждения шаг за шагом и выдаёт более широкий диапазон ответов, включая инструкции, которые отказалась бы давать согласованная модель OpenAI, — например , создание оружия, перечисление ненормативной лексики или планирование противоправных действий.
В ходе коротких тестов Моррис обнаружил, что устройство также может воспроизводить дословные отрывки из произведений, защищенных авторским правом , включая три из шести отрывков книг, которые он опробовал, что показывает, что некоторый запомненный материал все еще доступен.
Тем не менее, некоторые следы согласованности сохраняются. Моррис отметил, что если задавать модели подсказки в формате помощника («Человек: … Помощник: …»), она иногда всё равно будет вести себя как вежливый чат-бот. А при запуске через оригинальный шаблон чата gpt-oss она всё ещё способна выполнять задачи рассуждения , хотя и с некоторой потерей качества.
Для достижения наилучших результатов в режиме свободного текста он советует добавлять в начале подсказок специальный токен начала последовательности модели <|startoftext|> и полностью избегать шаблонов чата.
Дебют семейства gpt-oss привлёк к себе пристальное внимание. Две модели — gpt-oss-120B и gpt-oss-20B — являются текстовыми, многоязычными и построены на архитектуре Transformer, сочетающей в себе экспертные возможности. Они были выпущены под разрешительной лицензией Apache 2.0, допускающей неограниченное локальное использование, тонкую настройку и коммерческое развёртывание.
Тесты производительности от OpenAI показали, что более крупная модель 120B соответствует или превосходит фирменную модель o4-mini в задачах рассуждения и использования инструментов, а меньшая модель 20B конкурирует с o3-mini.
Это был первый выпуск OpenAI с открытыми весами за шесть лет, шаг, который широко интерпретируется как ответ на конкурентное давление со стороны других поставщиков открытых весов, включая китайских DeepSeek R1 и Qwen 3.
Компания позиционировала gpt-oss как способ повторно привлечь разработчиков, перешедших на конкурирующие модели с открытым исходным кодом, и как платформу для исследований безопасности систем с открытым исходным кодом.
Реакция разработчиков на модели gpt-oss компании OpenAI оказалась неоднозначной : от восторженной до разочарованной.
Сторонники высоко оценили разрешительную лицензию, эффективность и высокие показатели по показателям STEM.
Генеральный директор Hugging Face Клем Деланг охарактеризовал релиз как «значимое дополнение к открытой экосистеме» и призвал сообщество дать ему время на развитие.
Критики утверждали, что модели, по-видимому, в значительной степени обучены на синтетических данных, что делает их превосходными в математике и программировании, но менее способными к творческому письму, общим знаниям об окружающем мире и многоязычному мышлению.
Некоторые ранние тестировщики также выражали обеспокоенность по поводу сохраняющихся фильтров безопасности и возможной геополитической предвзятости.
На этом фоне gpt-oss-20b-base Морриса выделяется как конкретный пример того, как модели открытого веса можно адаптировать и перепрофилировать в дикой природе в течение нескольких дней после выпуска.
Действительно, в отличие от того, как был воспринят проект OpenAI gpt-oss, большинство отзывов о работе Морриса, которые я видел, тёплые и восторженные. Как написал один специалист по информатике в X : «Это самая крутая вещь, которую я видел в Твиттере [X] за последние несколько месяцев».
чувак, это самое крутое, что я видел в твиттере за последние несколько месяцев, я обожаю базовые модели
– Лудан (@JMRLudan) 15 августа 2025 г.
Такой подход исключает большую часть встроенного в OpenAI поведения и возвращает модель к чему-то более похожему на сырую, предварительно обученную систему — это изменение ценно для исследователей, изучающих запоминание, предвзятость или влияние согласованности, но оно также сопряжено с более высокими рисками для безопасности.
Кроме того, Моррис говорит , что его работа по восстановлению моделей рассуждений на основе предварительно обученных базовых моделей без рассуждений будет продолжена путем сравнения извлечения на моделях без рассуждений с инструкциями, подобных тем, что предлагает Qwen.
Если вы хотите произвести впечатление на своего руководителя, VB Daily поможет вам. Мы расскажем вам всё изнутри о том, что компании делают с генеративным ИИ, от изменений в законодательстве до практического внедрения, чтобы вы могли поделиться своими идеями и получить максимальную отдачу от инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Больше новостей VB можно найти здесь .
Произошла ошибка.

venturebeat