Таинственная пасхалка ИИ в основе «Эддингтона» Ари Астера

Новый фильм «Эддингтон» вундеркинда ужасов Ари Астера вызвал разногласия среди зрителей и спровоцировал множество онлайн-дебатов о том, что именно режиссёр пытается сказать о нашем коллективном отношении к технологиям (подсказка: вероятно, нехорошо). Сюжет разворачивается вокруг небольшого техасского городка, погружающегося в хаос, вызванный социальными сетями во время пандемии COVID-19. Хоакин Феникс играет роль местного шерифа Джо Кросса, который вступает в конфликт с мэром города, которого играет Педро Паскаль, в то время как остальные жители города сходят с ума из-за различных политических и культурных споров.

Сюжет фильма запутан и полон ответвлений, но одна из самых интригующих линий повествования связана со спорным строительством нового центра обработки данных недалеко от городской черты. Компания, стоящая за этим зловещим объектом, носит весьма необычное название: SolidGoldMagikarp. Как выясняется, это название, по-видимому, отсылает к относительно малоизвестной концепции в области разработки искусственного интеллекта, известной как «глюч-токены».

В мире обучения ИИ процесс «токенизации» включает в себя перевод человеческого текста в числовые данные, которые может интерпретировать LLM. Для этого исследователи вводят огромные объёмы человеческого текста в программы, называемые «токенизаторами». Токенизаторы преобразуют необработанные данные из понятных человеку данных в проанализированные данные, предназначенные для машинного восприятия, называемые «токенами». Затем токены вводятся в языковую модель в процессе её «обучения». Процесс обучения включает в себя обучение алгоритма взаимодействию с человеком — именно так чат-боты, такие как ChatGPT, учатся реагировать на запросы человека и выдавать результат, или ответ.

Токенизация может принести компаниям финансовую выгоду, поскольку она позволяет сделать обработку больших объемов данных более эффективной и менее затратной, а токенизатор можно уместно сравнить с программным компилятором , который переводит вводимые человеком данные в двоичный код, понятный компьютеру.

Большие языковые модели — это всего лишь предиктивные алгоритмы, предназначенные для построения языка на основе человеческих подсказок. Как и автокоррекция, ChatGPT предназначен для изучения последовательностей слов и их воспроизведения. «Это буквально всё, что они делают», — рассказала Gizmodo Джессика Рамбелоу, генеральный директор компании Leap Labs, занимающейся разработкой ИИ. «То есть, вы вводите 1, 2, 3, 4, и модель обучается предсказывать 5», — привела она пример.

Токены, вводимые в LLM в процессе обучения ИИ, играют важнейшую роль в обучении программы общению с людьми. Однако из этого правила есть важное исключение — явление, известное как «глючные токены». Рамбелоу отметил, что система токенов «обычно работает очень хорошо, за исключением случаев, когда модель никогда ранее не встречала токены». Когда LLM встречает токен, на котором она не обучалась, это может привести к очень странному поведению программы.

SolidGoldMagikarp — один из таких «глючных токенов», который в прошлом вызывал странное поведение в программах LLM. Рамбелоу, должно быть, знает об этом. Она и её партнёр по исследованиям, Мэтью Уоткинс, обнаружили этот конкретный глючный токен, когда изучали феномен аномальных токенов. Рамбелоу утверждает, что при вводе токена в программу LLM он давал странные результаты. Программа могла бормотать бессмыслицу, произносить двусмысленные, зловещие фразы и высказывания или иным образом проявлять агрессивное и враждебное поведение по отношению к пользователю.

«Мы полагаем, что это происходит, когда модель не видела этот токен во время обучения», — сказала Рамбелоу. ИИ «не знает, что делать с входными данными», потому что никогда раньше его не видел, добавила она.

Внимание: спойлеры!

Короче говоря, фразы вроде SolidGoldMagikarp — это малопонятные высказывания, способные временно свести с ума модель искусственного интеллекта. Как SolidGoldMagikarp связан с темами нового фильма Астера? Можно только догадываться, но можно легко предположить несколько интерпретаций.

Стоит отметить, что при всем разнообразии у всех фильмов Астера практически одинаковый финал. Каждый фильм завершается торжеством сил тьмы над главным героем. В каждом случае персонаж становится частью заговорщических планов темных сил. В «Наследственности » семья Грэхем становится беспомощными пешками в демонической церемонии ковена. В «Солнцестоянии » подавленная ярость Дани превращается в оружие против ее парня благодаря Хорге. В «Бо боится » главному герою не удается вырваться из удушающей паутины своей матери, и вся его жизнь становится не более чем основанием для кафкианского ритуала унижения.

В «Эддингтоне» — фильме о наших непростых отношениях с технологиями — торжествующая тёмная сила — это сам интернет, и жители города, особенно Джо, оказываются втянутыми в его махинации, связанные с данными. Центр обработки данных, физическое воплощение доминирования интернета над нашей жизнью, — настоящий победитель фильма, и все персонажи становятся его посланниками, пешками или жертвами. Решение Астера назвать центр обработки данных в честь мошеннического слова, которое посредством своего рода цифрового заклинания может вывести из строя в остальном разумную систему, возможно, является его способом отсылки к тому, что технологии, похоже, сделали со всеми нами, захватив нашу жизнь, и, вероятно, это предупреждение о том, что ещё предстоит сделать.