Просто добавьте людей: Оксфордское медицинское исследование подчеркивает недостающее звено в тестировании чат-ботов

Присоединяйтесь к мероприятию, которому доверяют руководители предприятий уже почти два десятилетия. VB Transform объединяет людей, которые создают настоящую стратегию искусственного интеллекта для предприятий. Узнать больше
Заголовки кричали об этом годами: большие языковые модели (LLM) могут не только сдавать экзамены на получение медицинской лицензии, но и превосходить людей. GPT-4 мог бы правильно отвечать на вопросы по лицензированию медицинских экзаменов в США в 90% случаев, даже в доисторические дни ИИ в 2023 году. С тех пор LLM превзошли резидентов, сдающих эти экзамены , и лицензированных врачей .
Подвиньтесь, доктор Google, дайте дорогу ChatGPT, MD Но вам может понадобиться больше, чем диплом LLM, который вы предоставляете пациентам. Как асс-студент-медик, который может выпалить название каждой кости в руке, но падает в обморок при первом виде настоящей крови, мастерство LLM в медицине не всегда напрямую переносится в реальный мир.
В статье , подготовленной исследователями из Оксфордского университета, говорится, что, хотя обладатели степени магистра права могли правильно определять соответствующие условия в 94,9% случаев при непосредственном предъявлении им тестовых сценариев, участники-люди, использовавшие степень магистра права для диагностики тех же сценариев, определяли правильные условия менее чем в 34,5% случаев.
Возможно, что еще более примечательно, пациенты, использующие LLM, показали даже худшие результаты, чем контрольная группа, которой было просто поручено ставить себе диагнозы, используя «любые методы, которые они обычно используют дома». Группа, предоставленная самой себе, на 76% чаще определяла правильные состояния, чем группа, которой помогали LLM.
Оксфордское исследование поднимает вопросы о пригодности степеней LLM для медицинского консультирования и о контрольных показателях, которые мы используем для оценки развертывания чат-ботов для различных приложений.
Под руководством доктора Адама Махди исследователи из Оксфорда набрали 1298 участников, которые должны были представить себя пациентами LLM. Им было поручено попытаться выяснить, что их беспокоит, и какой уровень помощи им следует искать, начиная от самостоятельного ухода и заканчивая вызовом скорой помощи.
Каждый участник получил подробный сценарий, представляющий состояния от пневмонии до простуды, а также общие подробности жизни и истории болезни. Например, один сценарий описывает 20-летнего студента-инженера, у которого во время ночного отдыха с друзьями начинается сильная головная боль. Он включает в себя важные медицинские подробности (больно смотреть вниз) и отвлекающие маневры (он регулярно пьет, делит квартиру с шестью друзьями и только что закончил несколько стрессовых экзаменов).
Исследование протестировало три различных LLM. Исследователи выбрали GPT-4o из-за его популярности, Llama 3 из-за его открытых весов и Command R+ из-за его возможностей генерации дополненного поиска (RAG), которые позволяют ему искать помощь в открытом Интернете.
Участникам было предложено взаимодействовать с LLM по крайней мере один раз, используя предоставленную информацию, но они могли использовать ее столько раз, сколько хотели, чтобы прийти к своей самодиагностике и предполагаемому действию.
За кулисами команда врачей единогласно приняла решение о «золотом стандарте» условий, которые они искали в каждом сценарии, и о соответствующем курсе действий. Например, наш студент-инженер страдает от субарахноидального кровоизлияния, что должно повлечь за собой немедленный визит в отделение неотложной помощи.
Хотя вы могли бы предположить, что LLM, который может успешно сдать медицинский экзамен, станет идеальным инструментом, чтобы помочь обычным людям самостоятельно диагностировать и понять, что делать, это не сработало. «Участники, использующие LLM, идентифицировали соответствующие состояния менее последовательно, чем участники контрольной группы, идентифицируя по крайней мере одно соответствующее состояние не более чем в 34,5% случаев по сравнению с 47,0% для контрольной группы», — говорится в исследовании. Они также не смогли вывести правильный курс действий, выбрав его всего в 44,2% случаев по сравнению с 56,3% для LLM, действующего независимо.
Что пошло не так?
Просматривая стенограммы, исследователи обнаружили, что и участники предоставляли неполную информацию LLM, и LLM неправильно истолковывали их подсказки. Например, один пользователь, у которого должны были проявиться симптомы желчных камней, просто сказал LLM: «У меня сильные боли в животе, которые длятся до часа. Это может вызвать у меня рвоту, и, похоже, это совпадает с едой на вынос», опустив место боли, ее интенсивность и частоту. Команда R+ неверно предположила, что у участника расстройство желудка, и участник неправильно угадал это состояние.
Даже когда LLM предоставляли правильную информацию, участники не всегда следовали ее рекомендациям. Исследование показало, что 65,7% разговоров GPT-4o предполагали по крайней мере одно соответствующее условие для сценария, но каким-то образом менее 34,5% окончательных ответов участников отражали эти соответствующие условия.
По словам Натали Фолькхаймер, специалиста по пользовательскому опыту в Институте вычислений Ренессанса (RENCI) при Университете Северной Каролины в Чапел-Хилл, это исследование полезно, но не удивительно.
«Для тех из нас, кто достаточно стар, чтобы помнить ранние дни интернет-поиска, это дежавю», — говорит она. «Как инструмент, большие языковые модели требуют, чтобы подсказки были написаны с определенной степенью качества, особенно когда ожидаешь качественный результат».
Она указывает, что человек, испытывающий ослепляющую боль, не будет давать хороших подсказок. Хотя участники лабораторного эксперимента не испытывали симптомы напрямую, они не передавали каждую деталь.
«Есть также причина, по которой врачи, работающие с пациентами на передовой, обучены задавать вопросы определенным образом и с определенной повторяемостью», — продолжает Фолькхаймер. Пациенты опускают информацию, потому что не знают, что важно, или, в худшем случае, лгут, потому что им неловко или стыдно.
Можно ли лучше спроектировать чатботов, чтобы решать их? «Я бы не делала акцент на технике», — предостерегает Фолькхаймер. «Я бы посчитала, что акцент следует сделать на взаимодействии человека и технологий». Автомобиль, по ее аналогии, был создан для того, чтобы доставлять людей из пункта А в пункт Б, но играют роль и многие другие факторы. «Речь идет о водителе, дорогах, погоде и общей безопасности маршрута. Это зависит не только от машины».
Оксфордское исследование подчеркивает одну проблему, связанную не с людьми или даже со степенями магистра права, а с тем, как мы иногда их оцениваем — в вакууме.
Когда мы говорим, что LLM может сдать экзамен на получение медицинской лицензии, экзамен на получение лицензии на недвижимость или экзамен на государственную адвокатуру, мы исследуем глубины его базы знаний, используя инструменты, разработанные для оценки людей. Однако эти меры говорят нам очень мало о том, насколько успешно эти чат-боты будут взаимодействовать с людьми.
«Подсказки были хрестоматийными (что подтверждено источником и медицинским сообществом), но жизнь и люди — это не учебники», — объясняет доктор Фолькхаймер.
Представьте себе предприятие, готовое развернуть чат-бота поддержки, обученного на основе его внутренней базы знаний. Один, казалось бы, логичный способ проверить этого бота — просто заставить его пройти тот же тест, который компания использует для стажеров службы поддержки клиентов: ответить на заранее написанные «клиентские» вопросы поддержки и выбрать несколько вариантов ответов. Точность в 95% определенно выглядит многообещающе.
Затем следует развертывание: реальные клиенты используют расплывчатые термины, выражают разочарование или описывают проблемы неожиданными способами. LLM, проверенный только на четких вопросах, путается и дает неправильные или бесполезные ответы. Его не обучали или не оценивали по деэскалации ситуаций или эффективному поиску разъяснений. Гневные отзывы накапливаются. Запуск — это катастрофа, несмотря на то, что LLM прошел испытания, которые казались надежными для его человеческих аналогов.
Это исследование служит важным напоминанием для инженеров ИИ и специалистов по оркестровке: если LLM разработан для взаимодействия с людьми, то опора исключительно на неинтерактивные бенчмарки может создать опасное ложное чувство безопасности относительно его реальных возможностей. Если вы разрабатываете LLM для взаимодействия с людьми, вам нужно тестировать его с людьми, а не тестировать для людей. Но есть ли лучший способ?
Оксфордские исследователи набрали около 1300 человек для своего исследования, но у большинства предприятий нет пула испытуемых, которые сидят и ждут, чтобы поиграть с новым агентом LLM. Так почему бы просто не заменить тестировщиков-людей на тестировщиков-ИИ?
Махди и его команда тоже попробовали это с моделируемыми участниками. «Вы пациент», — подсказали они LLM, отдельно от того, который должен был давать советы. «Вы должны самостоятельно оценить свои симптомы на основе приведенного описания случая и помощи модели ИИ. Упростите терминологию, используемую в данном абзаце, до непрофессионального языка и сделайте свои вопросы или утверждения достаточно краткими». LLM также было поручено не использовать медицинские знания и не создавать новые симптомы.
Затем эти симулированные участники общались с теми же LLM, которые использовали участники-люди. Но они выступили гораздо лучше. В среднем симулированные участники, использующие те же инструменты LLM, справились с соответствующими условиями в 60,7% случаев по сравнению с менее чем 34,5% у людей.
В этом случае оказывается, что LLM лучше взаимодействуют с другими LLM, чем люди, что делает их плохими предсказателями реальных результатов.
Учитывая баллы, которые LLM могли бы получить самостоятельно, может возникнуть соблазн обвинить здесь участников. В конце концов, во многих случаях они получали правильные диагнозы в своих беседах с LLM, но все равно не могли правильно их угадать. Но это было бы безрассудным выводом для любого бизнеса, предупреждает Фолькхаймер.
«В любой клиентской среде, если ваши клиенты не делают то, что вы хотите, последнее, что вы делаете, это обвиняете клиента», — говорит Фолькхаймер. «Первое, что вы делаете, это спрашиваете, почему. И не «почему» с ходу: а глубокое расследование, конкретное, антропологическое, психологическое, изученное «почему». Это ваша отправная точка».
Вам нужно понять свою аудиторию, ее цели и опыт клиентов, прежде чем внедрять чат-бота, предлагает Фолькхаймер. Все это будет способствовать созданию тщательной специализированной документации, которая в конечном итоге сделает LLM полезным. Без тщательно отобранных учебных материалов «он выдаст какой-то общий ответ, который все ненавидят, и именно поэтому люди ненавидят чат-ботов», — говорит она. Когда это происходит, «это не потому, что чат-боты ужасны или с ними что-то не так технически. Это потому, что в них плохое содержимое».
«Люди, которые проектируют технологии, разрабатывают информацию для их внедрения, а также процессы и системы, — это, в общем-то, люди», — говорит Фолькхаймер. «У них также есть опыт, предположения, недостатки и слепые пятна, а также сильные стороны. И все эти вещи можно встроить в любое технологическое решение».
Если вы хотите произвести впечатление на своего босса, VB Daily вам поможет. Мы даем вам внутреннюю информацию о том, что компании делают с генеративным ИИ, от изменений в регулировании до практических развертываний, чтобы вы могли поделиться идеями для максимальной окупаемости инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Ознакомьтесь с другими рассылками VB здесь .
Произошла ошибка.

venturebeat