ИИ в диагностике

Внедрение технологий искусственного интеллекта (ИИ) в сферу здравоохранения открывает новые горизонты для повышения доступности первичной консультативной помощи. Однако, как демонстрируют результаты недавнего исследования, текущий уровень развития больших языковых моделей (LLM) не всегда обеспечивает значимое преимущество перед традиционными способами поиска информации, такими как стандартные интернет-браузеры. Вопрос о том, могут ли алгоритмы ИИ заменить клиническое мышление врача или служить надежным инструментом для самодиагностики, остается предметом активного профессионального обсуждения.

Методология исследования

Международная группа исследователей из Оксфордского университета при участии практикующих врачей провела моделирование клинических сценариев для оценки точности рекомендаций, генерируемых искусственным интеллектом. В основу эксперимента легли десять различных клинических случаев, охватывающих широкий спектр патологий — от легких форм острых респираторных вирусных инфекций (ОРВИ) до состояний, представляющих непосредственную угрозу для жизни пациента, таких как субарахноидальное кровоизлияние.

Для тестирования были отобраны три наиболее распространенные и мощные большие языковые модели: Chat GPT–4o (разработка компании OpenAI), Llama 3 (продукт Meta) и Command R+ (модель от Cohere). Эксперимент проводился в два этапа. На первом этапе модели оценивали способность к постановке корректного диагноза на основе формализованного набора симптомов. На втором этапе анализировалась адекватность рекомендаций по дальнейшей тактике поведения пациента — от самопомощи до экстренного вызова бригады скорой медицинской помощи.

Ключевые количественные результаты

Анализ полученных данных показал существенное расхождение в точности работы ИИ при решении диагностических и рекомендательных задач. В условиях, когда взаимодействие с пациентом не моделировалось (тестирование «без участия человека»), все три языковые модели продемонстрировали высокую эффективность в определении нозологической формы. Верный диагноз был установлен в 94,9% случаев, что свидетельствует о значительном потенциале алгоритмов в обработке структурированной информации.

Однако при переходе к подбору клинических рекомендаций, то есть определению последовательности действий пациента, точность моделей резко снизилась. Корректный алгоритм поведения (например, вызов неотложной помощи или плановая консультация специалиста) был предложен лишь в 56,3% случаев. Данное расхождение указывает на фундаментальное различие между распознаванием паттернов болезни и выработкой стратегии ведения пациента, где требуется учет большего числа контекстуальных факторов.

Качественный анализ

И проблема вводных данных

Детальный разбор порядка тридцати реальных диалогов с использованием систем ИИ позволил выявить ключевые факторы, влияющие на качество итоговых рекомендаций. Исследователи пришли к выводу, что критическим звеном, лимитирующим эффективность LLM, является качество исходных данных, предоставляемых пользователем.

В значительном числе случаев наблюдалась картина неполного или субъективно искаженного описания симптоматики. Пользователи склонны опускать важные детали анамнеза, либо, напротив, сообщать избыточную, но нерелевантную информацию. В свою очередь, языковые модели, будучи не в состоянии восполнить пробелы в данных (в отличие от врача, способного задать уточняющие вопросы), в ряде ситуаций генерировали ответы, содержащие вводящие в заблуждение.

Исследование Оксфордского университета подтверждает, что современные большие языковые модели обладают впечатляющими диагностическими способностями при работе с идеализированными данными. Однако при переходе в реальный сектор телемедицины и самодиагностики их эффективность нивелируется фактором человеческого общения и субъективности описания симптомов.