Внед­ре­ние тех­но­ло­гий искус­ствен­но­го интел­лек­та (ИИ) в сфе­ру здра­во­охра­не­ния откры­ва­ет новые гори­зон­ты для повы­ше­ния доступ­но­сти пер­вич­ной кон­суль­та­тив­ной помо­щи. Одна­ко, как демон­стри­ру­ют резуль­та­ты недав­не­го иссле­до­ва­ния, теку­щий уро­вень раз­ви­тия боль­ших язы­ко­вых моде­лей (LLM) не все­гда обес­пе­чи­ва­ет зна­чи­мое пре­иму­ще­ство перед тра­ди­ци­он­ны­ми спо­со­ба­ми поис­ка инфор­ма­ции, таки­ми как стан­дарт­ные интер­нет-бра­у­зе­ры. Вопрос о том, могут ли алго­рит­мы ИИ заме­нить кли­ни­че­ское мыш­ле­ние вра­ча или слу­жить надеж­ным инстру­мен­том для само­ди­а­гно­сти­ки, оста­ет­ся пред­ме­том актив­но­го про­фес­си­о­наль­но­го обсуждения.

Методология исследования

Меж­ду­на­род­ная груп­па иссле­до­ва­те­лей из Окс­форд­ско­го уни­вер­си­те­та при уча­стии прак­ти­ку­ю­щих вра­чей про­ве­ла моде­ли­ро­ва­ние кли­ни­че­ских сце­на­ри­ев для оцен­ки точ­но­сти реко­мен­да­ций, гене­ри­ру­е­мых искус­ствен­ным интел­лек­том. В осно­ву экс­пе­ри­мен­та лег­ли десять раз­лич­ных кли­ни­че­ских слу­ча­ев, охва­ты­ва­ю­щих широ­кий спектр пато­ло­гий — от лег­ких форм ост­рых респи­ра­тор­ных вирус­ных инфек­ций (ОРВИ) до состо­я­ний, пред­став­ля­ю­щих непо­сред­ствен­ную угро­зу для жиз­ни паци­ен­та, таких как суб­арах­но­и­даль­ное кровоизлияние.

Для тести­ро­ва­ния были ото­бра­ны три наи­бо­лее рас­про­стра­нен­ные и мощ­ные боль­шие язы­ко­вые моде­ли: Chat GPT–4o (раз­ра­бот­ка ком­па­нии OpenAI), Llama 3 (про­дукт Meta) и Command R+ (модель от Cohere). Экс­пе­ри­мент про­во­дил­ся в два эта­па. На пер­вом эта­пе моде­ли оце­ни­ва­ли спо­соб­ность к поста­нов­ке кор­рект­но­го диа­гно­за на осно­ве фор­ма­ли­зо­ван­но­го набо­ра симп­то­мов. На вто­ром эта­пе ана­ли­зи­ро­ва­лась адек­ват­ность реко­мен­да­ций по даль­ней­шей так­ти­ке пове­де­ния паци­ен­та — от само­по­мо­щи до экс­трен­но­го вызо­ва бри­га­ды ско­рой меди­цин­ской помощи.

Ключевые количественные результаты

Ана­лиз полу­чен­ных дан­ных пока­зал суще­ствен­ное рас­хож­де­ние в точ­но­сти рабо­ты ИИ при реше­нии диа­гно­сти­че­ских и реко­мен­да­тель­ных задач. В усло­ви­ях, когда вза­и­мо­дей­ствие с паци­ен­том не моде­ли­ро­ва­лось (тести­ро­ва­ние «без уча­стия чело­ве­ка»), все три язы­ко­вые моде­ли про­де­мон­стри­ро­ва­ли высо­кую эффек­тив­ность в опре­де­ле­нии нозо­ло­ги­че­ской фор­мы. Вер­ный диа­гноз был уста­нов­лен в 94,9% слу­ча­ев, что сви­де­тель­ству­ет о зна­чи­тель­ном потен­ци­а­ле алго­рит­мов в обра­бот­ке струк­ту­ри­ро­ван­ной информации.

Одна­ко при пере­хо­де к под­бо­ру кли­ни­че­ских реко­мен­да­ций, то есть опре­де­ле­нию после­до­ва­тель­но­сти дей­ствий паци­ен­та, точ­ность моде­лей рез­ко сни­зи­лась. Кор­рект­ный алго­ритм пове­де­ния (напри­мер, вызов неот­лож­ной помо­щи или пла­но­вая кон­суль­та­ция спе­ци­а­ли­ста) был пред­ло­жен лишь в 56,3% слу­ча­ев. Дан­ное рас­хож­де­ние ука­зы­ва­ет на фун­да­мен­таль­ное раз­ли­чие меж­ду рас­по­зна­ва­ни­ем пат­тер­нов болез­ни и выра­бот­кой стра­те­гии веде­ния паци­ен­та, где тре­бу­ет­ся учет боль­ше­го чис­ла кон­тек­сту­аль­ных факторов.

ИИ в диагностике

Качественный анализ

И про­бле­ма ввод­ных данных

Деталь­ный раз­бор поряд­ка трид­ца­ти реаль­ных диа­ло­гов с исполь­зо­ва­ни­ем систем ИИ поз­во­лил выявить клю­че­вые фак­то­ры, вли­я­ю­щие на каче­ство ито­го­вых реко­мен­да­ций. Иссле­до­ва­те­ли при­шли к выво­ду, что кри­ти­че­ским зве­ном, лими­ти­ру­ю­щим эффек­тив­ность LLM, явля­ет­ся каче­ство исход­ных дан­ных, предо­став­ля­е­мых пользователем.

В зна­чи­тель­ном чис­ле слу­ча­ев наблю­да­лась кар­ти­на непол­но­го или субъ­ек­тив­но иска­жен­но­го опи­са­ния симп­то­ма­ти­ки. Поль­зо­ва­те­ли склон­ны опус­кать важ­ные дета­ли ана­мне­за, либо, напро­тив, сооб­щать избы­точ­ную, но нере­ле­вант­ную инфор­ма­цию. В свою оче­редь, язы­ко­вые моде­ли, будучи не в состо­я­нии вос­пол­нить про­бе­лы в дан­ных (в отли­чие от вра­ча, спо­соб­но­го задать уточ­ня­ю­щие вопро­сы), в ряде ситу­а­ций гене­ри­ро­ва­ли отве­ты, содер­жа­щие вво­дя­щие в заблуждение.

Иссле­до­ва­ние Окс­форд­ско­го уни­вер­си­те­та под­твер­жда­ет, что совре­мен­ные боль­шие язы­ко­вые моде­ли обла­да­ют впе­чат­ля­ю­щи­ми диа­гно­сти­че­ски­ми спо­соб­но­стя­ми при рабо­те с иде­а­ли­зи­ро­ван­ны­ми дан­ны­ми. Одна­ко при пере­хо­де в реаль­ный сек­тор теле­ме­ди­ци­ны и само­ди­а­гно­сти­ки их эффек­тив­ность ниве­ли­ру­ет­ся фак­то­ром чело­ве­че­ско­го обще­ния и субъ­ек­тив­но­сти опи­са­ния симптомов.

Похожие посты