Генеративные модели искусственного интеллекта представляют собой перспективные инструменты для применения в медицине, способные значительно ускорить процесс диагностики и выбора оптимальных терапевтических стратегий. Но их надежность и достоверность требуют дальнейших исследований и оценок. Недавнее исследование, опубликованное в журнале Digital Medicine, детально анализирует ограничения таких технологий.
Доктор Чжиюн Лу, ведущий научный сотрудник Национального института здравоохранения и адъюнкт-профессор компьютерных наук в Университете Иллинойса, отмечает, что ИИ может существенно повысить эффективность медицинской помощи, обеспечивая равный доступ к качественному лечению. В условиях клинической практики ИИ способен служить инструментом поддержки принятия решений, тем самым экономя время врачей при постановке диагноза. Однако, как подчеркивает Лу, текущие технологии еще не достигли уровня, позволяющего полностью полагаться на ИИ без учета экспертных суждений медиков.
Исследование, в котором анализировалась работа недавно выпущенной мультимодальной модели GPT-4V от компании OpenAI, показало ее потенциал в обработке как текстовой, так и визуальной информации. Целью исследования была оценка способности модели давать ответы на медицинские вопросы и обосновывать свои выводы.
В рамках исследования модель GPT-4V была протестирована на 207 вопросах с множественным выбором, взятых из рубрики Image Challenge журнала New England Journal of Medicine, которая используется для оценки диагностических навыков врачей. Эти вопросы охватывали девять медицинских специальностей, включая дерматологию, патологию, пульмонологию и гастроэнтерологию.
GPT-4V показала точность на уровне 81,6%, что оказалось несколько выше, чем у группы врачей, чьи результаты составили 77,8%. Примечательно, что модель смогла правильно диагностировать 78,3% случаев, в которых врачи допускали ошибки.
Тем не менее, несмотря на высокую точность, модель оказалась неспособной корректно обосновать свои диагнозы в 35,5% случаев, даже когда диагноз был верным. Основная проблема заключалась в интерпретации изображений: модель допускала ошибки в 27,2% случаев.
Например, в одном из сценариев GPT-4V правильно определила злокачественный сифилис, но не смогла распознать, что два кожных поражения, представленных на разных изображениях, являлись проявлениями одного и того же заболевания.
ИИ-инструменты еще не готовы к полной замене человеческого опыта, который остается необходимым для минимизации рисков в медицинской практике. Авторы исследования подчеркивают, что осознание и учет ограничений ИИ критически важны для безопасной и эффективной интеграции этих технологий в повседневную клиническую деятельность.
«ИИ не всегда способен предоставить корректные рассуждения, несмотря на высокую точность прогнозов. Врачи должны критически оценивать результаты, полученные с помощью ИИ, и полагаться на свой опыт при принятии решений», — заключил Лу.
В целом, исследование акцентирует внимание на необходимости дальнейших исследований, направленных на оценку роли ИИ в реальных медицинских сценариях, а также подчеркивает важность активного участия медицинских специалистов в процессе разработки и внедрения ИИ-технологий.
Если вам интересно, можно почитать: