Генеративні моделі штучного інтелекту є перспективними інструментами для застосування в медицині, здатними значно прискорити процес діагностики та вибору оптимальних терапевтичних стратегій. Проте їхня надійність і достовірність потребують подальших досліджень та оцінок.
Недавнє дослідження, опубліковане в журналі Digital Medicine, детально аналізує обмеження таких технологій.
Доктор Чжиюн Лу, провідний науковий співробітник Національного інституту охорони здоров'я та ад'юнкт-професор комп'ютерних наук в Університеті Іллінойсу, зазначає, що ШІ може суттєво підвищити ефективність медичної допомоги, забезпечуючи рівний доступ до якісного лікування. В умовах клінічної практики ШІ здатний слугувати інструментом підтримки прийняття рішень, тим самим економлячи дорогоцінний час лікарів при постановці діагнозу. Проте, як підкреслює Лу, поточні технології ще не досягли рівня, який дозволяє повністю покладатися на ШІ без урахування експертних суджень медиків.
Дослідження, у якому аналізувалася робота нещодавно випущеної мультимодальної моделі GPT-4V від компанії OpenAI, показало її потенціал у обробці як текстової, так і візуальної інформації. Метою дослідження була оцінка здатності моделі давати відповіді на медичні запитання та обґрунтовувати свої висновки.
У рамках дослідження модель GPT-4V була протестована на 207 запитаннях з множинним вибором, взятих із рубрики Image Challenge журналу New England Journal of Medicine, яка використовується для оцінки діагностичних навичок лікарів. Ці запитання охоплювали дев'ять медичних спеціальностей, включаючи дерматологію, патологію, пульмонологію та гастроентерологію.
GPT-4V продемонструвала точність на рівні 81,6%, що виявилося дещо вище, ніж у групи лікарів, чиї результати становили 77,8%. Примітно, що модель змогла правильно діагностувати 78,3% випадків, у яких лікарі допускали помилки.
Проте, незважаючи на високу точність, модель виявилася нездатною коректно обґрунтувати свої діагнози в 35,5% випадків, навіть коли діагноз був правильним. Основна проблема полягала в інтерпретації зображень: модель допускала помилки у 27,2% випадків.
Наприклад, в одному зі сценаріїв GPT-4V правильно визначила злоякісний сифіліс, але не змогла розпізнати, що два ураження шкіри, представлені на різних зображеннях, були проявами одного і того ж захворювання.
ШІ-інструменти ще не готові до повної заміни людського досвіду, який залишається необхідним для мінімізації ризиків у медичній практиці. Автори дослідження підкреслюють, що усвідомлення та врахування обмежень ШІ є критично важливими для безпечної та ефективної інтеграції цих технологій у повсякденну клінічну діяльність.
«ШІ не завжди здатний надати коректні міркування, незважаючи на високу точність прогнозів. Лікарі повинні критично оцінювати результати, отримані за допомогою ШІ, і покладатися на свій досвід під час прийняття рішень», — зазначив Лу.
Загалом, дослідження акцентує увагу на необхідності подальших досліджень, спрямованих на оцінку ролі ШІ у реальних медичних сценаріях, а також підкреслює важливість активної участі медичних спеціалістів у процесі розробки та впровадження ШІ-технологій.
Якщо вам цікаво, також можна почитати: