Шумиху вокруг ИИ раздувают предвзятые исследователи?

16.04.2020 Ярослав Кривцов

Время чтения: 2 мин.

Если верить публикациям по результатам исследований, почти в ста процентах случаев алгоритмы искусственного интеллекта (ИИ) не хуже, а то и лучше врачей справляются с интерпретацией медицинских изображений. Но почти в трех четвертях таких статей нельзя исключить предвзятое отношение авторов к вопросу. Делая громкие заявления и тем самым разжигая шумиху вокруг ИИ, они потенциально подвергают опасности пациентов, говорится в статье, опубликованной в журнале BMJ.

Группа специалистов из Великобритании и США проанализировала результаты проведённых исследований, сравнивающих эффективность алгоритмов глубокого обучения с показателями опытных врачей при интерпретации медицинских изображений в таких областях, как радиология, офтальмология, дерматология, гастроэнтерология, патология и ортопедия.

Они обнаружили существенные недостатки в этих исследованиях, в том числе нехватку рандомизированных клинических испытаний, малое количество проспективных нерандомизированных исследований, ограниченную доступность данных и программных кодов, а также описательный язык, предполагающий сопоставимую или более высокую эффективность ИИ, несмотря на значительные ограничения этих исследований.

Авторы изучили нескольких онлайн баз данных исследований, опубликованных с 2010 по 2019 год, в которых сравнивалась эффективность алгоритмов глубокого обучения с возможностями одного или нескольких опытных врачей в части прогнозирования по медицинским изображениям абсолютного риска наличия заболевания или классификации пациентов по диагностическим группам, таким как наличие или отсутствие болезни.

Было найдено только 10 отчётов по результатам проведённых рандомизированных клинических испытаний в области глубокого обучения, восемь из которых были связаны с гастроэнтерологией, один с офтальмологией и один с радиологией. На данный момент опубликовано только два отчёта: по офтальмологии и гастроэнтерологии.

Из 81 нерандомизированного исследования девять (11%) были проспективными. Однако только шесть из них были протестированы в реальной клинической среде. Наиболее распространенной специализацией оказалась радиология– ей было посвящено 36 (44%) исследований.

В 77 исследованиях отчёт по их результатам включал специальный комментарий, сравнивающий эффективность ИИ с показателями врачей. Из них в 23 (30%) случаях сообщалось, что ИИ превосходит врачей, в 13 (17%) случаях он был сравним или лучше человека, в 25 (32%) случаях – сравним, в 14 ( 18%) случаях – способен улучшить работу специалиста и только в двух (3%) случаях проиграл доктору. При этом только в 31 (38%) работе говорилось о необходимости проведения дополнительных проспективных исследований или испытаний.

После оценки этих исследований на соответствие стандартам представления результатов и на наличие рисков предвзятого отношения, исследователи обнаружили ряд проблем:

Среднее число специалистов в контрольной группе составляло только четыре человека.
Полный массив данных был недоступен в 95% исследований.
Полный доступ к программному коду предварительной обработки данных и моделирования был недоступен в 93% исследований.
Риск предвзятого отношения был высоким в 58 (72%) из 81 нерандомизированных исследований.

Уровень соблюдения стандартов представления результатов исследований в целом был ниже оптимального с менее чем пятидесятипроцентным соблюдением рекомендаций TRIPOD – правил по прозрачному предоставлению результатов диагностических и прогностических исследований многофакторных моделей.

Авторы призвали к созданию более качественной и более прозрачной базы реальных данных, чтобы помочь «избежать ажиотажа, уменьшить количество низкосортных исследований и защитить пациентов».

Оригинал новости можно прочитать здесь

Читайте также: