Что мешает распространению ИИ в радиологии?
Искусственный интеллект (ИИ) – технология, имеющая огромный потенциал в радиологии. Но несколько ключевых вопросов в настоящее время ограничивают ее применение в клинических условиях не только в России, но и в США, являющихся лидером по внедрению машинного разума в здравоохранение. Основные препоны были перечислены в специальной презентации Управления по надзору за качеством пищевых продуктов и медикаментов США (FDA). Представивший презентацию д-р Питер Чанг из Университета Калифорнии обсудил текущие и будущие тенденции, а также новые парадигмы в радиологическом программном обеспечении, использующем ИИ.
Проблема 1
Большое количество ложно-положительных результатов
Радиологического ПО на базе ИИ выдают очень большое количество ложно-положительных результатов. Основная проблема заключается в том, что существующие инструменты ИИ для интерпретации изображений не учитывают невизуальный контекст при анализе снимков.
«Дело в том, что без правильного контекста одни изображения могут быть интерпретированы только до определенной степени точности», – сказал Чанг.
Другая проблема заключается в том, что распространенность заболевания очень низкая. Если взять 10-процентную распространенность заболевания среди всех анализируемых случаев, алгоритм, который имеет 80-процентную чувствительность и 80-процентную специфичность, будет иметь 31-процентную положительную прогностическую ценность, считает докладчик. Повышение эффективности работы алгоритма до 90-процентной чувствительности и 90-процентной специфичности увеличивает положительную прогностическую ценность только до 50 процентов.
Кроме того, алгоритм ИИ, предназначенный для сортировки экстренных случаев для их последующего анализа рентгенологами, несколько сокращая время диагностики для одной определенной болезни, увеличивает это время для всех остальных диагнозов.
«Это на самом деле дает нам возможность с точностью определить границы возможностей алгоритма, – сказал Чанг. – С одной стороны, алгоритм с высокой отрицательной прогностической ценностью, при использовании которого человеку совсем не нужно смотреть на эти изображения, потенциально может усовершенствовать наш рабочий процесс. На другом полюсе стоит настолько высоко специфический алгоритм, что он может пропустить несколько случаев, но зато все, что он показывает человеку, является истинным положительным результатом, и это будет еще одним потенциально полезным приложением этого алгоритма».
Проблема 2
Интерпретируемость
Интерпретируемость алгоритмов является важным вопросом. По нормативным положениям, регулирующим использование этой категории программного обеспечения, приложения для автоматизированной сортировки больных, не должны комментировать изображения или предоставлять какую-либо конкретную информацию о том, что они анализируют на снимках, отметил Чанг. А это тоже иногда может вредить делу.
«Это кажется очевидным, но если я смотрю на изображение, которое ИИ отметил как имеющее положительный результат, и я ничего не вижу, то в конечном итоге я трачу больше времени на то, чтобы дать по нему отрицательное заключение, чем мне было бы необходимо в противном случае, – сказал он. – Быстрое двух или трех-минутное КТ сканирование головы теперь займет гораздо больше времени. Способность локализовать что-то конкретное, что вы пытаетесь найти, чрезвычайно важна, потому что, если я вижу какой-то артефакт или ложно-положительный фактор, я могу быстро исключить его и продолжить работу».
Аналогично алгоритмы, которые обучены предоставлять бинарную классификацию (например, есть ли у пациента какое-либо конкретное заболевание или нет), обучаются очень по-разному и имеют иные базовые архитектуры, чем алгоритмы, разработанные для предоставления конкретной обратной связи. В результате они могут выдавать различные типы ошибок.
В отличие от приложений, предназначенных для бинарной диагностики, алгоритмы, которые предоставляют конкретную обратную связь (такую, как количественное затухание или объемное воздействие), как правило, делают ошибки, более свойственные человеку, То есть, неоднозначные толкования, а не просто случайные ошибки.
«Нейронные сети – очень нелинейные, очень сложные функции, которые по большей части работают хорошо, но иногда могут давать результаты, которые будут совершенно неожиданными – т.е. такую ошибку, которую не сделает практикант первого или второго года обучения, – сказал Чанг. – Со случайными ошибками такого рода чрезвычайно трудно бороться в структуре автономного ИИ».
Проблема 3
Оценка эффективности работы алгоритма ИИ
Как правило, существует расхождение между тем, что заявляют разработчики в плане оценки эффективности работы их программного обеспечения и собственным опытом медицинского учреждения, полученным при работе алгоритма с данными этой организации.
Критерии эффективности работы алгоритма ИИ от разработчиков основаны обычно на анализе идеальных, специально отобранных данных, но в клинической практике многие аспекты диагностической визуализации потенциально могут приводить к ошибкам. Например, движение пациента во время обследования или неправильно выполненное обследование без контраста, что исключает точную интерпретацию с помощью ИИ.
«Вам будет нужно решать эту проблему либо с помощью другой системы ИИ, либо использовать какую-либо другую стратегию, но это то, о чем, вам, безусловно, нужно будет подумать,- сказал Чанг. – Это несовершенный процесс, имеющий определенные погрешности на всем пути, и окончательная эффективность работы системы на самом деле является отражением эффективности работы всех компонентов, а не только эффективности отдельно взятого алгоритма».
Еще один источник погрешности – это ошибочные предположения относительно эффективности работы системы. Например, часто во время проверки эффективности работы алгоритмов данные могут случайно переходить из категории обучающих в проверочные.
Или данные, используемые для проверки, могут быть плохо обобщены. Даже если разработчик обучит алгоритм с использованием массива данных 10 000 или даже 100 000 пациентов, проверка или тестирование алгоритма могут проводиться только на когорте в пару сотен пациентов, сказал Чанг.
Кроме того, некоторые алгоритмы могут позиционироваться как подходящие для использования со всеми типами производителей и протоколов визуализации, но, может оказаться, что такая универсальность не была учтена в обучающем массиве данных, говорит Чанг. И правильность контрольных данных, используемых для оценки эффективности системы, также может быть субъективная.
Будущие тренды
Каждой больнице – свой алгоритм
Из-за нехватки хороших, больших, разнородных массивов данных появилось множество творческих парадигм для алгоритмов обучения с использованием данных, полученных от различных учреждений. Они включают в себя распределенное глубокое изучение, федеративное машинное обучение и непрерывную тонкую настройку алгоритмов, сказал Чанг.
В концепции распределенного глубокого обучения единый алгоритм обучается с одновременным использованием данных нескольких учреждений. Федеративный метод машинного обучения может производить алгоритмы, на 90 процентов обученные с использованием данных других организаций, и только оставшиеся 10 процентов данных принадлежат собственному учреждению. Выводя эту модель на новый уровень, организации могут постоянно совершенствовать алгоритмы, используя свои собственные данные, сказал он.
Учитывая растущую легкость создания моделей ИИ, академические больницы или университетские факультеты все чаще будут принимать решение создавать алгоритмы собственными силами, говорит Чанг.
«Я предполагаю, что будет происходить быстрое размывание между тем, что мы часто рассматриваем как исследовательский проект в рамках одного учреждения, и полноценным клиническим применением алгоритма в больнице, – сказал он. – И, конечно, отсюда возникает вопрос: какие нормативные требования будут действовать в этой области? Будут ли обязательства по обеспечению регулирования возложены на компании, чья работа состоит в том, чтобы отбирать и объединять в единое целое модели из различных академических больниц, или этим должны будут заниматься конкретные учреждения, если они производят много моделей, используемые в различных больницах»?
Автономная интерпретация изображений
Наблюдается рост интереса в области применения радиологических алгоритмов ИИ для полностью автономной интерпретации изображений в конкретных клинических приложениях и для выдачи заключений по ним без вмешательства человека. Алгоритмы с высокой отрицательной прогностической ценностью найдут свою популярность в этой парадигме, что позволит проводить определенный процент обследований без какого-либо участия рентгенологов, прогнозирует Чанг.
«Эти случаи изучаются наиболее интенсивно в области КТ: неконтрастные КТ обследования головы, КТ скрининг грудной клетки и т.д., – сказал он. – Я также могу добавить, что методы визуализации, дающие изображения поперечных срезов тела, в целом рассматриваются потому, что они отличаются наименьшим уровнем субъективности по сравнению с другими методами типа рентгена или ультразвука».
Но какой уровень эффективности должно иметь программное обеспечение, чтобы выполнять автономную интерпретацию изображений? Должно ли оно находиться на уровне опытных рентгенологов или превосходить человеческие способности? На эти вопросы еще предстоит найти ответы.
Оригинал новости можно прочитать здесь