Mar 08, 2023
Как сделать машинное обучение важным для врачей: применимость модели при принятии медицинских решений
том npj Digital Medicine
npj Digital Medicine, том 6, номер статьи: 7 (2023 г.) Цитировать эту статью
4602 Доступа
1 Цитаты
23 Альтметрика
Подробности о метриках
Машинное обучение (МО) может изменить уход за пациентами и его результаты. Однако существуют важные различия между измерением эффективности моделей машинного обучения in silico и полезностью на месте. Одним из критериев, который следует использовать для оценки моделей на ранних этапах разработки, является практичность, которая в настоящее время недооценена. Мы предлагаем метрику действенности, предназначенную для использования перед оценкой калибровки и, в конечном итоге, анализом кривой принятия решений и расчетом чистой выгоды. Нашу метрику следует рассматривать как часть комплексных усилий по увеличению количества прагматических инструментов, определяющих возможные клинические последствия модели.
Существует огромный интерес к применению машинного обучения (МО) для решения многих нерешенных проблем в здравоохранении. Опубликованные модели могут повысить осведомленность врачей, выполнять диагностические задачи, прогнозировать клинически значимые события и направлять процесс принятия клинических решений1. Однако, несмотря на огромные обещания и инвестиции, применение этих моделей на местах оказания медицинской помощи было относительно ограниченным2. Этот провал реализации является проблематичным, поскольку он ограничивает возможность оценить эффективность модели по сравнению с реальными результатами.
Причины отсутствия внедрения МО многофакторны3. Помимо ограниченности ресурсов (например, отсутствие доступности данных, технической инфраструктуры, определенных терапевтических вариантов и клинических лидеров), одним из важных препятствий на пути внедрения МО может быть то, что многие показатели, используемые в настоящее время для оценки и отчетности о эффективности модели (например, показатель F1, область под рабочей кривой приемника, калибровка, дискриминация и т. д.) не отражают, как модель может улучшить процесс принятия медицинских решений4. Эта озабоченность оптимизацией традиционных показателей эффективности вместо более клинически применимых — это упущенная возможность понять, будет ли модель полезна для врачей, столкнувшихся с клинической дилеммой.
Мы рассматриваем действенность как характеристику моделей, которая отражает их способность дополнять процесс принятия медицинских решений по сравнению с суждением врача. Лучшим единым показателем, измеряющим клиническую полезность модели, является чистая польза5, которая оценивает взаимосвязь между пользой и вредом модели в диапазоне порогов вероятности принятия решения и заболевания. Могут быть построены кривые принятия решений, позволяющие оценить, будут ли ML или другие прогностические модели иметь более высокую полезность (т. е. чистую выгоду), если на них будут действовать по сравнению с другими моделями или другими стратегиями тестирования/лечения (например, тестировать/лечить всех пациентов). Если данная модель имеет более высокую чистую выгоду по сравнению с альтернативами, независимо от размера разницы, то использование модели для принятия соответствующего клинического решения улучшит клинические результаты по сравнению с альтернативами. К сожалению, в настоящее время чистая выгода является недостаточно используемым показателем, и мы считаем, что о ней следует сообщать почти для каждой модели ML, чтобы читатели могли лучше понять ее потенциальную полезность прямо у постели больного.
Однако анализ кривой решения предназначен для использования в уточненных моделях на заключительных этапах оценки модели. По существу, он обычно не используется на ранних этапах разработки моделей. В этой статье предлагается метрика, которая может помочь определить действенность модели на ранних стадиях разработки, до оценки калибровки и, в конечном итоге, анализа кривой принятия решений и расчета чистой выгоды. Наша цель состоит не в том, чтобы заменить традиционные показатели эффективности модели, поскольку они необходимы (но недостаточны) для клинической полезности, а также не заменяют чистую выгоду. Скорее, мы рассматриваем нашу метрику как клинически ориентированный фильтр, через который некоторые модели должны пройти на ранних стадиях разработки модели. В более широком смысле мы стремимся расширить доступные инструменты, позволяющие целостно оценить потенциальное клиническое воздействие модели.