Шаги, позволяющие избежать чрезмерного и неправильного использования машинного обучения в клинических исследованиях

Новости

ДомДом / Новости / Шаги, позволяющие избежать чрезмерного и неправильного использования машинного обучения в клинических исследованиях

Mar 07, 2023

Шаги, позволяющие избежать чрезмерного и неправильного использования машинного обучения в клинических исследованиях

Природная медицина, том 28,

Nature Medicine, том 28, страницы, 1996–1999 (2022 г.) Процитировать эту статью

28 тысяч доступов

11 цитат

291 Альтметрика

Подробности о метриках

Алгоритмы машинного обучения — мощный инструмент в здравоохранении, но иногда они работают не лучше, чем традиционные статистические методы. Необходимо принять меры для обеспечения того, чтобы алгоритмы не использовались чрезмерно или неправильно, чтобы обеспечить реальную пользу пациентам.

Низкая производительность многих систем машинного обучения (МО) в здравоохранении хорошо документирована1,2. В здравоохранении, как и в других областях, алгоритмы ИИ могут даже увековечить человеческие предрассудки, такие как сексизм и расизм, если обучаться на предвзятых наборах данных3.

Учитывая быстрое внедрение искусственного интеллекта (ИИ) и МО в клинические исследования и их ускоряющееся воздействие, разработка руководящих принципов4,5, таких как SPIRIT-AI, CONSORT-AI и, совсем недавно, DECIDE-AI, для регулирования использования ML в клинические исследования помогли заполнить пробел в регулировании.

Однако эти рекомендации по клиническим исследованиям обычно касаются использования МО постфактум, после того, как было принято решение использовать метод МО для научного исследования. Рекомендации не ставят вопросов о необходимости или целесообразности использования методов искусственного интеллекта или машинного обучения в медицинских учреждениях.

В начале пандемии COVID-19, до широкого внедрения надежных методов выявления SARS-CoV-2 на месте оказания медицинской помощи, одной из наиболее активных областей исследований была разработка алгоритмов МО для оценки вероятности заражения. Эти алгоритмы основывали свои прогнозы на различных элементах данных, зафиксированных в электронных медицинских записях, таких как рентгенограммы грудной клетки.

Несмотря на многообещающие результаты первоначальной проверки, успех многочисленных искусственных нейронных сетей, обученных на рентгенограммах грудной клетки, в значительной степени не был воспроизведен при применении в различных больницах, отчасти потому, что модели не смогли изучить или понять истинную основную патологию COVID-19. Вместо этого они использовали ярлыки или ложные ассоциации, которые отражали биологически бессмысленные различия в получении изображений, такие как маркеры латерализации, положение пациента или различия в рентгенографической проекции6. Эти алгоритмы МО не поддавались объяснению и, хотя и казались передовыми, уступали традиционным диагностическим методам, таким как RT-PCR, что сводило на нет их полезность. Для COVID-19 было разработано более 200 моделей прогнозирования, некоторые из которых используют машинное обучение, и практически все они страдают от плохой отчетности и высокого риска предвзятости7.

Термин «чрезмерное использование» относится к ненужному внедрению искусственного интеллекта или передовых методов машинного обучения там, где уже существуют альтернативные, надежные или превосходящие методологии. В таких случаях использование методов искусственного интеллекта и машинного обучения не обязательно является неуместным или необоснованным, но обоснование таких исследований неясно или искусственно: например, может быть предложен новый метод, который не дает значимых новых ответов.

Во многих клинических исследованиях методы ML использовались для достижения достойных или впечатляющих результатов, о чем свидетельствуют значения площади под кривой (AUC) от 0,80 до 0,90 или даже >0,90 (Вставка 1). Высокая AUC не обязательно является признаком качества, поскольку модель ML может быть переподходящей (рис. 1). Когда применяется традиционная техника регрессии и сравнивается с алгоритмами МО, более сложные модели МО часто обеспечивают лишь незначительный прирост точности, представляя сомнительный компромисс между сложностью модели и точностью1,2,8,9,10,11,12. Даже очень высокие значения AUC не являются гарантией надежности, поскольку возможно значение AUC 0,99 при общей частоте событий <1%, что приведет к правильному прогнозированию всех отрицательных случаев, в то время как немногие положительные события — нет.

Учитывая набор данных с точками данных (зеленые точки) и истинным эффектом (черная линия), статистическая модель направлена ​​на оценку истинного эффекта. Красная линия иллюстрирует близкую оценку, тогда как синяя линия иллюстрирует модель машинного обучения с переоснащением с чрезмерным использованием выбросов. Может показаться, что такая модель дает отличные результаты для этого конкретного набора данных, но не работает хорошо в другом (внешнем) наборе данных.