Яндекс.Метрика

Логистическая регрессия в медицине

Каждый слышит то, что понимает. Гете


"Люди перестают мыслить,
когда перестают читать
".
Д. Дидро

Статистика посещаемости БИОМЕТРИКИ

Наш адрес:

Выбрав любое изображение, кликните по нему мышкой, и Вы узнаете о статистике ...


Редактор БИОМЕТРИКИ
В. Леонов

  • 385
data-counter data-url="http://www.biometrica.tomsk.ru/">
Популярные страницы посещаемые читателями

http://www.biometrica.tomsk.ru/index.htm
http://www.biometrica.tomsk.ru/biostat_1.htm
http://www.biometrica.tomsk.ru/biostat_2.htm
http://www.biometrica.tomsk.ru/biostat_3.htm
http://www.biometrica.tomsk.ru/biostat_4.htm

http://www.biometrica.tomsk.ru/biostat_5.htm
http://www.biometrica.tomsk.ru/biostat_6.htm

http://www.biometrica.tomsk.ru/biostat_7.htm
http://www.biometrica.tomsk.ru/biostat_8.htm
http://www.biometrica.tomsk.ru/biostat_9.htm
http://www.biometrica.tomsk.ru/biostat_10.htm

http://www.biometrica.tomsk.ru/biostat_11.htm
http://www.biometrica.tomsk.ru/nauka_33.htm

http://www.biometrica.tomsk.ru/potencial.htm
http://www.biometrica.tomsk.ru/nauka_19.htm
http://www.biometrica.tomsk.ru/logit_0.htm
http://www.biometrica.tomsk.ru/stat_cardio_1998.htm
http://www.biometrica.tomsk.ru/erevan_3.html
http://www.biometrica.tomsk.ru/student.htm
http://www.biometrica.tomsk.ru/stat_cardio1.htm
http://www.biometrica.tomsk.ru/error.htm
http://www.biometrica.tomsk.ru/leonov_vak.htm
http://www.biometrica.tomsk.ru/erevan_4.html
http://www.biometrica.tomsk.ru/student.htm
http://www.biometrica.tomsk.ru/stat_cardio1.htm
http://www.biometrica.tomsk.ru/biometrica_18.htm

Логистическая регрессия в медицине и биологии

В. Леонов

   Логистическая регрессия. Введение.
1. Логистическая регрессия. Основные понятия и возможности метода.
2. Логистическая регрессия. Анализ массивов большой размерности.
3. Логистическая регрессия. Примеры анализа реальных данных.
4. Логистическая регрессия и ROC-анализ.
5. Особенности логистической регрессии в акушерстве.
6. Особенности логистической регрессии в психиатрии, психологии и социологии.
7. Пример использования логистической регрессии для расчёта прогноза исхода оперативного лечения.
8. Логистическая регрессия - "вершина пирамиды". А в "фундаменте" - что?
9. Как повысить качество уравнений логистической регрессии.


В данной серии статей, на уровне доступном для начинающих, рассмотрены цели и направления метода логистической регрессии. В частности, приводятся пояснения, какие надёжные результаты этого метода могут быть использованы для поставленных целей медицинских и биологических исследований. На примерах реальных медицинских массивов данных, поясняется специфика использования данного метода. Объяснено, что метод имеет много алгоритмов оценки уравнений логистической регрессии, что позволяет назходить для использования во врачебной практике самые удобные и надёжные методы лечения. Рассмотрено использование метода к массивам данных, содержащим несколько сотен признаков разной природы. Показано, что корректное создание таких массивов, и их анализ, возможны лишь при участии биостатистиков на самых первых этапах таких исследований. Рассмотрена связь логистической регрессии и ROC-анализа. Приведены многочисленные уравнения логистической регрессии и ROC-кривые, полученные при анализе реальных данных. Объяснена целесообразность использования вместе с методом логистической регрессии набора методов анализа парных взаимосвязей между различными признаками, а также использование более сложных методов многомерной статистики.


 

Логистическая регрессия и ROC-анализ.

Новые исследовательские методы
- это те деревья, что очищают атмосферу
науки от углекислоты неточных
выводов и насыщают её кислородом
впервые открытых, увиденных
и понятых явлений.
____________
В.В. Парин

N.B.! Перед чтением данной статьи, настоятельно рекомендуем прочитать статью "Логистическая регрессия. Введение"


 

Как уже говорилось выше, логистической регрессии имманентно присуща поливариантность решений. Она позволяет исследователю отобрать те решения, которые наиболее интересны высокими значениями показателя конкордации, а также возможностью убедительной интерпретации и практического использования.

Не менее важным достоинством такой поливариантности решений является возможность использования всех этих решений в ROC-анализе (см. нашу статью «Основные понятия ROC-анализа», URL: http://www.biometrica.tomsk.ru/ROC-analysis.pdf ). Напомним, что ROC-кривая (Receiver Operator Characteristic), называемая также ещё операционной  характеристикой приёмника, пришла в медицину из радиолокации, где она использовалась как инструмент при обработке сигналов. Наиболее разработан данный анализ для случая бинарной классификации. Хотя в настоящее время уже есть работы для классификации с тремя исходами.

 

  Для случая двух исходов, например, «пациент выжил» (положительный исход) и «пациент умер» (отрицательными исход), ROC-кривая отображает зависимость между чувствительностью и специфичностью метода анализа. В роли классификатора обычно выступает некий числовой параметр, изменяя который исследователь производит классификацию наблюдений. Такой параметр  называют точкой отсечения (cut-off value) или порогом. Вариация точки отсечения изменяет величины ошибок I и II рода.

  Получив набор уравнений логистической регрессии для одного и того же массива данных, можно построить ROC-кривые для каждого уравнения, используя в качестве числового классификатора значение параметра beta= a0 + a1*x1a2*x2 + … +   aj*xj . Современные методы биостатистики позволяют провести сравнение между собой нескольких ROC-кривых. При этом в качестве лучшего решения выбирается то уравнение, для которого площадь под ROC-кривой (показатель AUC – Area Under Curve) имеет статистически значимо отличающееся максимальное значение. Пример такого сравнения нескольких ROC-кривых дан в нашей статье «Основные понятия ROC-анализа» (URL: http://www.biometrica.tomsk.ru/ROC-analysis.pdf ). В этом примере рассмотрено сравнение нескольких ROC-кривых, полученных при изучении генетики бронхиальной астмы. 

Необходимость оценки не одного, а целого набора уравнений логистической регрессии для оптимизации оценки тяжести состояния и тактики лечения, вызвана необходимостью выбора среди всех полученных моделей таких, которые предоставляют врачу наиболее удобный и действенный набор предикторов. Рассмотрим эту возможность на примере массива созданного Е.П. (Санкт-Петербург), состоящего более чем из 2500 наблюдений и включающего следующие признаки:

NUMBER=«Номер наблюдения»
VAR1=«Персональный номер пациента»
VAR2A=«Пол»
VAR3=«Возраст матери»
VAR4=«Срок гестации»
VAR5=«Порядковый номер беременности»
VAR6=«Порядковый номер родов»
VAR7=«Апгар на 1 минуте»
VAR8=«Апгар на 5 минуте»
VAR9=«Масса тела при рождении»
VAR10=«Длина тела при рождении»
VAR11=«Окружность головы»
VAR12=«Часы жизни на мом.пост. в ОРИТ»
VAR13A=«Первый основной д-з при пост»
VAR14A=«Второй основной д-з при пост»
VAR15A=«Факторы риска ак.-гин. анамнеза»
VAR16A=«Экстрагенитальная патология у матери»
VAR17A=«Инфекц-я пат-ия у матери во время бер.»
VAR18A=«Осложнения настоящей беременности»
VAR19A=«Роды»
VAR20A=«Исход родов»
VAR21=«Часы жизни на момент исхода»
VAR22=«Масса тела на момент исхода»
VAR23=«Динамика массы тела с рождения»
VAR24=«Динамика массы тела с поступления»
VAR25A=«Зависимость от кислорода при исходе»
VAR26A=«Верифиц-ое внутрижел-ое кровоизл-е»
VAR27=«Часы, проведенные в ОРИТ»
VAR28=«Часы, проведенные на ИВЛ»
VAR29=«Оценка по шкале SNAP II, баллы»
VAR30=«Оценка по шкале NTISS, баллы»
VAR31A=«Курасурф»
VAR32A=«Первый основной заключительный д-з»
VAR33A=«Второй основной заключительный д-з»
VAR34=«Возраст жизни в часах на момент набл»
VAR35=«Масса тела на момент наблюдения»

VAR36A=«Окраска кожи»
VAR37A=«Отёки»
VAR38=«ЧСС»
VAR39=«Сист. неинваз. АД»
VAR40=«Диаст. неинваз. АД»
VAR41=«Сред. неинваз. АД»
VAR42=«Частота самост. дых-ний»
VAR43A=«Характер самостоят. дыхания»
VAR44=«Температура тела»
VAR45=«Чрезкожная О2 сатурация»
VAR46=«Диурез за прошедшие сутки»
VAR47=«Энтерально усвоено за прош. сутки»
VAR48=«Гемоглобин»
VAR49=«Эритроциты»
VAR50=«Тромбоциты»
VAR51=«Лейкоциты»
VAR52=«Процент нейтрофилов»
VAR53=«Процент юных клеток»
VAR54=«Глюкоза плазмы крови»
VAR55=«pH»
VAR56=«Парц.напряж.О2 в капиллярной крови»
VAR57=«Парц.напряж.СО2 в капиллярной крови»
VAR58=«Дефицит оснований»
VAR59=«Бикарбонат в плазме крови»
VAR60=«Билирубин в плазме крови»
VAR61=«Мочевина в плазме крови»
VAR62=«Креатинин в плазме крови»
VAR63=«Калий в плазме крови»
VAR64=«Натрий в плазме крови»
VAR65=«Кальций в плазме крови»
VAR66=«Хлор в плазме крови»
VAR67=«Лактат в плазме крови»
VAR68=«Анионный промежуток»
VAR69=«Величина сердечного выброса»
VAR70=«Парц.напряж. О2 в венозной крови»
VAR71=«Парц.давл. экстр. О2 из арт. крови»
VAR72=«Артериал. концентр. общего О2 в крови»

VAR73=«Артерио-венозная разница по О2»
VAR74=«Системная доставка кислорода»
VAR75=«Индекс системной доставки кислорода»
VAR76=«Системное потребление кислорода»
VAR77=«Индекс системного потребления кислорода»
VAR78=«Напряж.О2 крови при ее дес-ции на 1/2»
VAR79=«Относительный физиологический шунт»
VAR80A=«Тип респираторной поддержки»
VAR81=«Фракция кислорода во вдыхаемом воздухе»
VAR82=«Время аппаратного вдоха»
VAR83=«Частота аппаратных дыханий»
VAR84=«Величина пикового давления»
VAR85=«Величина давления в конце вдоха»
VAR86=«Средн. давление в дых. путях»
VAR87A=«Седатация за последние 6 часов»
VAR88A=«Инотропная поддержка»
VAR89=«Темп внутривенных инфузий, мл/час»
VAR90=«Усред.оц.в проф. Угнет-Раздраж, баллы»
VAR91=«Шоковый индекс»
VAR92A=«Доминир-ие кардио-васкулярных нарушений»
VAR93=«Индекс оксигенации»
VAR94=«Индекс эффективности вентиляции»
VAR95=«Респираторный индекс»
VAR96A=«Доминирование респираторных нарушений»
VAR97A=«Доминирование неврологических нарушений»
VAR98=«Абсолютное число нейтрофилов»
VAR99=«Ядерный сдвиг»
VAR100A=«Доминирование гематолог-ких нарушений»
VAR101=«Почасовой диурез»
VAR102A=«Доминирование почечных нарушений»
VAR103A=«Доминирование печеночных нарушений»
VAR104A=«Доминирование энтеральных нарушений»

 

Одна из задач данного исследования заключалась в сравнении различных подгрупп по результирующему признаку VAR20A=«Исход родов», имеющему 5 градаций: 1="неон к-а", 2="инт+др ка", 3="др. ОРИТ", 4="ок неоп-а" и 5="смерть". Уравнения, полученные в результате анализа этого массива, обеспечивали показатель конкордации в интервале 94 - 98%. Не менее интересна при анализе подобных массивов и оценка уравнений логистической регрессии для зависимых признаков типа  VAR13A=«Первый основной д-з при пост» и VAR14A=«Второй основной д-з при пост». В этом случае предикторы таких уравнений, обеспечивающие высокие показатели конкордации, могут претендовать на то, чтобы именно они оценивались в первую очередь при поступлении больных с данной конкретной патологией.

Рис. 3. ROC-кривые для 3-х шагов отбора предикторов

 

   Используя признак VAR20A=«Исход родов», создадим новый признак VAR20AA=«Выжил/Умер» с двумя градациями: 1="ВЫЖИЛ", 2="УМЕР". Используя этот признак в качестве зависимого, оценим различными алгоритмами уравнения логистической регрессии, и построим для них ROC-кривые.

Из полученного набора уравнений рассмотрим в качестве примера два таких уравнения.  На рис. 3 представлены ROC-кривые для 3-х последовательных шагов отбора предикторов.  Однако после 3-го шага последний включённый предиктор имел значение достигнутого уровня значимости гораздо больше критической величины в 5%, поэтому он был на 4-м шаге удалён из уравнения. В результате в уравнении осталось лишь 2 предиктора:

 
 
 

 

Обратим внимание на доминирование  предиктора А1. Показатель конкордации для этого уравнения равен 90,9%. Показатель AUC для конечной модели при этом равен 0,9086.

     Во втором уравнении в качестве предикторов используются уже 8 признаков. Данное уравнение обеспечивало показатель конкордации равный 100%. Ниже приведён рис. 4 с ROC-кривыми для второго уравнения. Показатель AUC для конечной модели в этом случае равен 1.

 

Рис. 4. ROC-кривые для 8 шагов отбора предикторов

 

    Отметим, что предиктор А1 в первом и втором уравнениях – это одна и та же переменная. Тогда как предиктор А2 –  разные показатели. Как и в предыдущих уравнениях имеются доминирующие предикторы. Отсортируем наблюдения по возрастанию параметра beta= a0 + a1*X1a2*X2 + … +   aj*Xj , и ниже приведём часть таблицы, содержащей фактическую принадлежность наблюдений к одной из двух подгрупп признака VAR20AA= «Выжил/Умер», значения параметра beta (Value of the Linear Predictor), а также вычисленные вероятности отнесения наблюдений к одной двух подгрупп.   

    

   

* Примечание. Выражения вида 3,6975E-21 означают произведение двух сомножителей: 3,6975*10–21.

 

       Из этой таблицы видно, что чем меньше значение параметра beta, тем меньше вероятность исхода «Выжил», и тем больше вероятность исхода «Умер». Отметим, что высокие вероятности исхода «Выжил» присущи положительным значениям параметра beta. Из чего можно сделать вывод о том, что для увеличения вероятности исхода «Выжил» необходимо выбирать такую тактику лечения, чтобы уменьшать значения предикторов с отрицательными коэффициентами (A1, A2 и A4), увеличивая при этом значения тех предикторов, которые имеют положительные коэффициенты (A3, A5, A6, A7, A8). Однако такие воздействия не всегда реализуемы на практике. Например, если в состав предикторов вошёл такой признак, как «Пол», то очевидно, что данный предиктор не может быть изменён. И в этом случае самым разумным выходом является лишь новая оценка уравнения логистической регрессии, при которой признак «Пол» должен быть исключён из состава потенциальных предикторов. Либо такая оценка должна быть проведена раздельно для пациентов разного пола. Фактически это означает, что для получения набора уравнений, удобных для практического использования, необходимо последовательное улучшение таких уравнений, с учётом состава предикторов в предыдущих уравнениях. Очевидно, что такая работа может быть продуктивна лишь в результате сотрудничества клинициста и биостатистика.

Достоинства метода логистической регрессии привели к тому, что данный метод широко используется не только в медицине и биологии, но практически во всех отраслях знания. Если сделать поиск в интернете на эту тему, то можно обнаружить довольно много ссылок на использование этого метода в различных областях. Хронологически логит-регрессия восходит к методу скоринга, который получил своё развитие в биологии как средство построения рейтинговых таблиц для сортировки изучаемых объектов. При этом для формирования рейтинга использовали значения признаков с различными «весами, метками» (вес, метка, оценка, счёт – score). В настоящее время скоринг на основе логистической регрессии используется в медицине, биологии, экологии, этнографии, генетике, маркетинге, в банковской деятельности для оценки рисков при предоставлении кредитов конкретным лицам, в эконометрике и т.д. Есть работы по использованию логистической регрессии в социологии, в оценке библейских текстов (Стивен У. Бойд. Библейская летопись сотворения мира: слово за математикой древнееврейского текста).

 

Заканчивая статью о логистической регрессии, хочу обратить внимание исследователей на то, что собираемые ими массивы реальных данных практически всегда содержат как количественные, так и качественные показатели. Причём среди качественных показателей всегда есть такие, которые вполне разумно рассматривать как выходные, зависимые переменные. И в этом случае следует обязательно использовать метод логит-регрессии. Те, кто хотел бы получить оценки уравнений логистической регрессии по своим данным, могут обращаться к нам по электронной почте на адрес


Далее: 5. Особенности логистической регрессии при анализе данных в акушерстве

Центр БИОСТАТИСТИКА выполняет работы по статистическому анализу экспериментальных данных уже более 30 лет. В его составе исследователи России, США, Израиля, Англии, Канады и других стран. Услугами Центра пользуются аспиранты и докторанты в области медицины, биологии, социологии, психологии и т.д. (См. далее )


Примеры оформления заказчиками базы данных, описания признаков и целей статистического анализа этой базы данных

Островок  здоровья

Пример 1   Пример 2   Пример 3


Отзывы исследователей по
статистическому анализу
данных


Сравниваем средние, а также и ... В. Леонов
Исследователям в медицине и биологии весьма большую пользу приносит сравнение не только групповых средних, но также и иных параметров. Такими новыми сравнениями являются проверки равенства дисперсий, коэффициентов корреляции, коэффициентов регрессии или векторов групповых средних, сравнение групп многомерными методами, и т.д. Показано, что не нормальное распределение количественного признака, означает наличие взаимосвязей данного признака с другими признаками. Что является важнейшим аргументом по формулировке списка проверки взаимосвязей важнейших признаков проводимого исследования.


Проценты - статистический анализ? Или проценты - арифметический анализ? В. Леонов.

В.П. Леонов.  Камуфляжные мемы инфоценоза научных школ // Философия математики: актуальные проблемы. Материалы Международной научной конференции 15-16 июня 2007. Москва, Изд. Саван С. А., 2007. - с. 212-216.

ВОЗМОЖНОСТИ БИОМЕТРИЧЕСКОГО АНАЛИЗА ВЗАИМОСВЯЗИ СОМАТИЧЕСКИХ ПОКАЗАТЕЛЕЙ И СИСТЕМАТИКИ ПСИХИЧЕСКИХ РАССТРОЙСТВ.
Н.П.Гарганеева, В.П.Леонов. Сибирский медицинский журнал, № 2, 2001, с.25-32.

НАУКОМЕТРИКА СТАТИСТИЧЕСКОЙ ПАРАДИГМЫ ЭКСПЕРИМЕНТАЛЬНОЙ БИОМЕДИЦИНЫ   (ПО МАТЕРИАЛАМ ПУБЛИКАЦИЙ). В.П.Леонов.Cамая читаемая наша статья после отправки в мае м-це с.г. более 300 писем авторам статей мед. журналов о наличии в них примитивных и ошибочных методов статистического анализа, и получаемых при этом результатах...

Проценты - статистический анализ? Или проценты - арифметический анализ? В. Леонов.

Мотивом к написанию данной статьи стал следующий инцидент. 11 апреля 2016 г. я получил вот какое письмо.

Уважаемый Василий Петрович!

Я являюсь одним из читателей Вашего сайта "Биометрика", который нашёл по ссылке, размещённой на странице  http://bono-esse.ru/blizzard/ais.html C большим интересом ознакомившись, в частности, с разделом "Кунсткамера", обращаюсь к Вам с несколько необычным вопросом по независимому, неформальному рецензированию работы.


Примеры отличных диссертаций и статей по медицине и биологии, с нашими результатами статистического анализа

В.В. Половинкин
ТОТАЛЬНАЯ МЕЗОРЕКТУМЭКТОМИЯ — ФАКТОР ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ЛЕЧЕНИЯ СРЕДНЕАМПУЛЯРНОГО И НИЖНЕАМПУЛЯРНОГО РАКА ПРЯМОЙ КИШКИ.

Н.Г. Веселовская 
КЛИНИЧЕСКОЕ И ПРОГНОСТИЧЕСКОЕ ЗНАЧЕНИЕ ЭПИКАРДИАЛЬНОГО ОЖИРЕНИЯ У ПАЦИЕНТОВ ВЫСОКОГО СЕРДЕЧНО-СОСУДИСТОГО РИСКА.

О.Я. Васильцева ЗАКОНОМЕРНОСТИ ВОЗНИКНОВЕНИЯ, КЛИНИЧЕСКОГО ТЕЧЕНИЯ И ИСХОДОВ ТРОМБОЭМБОЛИИ ЛЕГОЧНОЙ АРТЕРИИ ПО ДАННЫМ ГОСПИТАЛЬНОГО РЕГИСТРА ПАТОЛОГИИ.

В.А. Габышев 
ФИТОПЛАНКТОН КРУПНЫХ РЕК ЯКУТИИ И СОПРЕДЕЛЬНЫХ ТЕРРИТОРИЙ ВОСТОЧНОЙ СИБИРИ.
М.И. Антоненко
 
ГИПЕРКОРТИЦИЗМ БЕЗ СПЕЦИФИЧЕСКИХ КЛИНИЧЕСКИХ СИМПТОМОВ: ЭПИДЕМИОЛОГИЯ, КЛИНИКА, ДИАГНОСТИКА.

Н.Г. Веселовская"ПРОГНОЗИРОВАНИЕ РИСКА РЕСТЕНОЗА КОРОНАРНЫХ АРТЕРИЙ ПОСЛЕ ИХ СТЕНТИРОВАНИЯ У ПАЦИЕНТОВ С ОЖИРЕНИЕМ"

Г.А. Попова СРАВНИТЕЛЬНОЕ ИЗУЧЕНИЕ ПОДВИДОВ LINUM USITATISSIMUM L . В УСЛОВИЯХ ЗАПАДНОЙ СИБИРИ. (диссертация на соискание учёной степени кандидата биологических наук).

А.Г. Сыркина Ретроспективный анализ эффективности и безопасности тромболитической терапии острого инфаркта миокарда у больных пожилого и старческого возраста (диссертация на соискание учёной степени кандидата медицинских наук).

В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года).

Фоторепортаж с семинара по биометрике в Ереване, прошедшего после конференции по доказательной медицине (24 - 26 сентября 2015 года).

Отзывы слушателей семинара по биометрике в Ереване в сентябре 2015 г.


Новые полезные книги...

(Заказать книгу можно через издательство)

Ланг Т., Сесик М. Как описывать статистику в медицине. Руководство для авторов, редакторов и рецензентов. Пер. с англ. В.П. Леонова. 2016 - 480 с.

Петри А., Сэбин К. Наглядная медицинская статистика. Учебное пособие. 3-е издание. Пер. с англ. В.П. Леонова. 2015. - 216 с.

Банержи А. Медицинская статистика понятным языком: вводный курс. Издательство "Практическая медицина", 2014. - 287 с. Пер. с англ. В.П. Леонова.

Т. Гринхальх. Основы доказательной медицины. Издательство "ГЭОТАР-Медиа", 2015. - 336 с. 4-е издание переработанное и дополненное. Пер. с англ. Под ред. И.Н. Денисова, К.И. Сайткулова, В.П. Леонова.


Долгое прощание
с
лысенковщиной 

История науки не ограничивается перечислением успешных исследований. Она должна сказать нам о безуспешных исследованиях и объяснить, почему некоторые из самых способных людей не могли найти ключа знания, и как репутация других дала лишь большую опору ошибкам, в которые они впали.

Дж. Максвелл 


Материалы по науковедению

В новый век - с доказательной биомедициной


1997 - 2019.© Василий Леонов. E-mail:

Доказательная или сомнительная? Медицинская наука Кузбасса: статистические аспекты.

Отклики читателей статьи "Доказательная или сомнительная?"

Возврат на главную страницу.

Возврат в КУНСТКАМЕРУ

Т. Кун "Структура научных революций"