Яндекс.Метрика

Логистическая регрессия в медицине

Каждый слышит то, что понимает. Гете


"Люди перестают мыслить,
когда перестают читать
".
Д. Дидро

Статистика посещаемости БИОМЕТРИКИ

Наш адрес:

Выбрав любое изображение, кликните по нему мышкой, и Вы узнаете о статистике ...


Редактор БИОМЕТРИКИ
В. Леонов

  • 385
data-counter data-url="http://www.biometrica.tomsk.ru/">
Популярные страницы посещаемые читателями

http://www.biometrica.tomsk.ru/index.htm
http://www.biometrica.tomsk.ru/biostat_1.htm
http://www.biometrica.tomsk.ru/biostat_2.htm
http://www.biometrica.tomsk.ru/biostat_3.htm
http://www.biometrica.tomsk.ru/biostat_4.htm

http://www.biometrica.tomsk.ru/biostat_5.htm
http://www.biometrica.tomsk.ru/biostat_6.htm

http://www.biometrica.tomsk.ru/biostat_7.htm
http://www.biometrica.tomsk.ru/biostat_8.htm
http://www.biometrica.tomsk.ru/biostat_9.htm
http://www.biometrica.tomsk.ru/biostat_10.htm

http://www.biometrica.tomsk.ru/biostat_11.htm
http://www.biometrica.tomsk.ru/nauka_33.htm

http://www.biometrica.tomsk.ru/potencial.htm
http://www.biometrica.tomsk.ru/nauka_19.htm
http://www.biometrica.tomsk.ru/logit_0.htm
http://www.biometrica.tomsk.ru/stat_cardio_1998.htm
http://www.biometrica.tomsk.ru/erevan_3.html
http://www.biometrica.tomsk.ru/student.htm
http://www.biometrica.tomsk.ru/stat_cardio1.htm
http://www.biometrica.tomsk.ru/error.htm
http://www.biometrica.tomsk.ru/leonov_vak.htm
http://www.biometrica.tomsk.ru/erevan_4.html
http://www.biometrica.tomsk.ru/student.htm
http://www.biometrica.tomsk.ru/stat_cardio1.htm
http://www.biometrica.tomsk.ru/biometrica_18.htm

Логистическая регрессия в медицине и биологии

В. Леонов

   Логистическая регрессия. Введение.
1. Логистическая регрессия. Основные понятия и возможности метода.
2. Логистическая регрессия. Анализ массивов большой размерности.
3. Логистическая регрессия. Примеры анализа реальных данных.
4. Логистическая регрессия и ROC-анализ.
5. Особенности логистической регрессии в акушерстве.
6. Особенности логистической регрессии в психиатрии, психологии и социологии.
7. Пример использования логистической регрессии для расчёта прогноза исхода оперативного лечения.
8. Логистическая регрессия - "вершина пирамиды". А в "фундаменте" - что?
9. Как повысить качество уравнений логистической регрессии.


В данной серии статей, на уровне доступном для начинающих, рассмотрены цели и направления метода логистической регрессии. В частности, приводятся пояснения, какие надёжные результаты этого метода могут быть использованы для поставленных целей медицинских и биологических исследований. На примерах реальных медицинских массивов данных, поясняется специфика использования данного метода. Объяснено, что метод имеет много алгоритмов оценки уравнений логистической регрессии, что позволяет назходить для использования во врачебной практике самые удобные и надёжные методы лечения. Рассмотрено использование метода к массивам данных, содержащим несколько сотен признаков разной природы. Показано, что корректное создание таких массивов, и их анализ, возможны лишь при участии биостатистиков на самых первых этапах таких исследований. Рассмотрена связь логистической регрессии и ROC-анализа. Приведены многочисленные уравнения логистической регрессии и ROC-кривые, полученные при анализе реальных данных. Объяснена целесообразность использования вместе с методом логистической регрессии набора методов анализа парных взаимосвязей между различными признаками, а также использование более сложных методов многомерной статистики.


 

Особенности логистической регрессия в акушерстве.

Пренебрегать возможностью
использовать научные данные
в общественной жизни
- это значит принижать
значение науки.
_________________
А. Франс

N.B.! Перед чтением данной статьи, настоятельно рекомендуем прочитать статью "Логистическая регрессия. Введение"


В этом, и следующем разделе нашей статьи, мы остановимся на специфике использования метода логистической регрессии в двух отдельных направлениях научных исследований. Поводом к написанию этих двух разделов послужила переписка с двумя исследователями. Один из них работает акушером, а второй - психиатром. На примере этих двух работ мы и рассмотрим некоторые специфичные детали использования метода логистической регрессии в данных отраслях медицины.

Исследователь Н.Г. собрал уникальную базу данных по роженицам, содержащую около 2000 наблюдений и порядка 70 признаков. Ниже приведена таблица, содержащая набор основных переменных, использованных в анализе.

PR3A  = 'Возрастная группа роженицы'
PR4A  = 'Возрастная подгруппа роженицы'
PR5A  = 'Национальность роженицы'
PR6     = 'Номер беременности'
PR7    = 'Номер родов'
PR8A  = 'Место проживания роженицы'
PR9A   = 'Обследование роженицы'
PR10A = 'Заболев. щит. железы'
PR11A = 'Заб. лор органов'
PR12A = 'Хр. тонзиллит'
PR13A = 'Хр. бронхит'
PR14A = 'Вегето-сосуд. дистония'
PR15A = 'Заб. жел-киш. тракта'
PR16A = 'Заб.почек'
PR17A = 'Хр. никотин. интоксикация'
PR18A = 'Узкий таз'
PR19A = 'Анемия'
PR20A = 'Гестоз'
PR21A = 'Преэклампсия'
PR22A = 'Отки'
PR23A = 'Преждевр. излитие вод'
PR24A = 'Длит. безводн. период'
PR25A = 'Амниотомия'
PR26A = 'Аномалия род. деятельности '
PR27A = 'Родостимуляция'
PR28A = 'Быстрые роды'
PR29A = 'Стремительные роды'
PR30A = 'Отслойка плаценты'
PR31A = 'Кесарево сечение'
PR32A = 'Экстрен. операт. роды'
PR33A = 'Маловодие'
PR34A = 'Многоводие'
PR35A = 'Эпизиотомия'

PR36A = 'Разрывы'
PR37A = 'Хорионамнионит '
PR38A = 'Кровотечение'
PR39A = 'Уреаплазма'
PR40A = 'Микоплазма'
PR41A = 'Хламидии'
PR42A = 'Кольпит'
PR43A = 'Гарднереллез'
PR44A = 'Трихомониаз'
PR45A = 'Кондиломы'
PR46A = 'Цитомегаловирус'
PR47A = 'Вирус простого герпеса'
PR48A = 'Сифилис'
PR49A = 'Эрозия'
PR50   = 'Вес ребёнка'
PR51   = 'Рост ребёнка'
PR52A = 'Пол ребёнка'
PR53   = 'Апгар на 1 минуте'
PR54   = 'Апгар на 5 минуте'
PR55A = 'Асфиксия'
PR56A = 'Маловесность'
PR57A = 'Задержка внутриутробного развития'
PR58A = 'Недоношенность'
PR59A = 'Желтуха'
PR60A = 'Врождённый порок развития'
PR61A = 'Синдром дыхательных расстройств'
PR62A = 'Морфофункциональная незрелость'
PR63A = 'Внутриутробное инфицирование'
PR64A = 'Перинатальное поражение ЦНС'
PR65A = 'Перевод на второй этап'
PR66A = 'Исход родов'
PR67    = 'Возраст роженицы'

Основной целью данного исследования было установление взаимосвязи здоровья детей раннего возраста от различных факторов, описываемых приведёнными выше переменными. Очевидно, что столь внушительная база данных требует соответственно и большого объёма анализа, с использованием самых разнообразных методов статистического анализа. Разумеется, если целью исследователя является полное извлечение всей полезной информации из этой базы данных. К сожалению, исследователь ограничился лишь самым минимальным набором задач исследования. Однако главный недостаток данного исследования заключался в ином. Именно об этом и пойдёт речь ниже.

Всякое научное исследование не ограничивается одной единственной целью. Как правило, это некий набор взаимосвязанных целей, реализуемый далее более подробным и детализированным набором задач. В частности, при использовании логистической регрессии, как одного из методов достижения поставленных целей исследования, автоматически возникает необходимость использования достаточно большого набора и иных методов статистического анализа. Это обусловлено тем, что интерпретация полученного набора уравнений логистической регрессии возможна лишь при условии изучения всего набора парных взаимосвязей признаков, задействованных в этих уравнениях. На рис. 2 в разделе "Логистическая регрессия. Анализ массивов большой размерности" мы проиллюстрировали наличие подобных парных взаимосвязей.

Рассматривая 2 группы признаков, качественных и количественных, получим 3 вида таких парных взаимосвязей: "Качественный" - "Качественный", "Качественный" - "Количественный" и "Количественный" - "Количественный". В первом случае для 60 качественных признаков имеем общее число парных взаимосвязей равное 60*(60-1)/2=30*59=1770. Отметим, что при изучении этих 1770 парных взаимосвязей с помощью анализа таблиц сопряжённости, важно получить не только ответ на вопрос "Если ли между двумя качественными признаками статистически значимая взаимосвязь?", но также и проанализировать детали таких статистически значимых связей. В частности, в нашей статье "Доказательная медицина и статистика" мы приводили пример анализа таблицы сопряжённости двух качественных признаков. Таблица включала в себя 12 клеток, из которых лишь в 2-х клетках и была сконцентрирована взаимосвязь двух анализируемых признаков.

Рассмотрим аналогичный пример из описанного выше массива данных для пары признаков PR5A = 'Национальность роженицы' и PR66A = 'Исход родов'. Первый признак включал в себя 5 градаций, второй - 2 градации: 1=ребёнок выжил, 2=ребёнок умер. Итого имеем частотную таблицу из 10 клеток. Анализ таблицы сопряжённости для данной пары признаков показал наличие статистически значимой связи, с величиной достигнутого уровня статистической значимости для критерия Пирсона Хи-квадрат p<0,0001. Детальный анализ таблицы сопряжённости, состоящей из 10 клеток, показал, что практически вся связь двух этих признаков была сконцентрирована в одной единственной клетке, отвечающей конкретному сочетанию национальности рожениц и исходу родов. Это говорит о том, что необходим дальнейший, более глубокий анализ этого факта. Аналогичная ситуация обнаружилась и для пары признаков PR5A = 'Национальность роженицы' и PR57A = 'Задержка внутриутробного развития' (2 градации: 1=Есть задержка, 2=Нет задержки). При достигнутом уровне значимости  для критерия Хи-квадрат p=0,0027, связь двух данных признаков была сконцентрирована в 3-х из 10 клеток таблицы.

 

Таким образом, если при оценке уравнения логистической регрессии в состав предикторов будет отобран конкретный набор качественных предикторов, то в этом случае необходимо исследовать все парные связи не только между зависимой переменной и этими признаками, но также и между всем парами качественных предикторов. Поскольку при пошаговом алгоритме отбора, каждый качественный признак, отобранный алгоритмом в состав предикторов, может "тянуть" за собой в список предикторов и другие качественные признаки, с которыми он имеет значимую взаимосвязь.

Аналогичная ситуация возникает и при рассмотрении набора количественных признаков. Предположим, что при оценке уравнения логистической регрессии в состав потенциальных предикторов входит 10 количествнных признаков. В этом случае необходимо проанализировать 10*(10-1)/2=5*9=45 корреляционных связей. И, наконец, если учитывать наличие взаимосвязей между каждым качественным и каждым количественных признаком, то в этом случае перемножая число качественных потенциальных предикторов на число количественных потенциальных предикторов, мы получим общее количество таких парных взаимосвязей. Например, для случая с 60 качественными потенциальными предикторами и 10 количественными потенциальными предикторами имеем 600 взаимосвязей между парами 'Качественный' - 'Количественный'. 

И в этом случае, как и в примере с анализом таблиц сопряжённости, статистически значимые взаимосвязи могут быть не "размазаны" равномерно по всем градациям качественных признаков, а сконцентрированы на 2-3-х градациях качественного признака. Итак, предположим что анализ имеющихся данных закончен, и результатом его является некоторый набор уравнений логистической регрессии. Ниже приведён график с ROC-кривой для одного из полученных уравнений, в которых в качестве зависимой переменной выступал качественный признак PR66A = 'Исход родов' с двумя градациями: 1=ребёнок выжил, 2=ребёнок умер. Как видим, показатель AUC = 0,9747 , что говорит о весьма высоком качестве полученной модели.

 

        Наряду с этим набором уравнений проведены исследования и всех необходимых парных взаимосвязей. Т.е. были установлены взаимосвязи здоровья детей раннего возраста от различных факторов. Возникает логичный вопрос, что можно, и нужно делать далее с этими уравнениями? С одной стороны, полученные уравнения представляют собой набор моделей, отражающих многомерные связи анализируемых признаков. С другой стороны, каждая модель, в зависимости от степени её полноты, точности и корректности, может быть использована и для реализации ряда практических возможностей. Например, одной из таких возможностей является использование уравнений для прогноза исхода, т.е. оценки вероятностей отдельных исходов. Такие оценки будут определяться конкретными сочетаниями значений предикторов, вошедших в то или иное уравнение. Однако, если изначально, до проведения анализа, не сформулировать необходимость использования этой возможности, то результаты анализа могут оказаться таковыми, что использовать их реально для практических прогнозов будет невозможно.

          Кроме того, для реализации этой возможности исследователь должен обладать умением составлять выражения для оценки требуемых вероятностей в пакете EXCEL, наиболее удобном для этих целей. При этом требуется умение использовать в них абсолютные ссылки на константы, которыми являются коэффициенты уравнения. Далее, уметь использовать функции умножения, сложения, деления, вычитания, а также использовать фунцию экспоненты и функцию копирования выражений. К сожалению, опыт взаимодействия с исследователями в области медицины и биологии показывает, что лишь немногие из них обладают такими навыками. В результате этого полученная ценная информация может оставаться реально не использованной. Т.е. владея такой информацией, но не владея навыками работы в пакете EXCEL, исследователь не сможет выбирать оптимальную тактику повышения вероятности благоприятного исхода для своего пациента.

      Не меньшая проблема возникает и в том случае, если исследователь, первоначально определяя набор потенциальных предикторов, не разделяет их на признаки, которыми в принципе он имеет возможность управлять на некотором периоде общения с пациентом, и на признаки, которые в принципе не могут быть управляемы им. Например, имеется набор признаков, описывающий состояние роженицы в 1-й, 2-й и 3-й триместры. А также набор признаков, которые характеризуют состояние роженицы ДО НАЧАЛА ТЕКУЩЕЙ БЕРЕМЕННОСТИ. Очевидно, что часть признаков 1-го и 2-го триместра врач ещё может попытаться скорректировать должным образом, чтобы тем самым повысить вероятность благоприятного исхода беременности. Однако он в принципе не может изменить те предикторы, которые характеризуют состояние роженицы ДО НАЧАЛА БЕРЕМЕННОСТИ. Аналогичным образом, если в уравнение связи для зависимого признака 'PR60A=Врождённый порок развития', вошел в качестве предиктора и признак 'PR61A=Синдром дыхательных расстройств', то значение такого предиктора изменить уже невозможно. Следовательно, составляя набор потенциальных предикторов, исследователю прежде всего необходимо самому себе ответить на вопрос о том, как он предполагает далее использовать полученные уравнения логистической регрессии.

       Другой аспект использования логистической регрессии в акушерстве, это использование дискретных, балльных шкал. Например, шкалы Апгар, предложенной в 1952 г. американским анестезиологом Вирджинией Апгар для быстрой оценки состояния новорожденного. Специфика использования таких балльных шкал более подробно будет рассмотрена в следущем разделе "Особенности логистической регрессии в психиатрии, психологии и социологии". 

      «Знать, чтобы предвидеть, предвидеть – чтобы управлять»  – эти слова французского философа и социолога Огюста Конта как нельзя лучше иллюстрируют возможность использования полученных уравнений логистической регрессии для УПРАВЛЕНИЯ ВЕРОЯТНОСТЯМИ благоприятных исходов. Однако такая процедура управления всегда сводится к воздействию на те или иные показатели, которые в результате этого могут изменяться в нужном направлении.

       Итак, если целью исследователя является не только получение многомерной модели, отражающей взаимосвязи результирующего качественного показателя, и массива качественных и количественных признаков, но также и дальнейшее практическое использование этой модели, то необходим правильный выбор совокупности потенциальных предикторов, а также умение вычислять интересующие вероятности с помощью этих моделей в пакете EXCEL.


Далее: 6. Особенности логистической регрессии при анализе данных в психиатрии и психологии.

 

 

Примеры оформления заказчиками базы данных, описания признаков и целей статистического анализа этой базы данных

Островок  здоровья

Пример 1   Пример 2   Пример 3


Отзывы исследователей по
статистическому анализу
данных


Сравниваем средние, а также и ... В. Леонов Исследователям в медицине и биологии весьма большую пользу приносит сравнение не только групповых средних, но также и иных параметров. Показано, что не нормальное распределение количественного признака, означает наличие взаимосвязей данного признака с другими признаками.


Проценты - статистический анализ? Или проценты - арифметический анализ? В. Леонов.


Примеры оформления базы данных, описания признаков и целей статистического анализа этой базы данных. Пример 1, Пример 2, Пример 3.


В ноябре 2013 года сайту БИОМЕТРИКА исполнилось 16 лет. А что было раньше? И что теперь?


Примеры отличных диссертаций и статей по медицине и биологии, с нашими результатами статистического анализа

В.В. Половинкин
ТОТАЛЬНАЯ МЕЗОРЕКТУМЭКТОМИЯ — ФАКТОР ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ЛЕЧЕНИЯ СРЕДНЕАМПУЛЯРНОГО И НИЖНЕАМПУЛЯРНОГО РАКА ПРЯМОЙ КИШКИ.

Н.Г. Веселовская
КЛИНИЧЕСКОЕ И ПРОГНОСТИЧЕСКОЕ ЗНАЧЕНИЕ ЭПИКАРДИАЛЬНОГО ОЖИРЕНИЯ У ПАЦИЕНТОВ ВЫСОКОГО СЕРДЕЧНО-СОСУДИСТОГО РИСКА.

О.Я. Васильцева ЗАКОНОМЕРНОСТИ ВОЗНИКНОВЕНИЯ, КЛИНИЧЕСКОГО ТЕЧЕНИЯ И ИСХОДОВ ТРОМБОЭМБОЛИИ ЛЕГОЧНОЙ АРТЕРИИ ПО ДАННЫМ ГОСПИТАЛЬНОГО РЕГИСТРА ПАТОЛОГИИ.

В.А. Габышев 
ФИТОПЛАНКТОН КРУПНЫХ РЕК ЯКУТИИ И СОПРЕДЕЛЬНЫХ ТЕРРИТОРИЙ ВОСТОЧНОЙ СИБИРИ.
М.И. Антоненко
 
ГИПЕРКОРТИЦИЗМ БЕЗ СПЕЦИФИЧЕСКИХ КЛИНИЧЕСКИХ СИМПТОМОВ: ЭПИДЕМИОЛОГИЯ, КЛИНИКА, ДИАГНОСТИКА.

Г.А. Попова СРАВНИТЕЛЬНОЕ ИЗУЧЕНИЕ ПОДВИДОВ LINUM USITATISSIMUM L . В УСЛОВИЯХ ЗАПАДНОЙ СИБИРИ.

А.Г. Сыркина Ретроспективный анализ эффективности и безопасности тромболитической терапии острого инфаркта миокарда у больных пожилого и старческого возраста

В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года).

Фоторепортаж с семинара по биометрике в Ереване, прошедшего после конференции по доказательной медицине (24 - 26 сентября 2015 года).

Отзывы слушателей семинара по биометрике в Ереване в сентябре 2015 г.


Новые полезные книги...

(Заказать книгу можно через издательство)

Ланг Т., Сесик М. Как описывать статистику в медицине. Руководство для авторов, редакторов и рецензентов. Пер. с англ. В.П. Леонова. 2016 - 480 с.

Петри А., Сэбин К. Наглядная медицинская статистика. Учебное пособие. 3-е издание. Пер. с англ. В.П. Леонова. 2015. - 216 с.

Банержи А. Медицинская статистика понятным языком: вводный курс. Издательство "Практическая медицина", 2014. - 287 с. Пер. с англ. В.П. Леонова.

Т. Гринхальх. Основы доказательной медицины. Издательство "ГЭОТАР-Медиа", 2015. - 336 с. 4-е издание переработанное и дополненное. Пер. с англ. Под ред. И.Н. Денисова, К.И. Сайткулова, В.П. Леонова.


В новый век - с доказательной биомедициной
Газета ПОИСК, № 20 (522) 21 мая 1999 г.


1997 - 2019.© Василий Леонов. E-mail:

Доказательная или сомнительная? Медицинская наука Кузбасса: статистические аспекты.

Отклики читателей статьи "Доказательная или сомнительная?"

Возврат на главную страницу.

Возврат в КУНСТКАМЕРУ

Т. Кун "Структура научных революций"