Яндекс.Метрика

Логистическая регрессия в медицине

Каждый слышит то, что понимает. Гете

Статистика посещаемости БИОМЕТРИКИ


16.05.2011 г. на сайт пришло 2561 человек, открывших 3205 страниц
14.11.2011 г. на сайт пришло 2106 человек, открывших 3250 страниц
14.12.2011 г. на сайт пришло 2640 человек, открывших 3452 страниц
17.01.2012 г. на сайт пришло 2439 человек, открывших 3097 страниц
03.03.2012 г. на сайт пришло 2219 человек, открывших 3019 страниц
30.05.2012 г. на сайт пришло 3512 человек, открывших 4706 страниц
06.03.2014 г. на сайт пришло 2556 человек, открывших 3179 страниц
08.02.2015 г. на сайт пришло 2341 человек, открывших 2682 страницы
Если приходят, значит полезное находят.
.  
Наш 
адрес:  
Выбрав любое изображение, кликните по нему мышкой, и Вы узнаете о статистике ...

На файле "Поиски методов или результатов статистического анализа" сообщается, что сейчас на сайте БИОМЕТРИКА размещено 4162 htm-файлов, 651 pdf-файлов, 152 djvu-файлов, и т.д. И там же приводятся описания групп конкретных файлов. В частности по методам статистического анализа, их отличным результатам, отзывам авторов, книгам этих методов, статистике посещаемости сайта БИОМЕТРИКА, и т.д. Далее приведено подробное пояснение поиска нужных файлов системой Google, которая там же и помещена. А после системы Google размещены популярные 341 htm-адресов и 79 адресов pdf-адресов. Итак, для оперативного выбора конкретного нужного файла на данном сайте БИОМЕТРИКА, рекомендую перейти на файл "Поиски методов или результатов статистического анализа".

 

Логистическая регрессия в медицине и биологии

В. Леонов

 

    Логистическая регрессия. Введение.
1. Логистическая регрессия. Основные понятия и возможности метода.
2. Логистическая регрессия. Анализ массивов большой размерности.
3. Логистическая регрессия. Примеры анализа реальных данных.
4. Логистическая регрессия и ROC-анализ.
5. Особенности логистической регрессии в акушерстве.
6. Особенности логистической регрессии в психиатрии, психологии и социологии.
7. Пример использования логистической регрессии для расчёта прогноза исхода оперативного лечения.
8. Логистическая регрессия - "вершина пирамиды". А в "фундаменте" - что?
9. Как повысить качество уравнений логистической регрессии.


В данной серии статей, на уровне доступном для начинающих, рассмотрены цели и направления метода логистической регрессии. В частности, приводятся пояснения, какие надёжные результаты этого метода могут быть использованы для поставленных целей медицинских и биологических исследований. На примерах реальных медицинских массивов данных, поясняется специфика использования данного метода. Объяснено, что метод имеет много алгоритмов оценки уравнений логистической регрессии, что позволяет назходить для использования во врачебной практике самые удобные и надёжные методы лечения. Рассмотрено использование метода к массивам данных, содержащим несколько сотен признаков разной природы. Показано, что корректное создание таких массивов, и их анализ, возможны лишь при участии биостатистиков на самых первых этапах таких исследований. Рассмотрена связь логистической регрессии и ROC-анализа. Приведены многочисленные уравнения логистической регрессии и ROC-кривые, полученные при анализе реальных данных. Объяснена целесообразность использования вместе с методом логистической регрессии набора методов анализа парных взаимосвязей между различными признаками, а также использование более сложных методов многомерной статистики.


 

Особенности логистической регрессия в акушерстве.

Пренебрегать возможностью
использовать научные данные
в общественной жизни
- это значит принижать
значение науки.
_________________
А. Франс

 

N.B.! Перед чтением данной статьи, настоятельно рекомендуем прочитать статью "Логистическая регрессия. Введение"


В этом, и следующем разделе нашей статьи, мы остановимся на специфике использования метода логистической регрессии в двух отдельных направлениях научных исследований. Поводом к написанию этих двух разделов послужила переписка с двумя исследователями. Один из них работает акушером, а второй - психиатром. На примере этих двух работ мы и рассмотрим некоторые специфичные детали использования метода логистической регрессии в данных отраслях медицины.

Исследователь Н.Г. собрал уникальную базу данных по роженицам, содержащую около 2000 наблюдений и порядка 70 признаков. Ниже приведена таблица, содержащая набор основных переменных, использованных в анализе.

 

PR3A  = 'Возрастная группа роженицы'
PR4A  = 'Возрастная подгруппа роженицы'
PR5A  = 'Национальность роженицы'
PR6     = 'Номер беременности'
PR7    = 'Номер родов'
PR8A  = 'Место проживания роженицы'
PR9A   = 'Обследование роженицы'
PR10A = 'Заболев. щит. железы'
PR11A = 'Заб. лор органов'
PR12A = 'Хр. тонзиллит'
PR13A = 'Хр. бронхит'
PR14A = 'Вегето-сосуд. дистония'
PR15A = 'Заб. жел-киш. тракта'
PR16A = 'Заб.почек'
PR17A = 'Хр. никотин. интоксикация'
PR18A = 'Узкий таз'
PR19A = 'Анемия'
PR20A = 'Гестоз'
PR21A = 'Преэклампсия'
PR22A = 'Отки'
PR23A = 'Преждевр. излитие вод'
PR24A = 'Длит. безводн. период'
PR25A = 'Амниотомия'
PR26A = 'Аномалия род. деятельности '
PR27A = 'Родостимуляция'
PR28A = 'Быстрые роды'
PR29A = 'Стремительные роды'
PR30A = 'Отслойка плаценты'
PR31A = 'Кесарево сечение'
PR32A = 'Экстрен. операт. роды'
PR33A = 'Маловодие'
PR34A = 'Многоводие'
PR35A = 'Эпизиотомия'

PR36A = 'Разрывы'
PR37A = 'Хорионамнионит '
PR38A = 'Кровотечение'
PR39A = 'Уреаплазма'
PR40A = 'Микоплазма'
PR41A = 'Хламидии'
PR42A = 'Кольпит'
PR43A = 'Гарднереллез'
PR44A = 'Трихомониаз'
PR45A = 'Кондиломы'
PR46A = 'Цитомегаловирус'
PR47A = 'Вирус простого герпеса'
PR48A = 'Сифилис'
PR49A = 'Эрозия'
PR50   = 'Вес ребёнка'
PR51   = 'Рост ребёнка'
PR52A = 'Пол ребёнка'
PR53   = 'Апгар на 1 минуте'
PR54   = 'Апгар на 5 минуте'
PR55A = 'Асфиксия'
PR56A = 'Маловесность'
PR57A = 'Задержка внутриутробного развития'
PR58A = 'Недоношенность'
PR59A = 'Желтуха'
PR60A = 'Врождённый порок развития'
PR61A = 'Синдром дыхательных расстройств'
PR62A = 'Морфофункциональная незрелость'
PR63A = 'Внутриутробное инфицирование'
PR64A = 'Перинатальное поражение ЦНС'
PR65A = 'Перевод на второй этап'
PR66A = 'Исход родов'
PR67    = 'Возраст роженицы'

 

 

Основной целью данного исследования было установление взаимосвязи здоровья детей раннего возраста от различных факторов, описываемых приведёнными выше переменными. Очевидно, что столь внушительная база данных требует соответственно и большого объёма анализа, с использованием самых разнообразных методов статистического анализа. Разумеется, если целью исследователя является полное извлечение всей полезной информации из этой базы данных. К сожалению, исследователь ограничился лишь самым минимальным набором задач исследования. Однако главный недостаток данного исследования заключался в ином. Именно об этом и пойдёт речь ниже.

Всякое научное исследование не ограничивается одной единственной целью. Как правило, это некий набор взаимосвязанных целей, реализуемый далее более подробным и детализированным набором задач. В частности, при использовании логистической регрессии, как одного из методов достижения поставленных целей исследования, автоматически возникает необходимость использования достаточно большого набора и иных методов статистического анализа. Это обусловлено тем, что интерпретация полученного набора уравнений логистической регрессии возможна лишь при условии изучения всего набора парных взаимосвязей признаков, задействованных в этих уравнениях. На рис. 2 в разделе "Логистическая регрессия. Анализ массивов большой размерности" мы проиллюстрировали наличие подобных парных взаимосвязей.

Рассматривая 2 группы признаков, качественных и количественных, получим 3 вида таких парных взаимосвязей: "Качественный" - "Качественный", "Качественный" - "Количественный" и "Количественный" - "Количественный". В первом случае для 60 качественных признаков имеем общее число парных взаимосвязей равное 60*(60-1)/2=30*59=1770. Отметим, что при изучении этих 1770 парных взаимосвязей с помощью анализа таблиц сопряжённости, важно получить не только ответ на вопрос "Если ли между двумя качественными признаками статистически значимая взаимосвязь?", но также и проанализировать детали таких статистически значимых связей. В частности, в нашей статье "Доказательная медицина и статистика" мы приводили пример анализа таблицы сопряжённости двух качественных признаков. Таблица включала в себя 12 клеток, из которых лишь в 2-х клетках и была сконцентрирована взаимосвязь двух анализируемых признаков.

Рассмотрим аналогичный пример из описанного выше массива данных для пары признаков PR5A = 'Национальность роженицы' и PR66A = 'Исход родов'. Первый признак включал в себя 5 градаций, второй - 2 градации: 1=ребёнок выжил, 2=ребёнок умер. Итого имеем частотную таблицу из 10 клеток. Анализ таблицы сопряжённости для данной пары признаков показал наличие статистически значимой связи, с величиной достигнутого уровня статистической значимости для критерия Пирсона Хи-квадрат p<0,0001. Детальный анализ таблицы сопряжённости, состоящей из 10 клеток, показал, что практически вся связь двух этих признаков была сконцентрирована в одной единственной клетке, отвечающей конкретному сочетанию национальности рожениц и исходу родов. Это говорит о том, что необходим дальнейший, более глубокий анализ этого факта. Аналогичная ситуация обнаружилась и для пары признаков PR5A = 'Национальность роженицы' и PR57A = 'Задержка внутриутробного развития' (2 градации: 1=Есть задержка, 2=Нет задержки). При достигнутом уровне значимости  для критерия Хи-квадрат p=0,0027, связь двух данных признаков была сконцентрирована в 3-х из 10 клеток таблицы.

 

Таким образом, если при оценке уравнения логистической регрессии в состав предикторов будет отобран конкретный набор качественных предикторов, то в этом случае необходимо исследовать все парные связи не только между зависимой переменной и этими признаками, но также и между всем парами качественных предикторов. Поскольку при пошаговом алгоритме отбора, каждый качественный признак, отобранный алгоритмом в состав предикторов, может "тянуть" за собой в список предикторов и другие качественные признаки, с которыми он имеет значимую взаимосвязь.

Аналогичная ситуация возникает и при рассмотрении набора количественных признаков. Предположим, что при оценке уравнения логистической регрессии в состав потенциальных предикторов входит 10 количествнных признаков. В этом случае необходимо проанализировать 10*(10-1)/2=5*9=45 корреляционных связей. И, наконец, если учитывать наличие взаимосвязей между каждым качественным и каждым количественных признаком, то в этом случае перемножая число качественных потенциальных предикторов на число количественных потенциальных предикторов, мы получим общее количество таких парных взаимосвязей. Например, для случая с 60 качественными потенциальными предикторами и 10 количественными потенциальными предикторами имеем 600 взаимосвязей между парами 'Качественный' - 'Количественный'. 

И в этом случае, как и в примере с анализом таблиц сопряжённости, статистически значимые взаимосвязи могут быть не "размазаны" равномерно по всем градациям качественных признаков, а сконцентрированы на 2-3-х градациях качественного признака. Итак, предположим что анализ имеющихся данных закончен, и результатом его является некоторый набор уравнений логистической регрессии. Ниже приведён график с ROC-кривой для одного из полученных уравнений, в которых в качестве зависимой переменной выступал качественный признак PR66A = 'Исход родов' с двумя градациями: 1=ребёнок выжил, 2=ребёнок умер. Как видим, показатель AUC = 0,9747 , что говорит о весьма высоком качестве полученной модели.

 

 

        Наряду с этим набором уравнений проведены исследования и всех необходимых парных взаимосвязей. Т.е. были установлены взаимосвязи здоровья детей раннего возраста от различных факторов. Возникает логичный вопрос, что можно, и нужно делать далее с этими уравнениями? С одной стороны, полученные уравнения представляют собой набор моделей, отражающих многомерные связи анализируемых признаков. С другой стороны, каждая модель, в зависимости от степени её полноты, точности и корректности, может быть использована и для реализации ряда практических возможностей. Например, одной из таких возможностей является использование уравнений для прогноза исхода, т.е. оценки вероятностей отдельных исходов. Такие оценки будут определяться конкретными сочетаниями значений предикторов, вошедших в то или иное уравнение. Однако, если изначально, до проведения анализа, не сформулировать необходимость использования этой возможности, то результаты анализа могут оказаться таковыми, что использовать их реально для практических прогнозов будет невозможно.

          Кроме того, для реализации этой возможности исследователь должен обладать умением составлять выражения для оценки требуемых вероятностей в пакете EXCEL, наиболее удобном для этих целей. При этом требуется умение использовать в них абсолютные ссылки на константы, которыми являются коэффициенты уравнения. Далее, уметь использовать функции умножения, сложения, деления, вычитания, а также использовать фунцию экспоненты и функцию копирования выражений. К сожалению, опыт взаимодействия с исследователями в области медицины и биологии показывает, что лишь немногие из них обладают такими навыками. В результате этого полученная ценная информация может оставаться реально не использованной. Т.е. владея такой информацией, но не владея навыками работы в пакете EXCEL, исследователь не сможет выбирать оптимальную тактику повышения вероятности благоприятного исхода для своего пациента.

      Не меньшая проблема возникает и в том случае, если исследователь, первоначально определяя набор потенциальных предикторов, не разделяет их на признаки, которыми в принципе он имеет возможность управлять на некотором периоде общения с пациентом, и на признаки, которые в принципе не могут быть управляемы им. Например, имеется набор признаков, описывающий состояние роженицы в 1-й, 2-й и 3-й триместры. А также набор признаков, которые характеризуют состояние роженицы ДО НАЧАЛА ТЕКУЩЕЙ БЕРЕМЕННОСТИ. Очевидно, что часть признаков 1-го и 2-го триместра врач ещё может попытаться скорректировать должным образом, чтобы тем самым повысить вероятность благоприятного исхода беременности. Однако он в принципе не может изменить те предикторы, которые характеризуют состояние роженицы ДО НАЧАЛА БЕРЕМЕННОСТИ. Аналогичным образом, если в уравнение связи для зависимого признака 'PR60A=Врождённый порок развития', вошел в качестве предиктора и признак 'PR61A=Синдром дыхательных расстройств', то значение такого предиктора изменить уже невозможно. Следовательно, составляя набор потенциальных предикторов, исследователю прежде всего необходимо самому себе ответить на вопрос о том, как он предполагает далее использовать полученные уравнения логистической регрессии.

       Другой аспект использования логистической регрессии в акушерстве, это использование дискретных, балльных шкал. Например, шкалы Апгар, предложенной в 1952 г. американским анестезиологом Вирджинией Апгар для быстрой оценки состояния новорожденного. Специфика использования таких балльных шкал более подробно будет рассмотрена в следущем разделе "Особенности логистической регрессии в психиатрии, психологии и социологии". 

      «Знать, чтобы предвидеть, предвидеть – чтобы управлять»  – эти слова французского философа и социолога Огюста Конта как нельзя лучше иллюстрируют возможность использования полученных уравнений логистической регрессии для УПРАВЛЕНИЯ ВЕРОЯТНОСТЯМИ благоприятных исходов. Однако такая процедура управления всегда сводится к воздействию на те или иные показатели, которые в результате этого могут изменяться в нужном направлении.

       Итак, если целью исследователя является не только получение многомерной модели, отражающей взаимосвязи результирующего качественного показателя, и массива качественных и количественных признаков, но также и дальнейшее практическое использование этой модели, то необходим правильный выбор совокупности потенциальных предикторов, а также умение вычислять интересующие вероятности с помощью этих моделей в пакете EXCEL.


 

Далее: 6. Особенности логистической регрессии при анализе данных в психиатрии и психологии.

 



Примеры оформления заказчиками базы данных, описания признаков и целей статистического анализа этой базы данных

Островок  здоровья

Пример 1   Пример 2  
Пример 3


Пример "ПРОГРАММА РАБОТ по статистическому анализу" базы данных Исследователя. Леонов В.П. ... При этом содержание подобных "ПРОГРАММ..." определяются приводимыми 5-ю деталями. ...  В данном примере "ПРОГРАММЫ..." приводится 22 БЛОКА по конкретным методам анализа и графикам.


Отзывы исследователей по
статистическому анализу
данных


Сравниваем средние, а также и ... В. Леонов. Исследователям в медицине и биологии весьма большую пользу приносит сравнение не только групповых средних, но также и иных параметров. Показано, что не нормальное распределение количественного признака, означает наличие взаимосвязей данного признака с другими признаками.

Проценты - статистический анализ? Или проценты - арифметический анализ? В. Леонов.


Леонов В.П. Ошибки статистического анализа биомедицинских данных. Международный журнал  медицинской практики, 2007, вып. 2, стр.19-35.


В ноябре 2013 года сайту БИОМЕТРИКА исполнилось 16 лет. А что было раньше? И что теперь?


История биометрики

Применение статистики в статьях и диссертациях по медицине и биологии. Часть I. Описание методов статистического анализа в статьях и диссертациях. Международный журнал медицинской практики, 1998 г., вып. 4. В.П. Леонов, П.В. Ижевский

ПРИМЕНЕНИЕ СТАТИСТИКИ В СТАТЬЯХ И ДИССЕРТАЦИЯХ ПО МЕДИЦИНЕ И БИОЛОГИИ.   ЧАСТЬ 2. ИСТОРИЯ БИОМЕТРИКИ И ЕЁ ПРИМЕНЕНИЯ В РОССИИ. Леонов В.П.

ПРИМЕНЕНИЕ СТАТИСТИКИ В СТАТЬЯХ И ДИССЕРТАЦИЯХ ПО МЕДИЦИНЕ И БИОЛОГИИ.  ЧАСТЬ III. ПРОБЛЕМЫ ВЗАИМОДЕЙСТВИЯ  "АВТОР - РЕДАКЦИЯ - ЧИТАТЕЛЬ". Леонов В.П.

Применение статистики в статьях и диссертациях по медицине и биологии. Часть IV. Наукометрия статистической парадигмы экспериментальной биомедицины.     Международный журнал медицинской практики, 2002 г. вып. 3. Леонов В.

СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ  ДЛЯ МЕДИКОВ И БИОЛОГОВ.  (время и опыт). Леонов В.П.


ОБ ИСПОЛЬЗОВАНИИ ПРИКЛАДНОЙ СТАТИСТИКИ ПРИ ПОДГОТОВКЕ ДИССЕРТАЦИОННЫХ РАБОТ ПО МЕДИЦИНСКИМ И БИОЛОГИЧЕСКИМ СПЕЦИАЛЬНОСТЯМ. Бюллетень ВАК N5 1997 г. В.П.Леонов, П.В.Ижевский.

Леонов В.П. Ошибки статистического анализа биомедицинских данных. Доклад на научно-практическая конференция "Роль эпидемиологических и клинических исследований в здравоохранении: планирование, организация, внедрение результатов в практику". Якутск, (12-13 ноября 2009).

В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года).


Новые полезные книги...

(Заказать книгу можно через издательство)

Ланг Т., Сесик М. Как описывать статистику в медицине. Руководство для авторов, редакторов и рецензентов. Пер. с англ. В.П. Леонова. 2016 - 480 с.


На файле "Поиски методов или результатов статистического анализа" сообщается, что сейчас на сайте БИОМЕТРИКА размещено 4162 htm-файлов, 651 pdf-файлов, 152 djvu-файлов, и т.д. И там же приводятся описания групп конкретных файлов. В частности по методам статистического анализа, их отличным результатам, отзывам авторов, книгам этих методов, статистике посещаемости сайта БИОМЕТРИКА, и т.д. Далее приведено подробное пояснение поиска нужных файлов системой Google, которая там же и помещена. А после системы Google размещены популярные 341 htm-адресов и 79 адресов pdf-адресов. Итак, для оперативного выбора конкретного нужного файла на данном сайте БИОМЕТРИКА, рекомендую перейти на файл "Поиски методов или результатов статистического анализа".


Петри А., Сэбин К. Наглядная медицинская статистика. Учебное пособие. 3-е издание. Пер. с англ. В.П. Леонова. 2015. - 216 с.

Банержи А. Медицинская статистика понятным языком: вводный курс. Издательство "Практическая медицина", 2014. - 287 с. Пер. с англ. В.П. Леонова.


В новый век - с доказательной биомедициной
Газета ПОИСК, № 20 (522) 21 мая 1999 г.


Пример "ПРОГРАММА РАБОТ по статистическому анализу" базы данных Исследователя. Леонов В.П. ... При этом содержание подобных "ПРОГРАММ..." определяются приводимыми 5-ю деталями. ...  В данном примере "ПРОГРАММЫ..." приводится 22 БЛОКА по конкретным методам анализа и графикам.

На файле "Поиски методов или результатов статистического анализа" сообщается, что сейчас на сайте БИОМЕТРИКА размещено 4162 htm-файлов, 651 pdf-файлов, 152 djvu-файлов, и т.д. И там же приводятся описания групп конкретных файлов. В частности по методам статистического анализа, их отличным результатам, отзывам авторов, книгам этих методов, статистике посещаемости сайта БИОМЕТРИКА, и т.д. Далее приведено подробное пояснение поиска нужных файлов системой Google, которая там же и помещена. А после системы Google размещены популярные 341 htm-адресов и 79 адресов pdf-адресов. Итак, для оперативного выбора конкретного нужного файла на данном сайте БИОМЕТРИКА, рекомендую перейти на файл "Поиски методов или результатов статистического анализа".

 


Наш адрес       Сайт БИОМЕТРИКА создан в 1997 г. © Василий Леонов

Пример "ПРОГРАММА РАБОТ по статистическому анализу" базы данных Исследователя

Зачем нужна статистика в доказательной медицине? 

Доклад "Почему и как надо учить медиков статистике?" В. Леонов.