Яндекс.Метрика

Логистическая регрессия в медицине

Каждый слышит то, что понимает. Гете


"Люди перестают мыслить,
когда перестают читать
". Д. Дидро

Статистика посещаемости БИОМЕТРИКИ Яндекс
цитирования
Индекс цитирования

Наш адрес:

Выбрав любое изображение, кликните по нему мышкой, и Вы узнаете о статистике ...


Редактор БИОМЕТРИКИ
В. Леонов

  • 385
data-counter data-url="http://www.biometrica.tomsk.ru/">
Яндекс
цитирования
Яндекс цитирования
 

16.05.2011 г. на сайт пришло 2561 человек, открывших 3205 страниц
14.11.2011 г. на сайт пришло 2106 человек, открывших 3250 страниц
14.12.2011 г. на сайт пришло 2640 человек, открывших 3452 страницы
17.01.2012 г. на сайт пришло 2439 человек, открывших 3097 страниц
03.03.2012 г. на сайт пришло 2219 человек, открывших 3019 страниц
30.05.2012 г. на сайт пришло 3512 человек, открывших 4706 страниц
06.03.2014 г. на сайт пришло 2556 человек, открывших 3179 страниц
08.02.2015 г. на сайт пришло 2341 человек, открывших 2682 страницы

Если приходят, значит полезное находят...


Введение
Наши возможности. О возможностях статистического анализа
Леонов В.П. Ошибки статистического анализа биомедицинских данных. Международный журнал  медицинской практики, 2007, вып. 2, стр.19-35
Список научных и учебных изданий по биометрике и статистике
Материалы по науковедению
История биометрики
Статистическое рецензирование статей и диссертаций

Долгое прощание с лысенковщиной...
Семинар по биометрике в Красноярске



Если Вы сторонник использования
статистики, разместите на своём сайте
HTML-код нашего баннера:

BIOMETRICA - журнал для сторонников доказательной биологии и медицины
25 наиболее популярных ссылок, посещаемых нашими читателями
http://www.biometrica.tomsk.ru/comp_aver.htm
http://www.biometrica.tomsk.ru/erevan_8.html
http://www.biometrica.tomsk.ru/student.htm
http://www.biometrica.tomsk.ru/UNESCO%202010.pdf
http://www.biometrica.tomsk.ru/zakaz.htm
http://www.biometrica.tomsk.ru/zakaz_28.htm
http://www.biometrica.tomsk.ru/kk.htm
http://www.biometrica.tomsk.ru/erevan_3.html
http://www.biometrica.tomsk.ru/stat_cardio1.htm
http://www.biometrica.tomsk.ru/error.htm
http://www.biometrica.tomsk.ru/STAT_CARDIO_2014.pdf
http://www.biometrica.tomsk.ru/logit_9.htm
http://www.biometrica.tomsk.ru/stat_cardio7.htm

http://www.biometrica.tomsk.ru/potencial.htm
http://www.biometrica.tomsk.ru/percent_00.htm
http://www.biometrica.tomsk.ru/lis.htm
http://www.biometrica.tomsk.ru/kamchat.htm
http://www.biometrica.tomsk.ru/biometrica_15.htm
http://www.biometrica.tomsk.ru/zakaz_15.htm
http://www.biometrica.tomsk.ru/ftp/dict/cult/gramm.htm
http://www.biometrica.tomsk.ru/biometrica_15.htm
http://www.biometrica.tomsk.ru/stat_cardio5.htm
http://www.biometrica.tomsk.ru/krasnojarsk.htm http://www.biometrica.tomsk.ru/erevan_3.html
http://www.biometrica.tomsk.ru/logit_6.htm

БИОМЕТРИКА + Музыка. В. Леонов.

Музыка... Вот что сказал о ней великий Иоганн Себастьян Бах: "Цель музыки - трогать сердца". В детстве автор этих строк получил музыкальное образование. Любимыми инструментами были мандолина и гитара. Любимыми композиторами - Вивальди, Бах, Альбиони, Боккерини, Беллини, Корелли, Скарлатти. В 80-е годы прошлого столетия в Томск часто приезжал с концертами маэстро Владимир Спиваков. Эти концерты организовывал Егор Лигачёв, бывший в ту пору первым секретарём Томского обкома КПСС. На свой первый концерт в Томск Владимир Спиваков приехал один. Великолепно играл на скрипке! Концертный зал был переполнен слушателями, которые были в восторге от его концерта. Именно тогда мне удалось впервые встретиться с ним, и взять у него автографы на его грампластинки. В дальнейшем посещал все его концерты. В 1979 г. В. Спиваков организовал камерный оркестр "Виртуозы Москвы". Однажды в 90-е годы Владимир Спиваков должен был приехать в Томск с "Виртуозами Москвы", и в течение трёх дней дать 3 концерта. Однако из-за проблем с топливом в те времена, их самолёт посадили в Омске, где они пробыли 2 дня. И когда прилетели в Томск, то в один день провели все 3 концерта, которые я прослушал. И вновь взял автографы на новые грампластинки, и сделал много фотографий В. Спивакова.


Музыка...  Она помогает всегда. Вот почему я рассылаю почти всем своим корреспондентам файлы с хорошей музыкой. Любите музыку, слушайте её чаще. И она поможет лучше понимать бистатистику и результаты статистического анализа...

13 февраля 2014 г. Владимир Спиваков и "Виртуозы Москвы" дали концерт в Краснодаре. Я посетил этот прекрасный концерт, и вновь встретился с Владимиром Теодоровичем. Подарил ему его грампластики, фотографии, и свою книгу.

НАУКОМЕТРИКА СТАТИСТИЧЕСКОЙ ПАРАДИГМЫ ЭКСПЕРИМЕНТАЛЬНОЙ БИОМЕДИЦИНЫ   (ПО МАТЕРИАЛАМ ПУБЛИКАЦИЙ). В.П.Леонов. Самая читаемая наша статья после отправки в мае м-це 2017 г. более 300 писем авторам статей мед. журналов о наличии в них примитивных и ошибочных методов статистического анализа, и получаемых при этом результатах...

Логистическая регрессия в медицине и биологии

В. Леонов

   Логистическая регрессия. Введение.
1. Логистическая регрессия. Основные понятия и возможности метода.
2. Логистическая регрессия. Анализ массивов большой размерности.
3. Логистическая регрессия. Примеры анализа реальных данных.
4. Логистическая регрессия и ROC-анализ.
5. Особенности логистической регрессии в акушерстве.
6. Особенности логистической регрессии в психиатрии, психологии и социологии.
7. Пример использования логистической регрессии для расчёта прогноза исхода оперативного лечения.
8. Логистическая регрессия - "вершина пирамиды". А в "фундаменте" - что?
9. Как повысить качество уравнений логистической регрессии.


В данной серии статей, на уровне доступном для начинающих, рассмотрены цели и направления метода логистической регрессии. В частности, приводятся пояснения, какие надёжные результаты этого метода могут быть использованы для поставленных целей медицинских и биологических исследований. На примерах реальных медицинских массивов данных, поясняется специфика использования данного метода. Объяснено, что метод имеет много алгоритмов оценки уравнений логистической регрессии, что позволяет назходить для использования во врачебной практике самые удобные и надёжные методы лечения. Рассмотрено использование метода к массивам данных, содержащим несколько сотен признаков разной природы. Показано, что корректное создание таких массивов, и их анализ, возможны лишь при участии биостатистиков на самых первых этапах таких исследований. Рассмотрена связь логистической регрессии и ROC-анализа. Приведены многочисленные уравнения логистической регрессии и ROC-кривые, полученные при анализе реальных данных. Объяснена целесообразность использования вместе с методом логистической регрессии набора методов анализа парных взаимосвязей между различными признаками, а также использование более сложных методов многомерной статистики.


Логистическая регрессия.
Введение.

 

Приложение статистики для определения
диагностической важности симптомов
и достоинства операций, можно рассматривать
как важное приобретение новейшей хирургии.
_____________________
Н. И. Пирогов.

  

   Эта вводная статья, с доступным описанием возможностей логистической регрессии, написана через пару лет после создания серии из 9 статей по этому методу. Данные статьи являются самыми посещаемыми читателями сайта БИОМЕТРИКА. При этом по ним приходит немало вопросов как от читателей этой серии статей, так и от многих заказчиков, которые получают результаты логистической регрессии при анализе их массивов данных. Именно поэтому было решено написать ещё одну вводную статью об этом методе, в которой без описания основ его теории, рассказать об основных возможностях логит-регрессии в медицинских исследованиях.

   Метод логистической регрессии всё активнее вводится в практику мировой медицинской науки, являясь примерами продуктивных исследований в доказательной медицине. Это объясняется наличием следующих основных возможностей данного метода:

1. Определение для конкретного дискретного, группирующего (зависимого) признака Y, набора признаков-предикторов X, объясняющих наборами своих значений вероятности отнесения конкретного k-того наблюдения к группе сравнения.

2. Ранжирование, упорядочение отобранных признаков-предикторов Xпо степени своего воздействия на зависимый признак Y.

3. Оценка надёжности объяснения принадлежности наблюдений (пациентов) к конкретной градации (группе) зависимого признака Y, с помощью определённой комбинации отобранных признаков-предикторов X.

4. Возможность оценки не одного, а многих уравнений логит-регрессии, путём использования различных алгоритмов оценки этих уравнений. Благодаря чему из этого набора можно выбрать самые полезные и продуктивные уравнения.

5. Выбор различных наборов потенциальных предикторов, по которым используемые алгоритмы оценивают разные уравнения логистической регрессии. При этом может изменяться и объём анализируемых наблюдений, по которым оцениваются структуры уравнений. В итоге это приводит к получению различающихся уравнений.

 В настоящее время логистическая регрессия является одним из самых продуктивных методов доказательной медицины. А поскольку основным показателем, оцениваемым с помощью этого метода, является вероятность отнесения конкретного пациента к одной из сравниваемых групп, то приведём фрагменты из книги "Основы доказательной медицины", автором которой является Т. Гринхальх. С момента первого издания в 1996 г., эта книга переведена на восемь языков (испанский, итальянский, китайский, немецкий, русский, французский, чешский, японский) и напечатана огромными тиражами. Данное руководство завоевало признание большинства медиков-исследователей во многих странах. В книге 17 глав, среди которых есть и глава "Статистика для неспециалиста". Ниже приведём определение термина "Доказательная медицина" и комментарий этого определения.

       "Доказательная медицина — это применение математических оценок вероятности пользы и риска вреда, получаемых в высококачественных научных исследованиях на выборках пациентов, для принятия клинических решений о диагностике и лечении конкретных больных". С учётом возможностей оценок этих самых вероятностей с помощью метода логистической регрессии, можно считать, что данный метод как раз и является одним из основных методов доказательной медицины. Результаты подобных научных исследований публикуются в журнальных статьях, диссертациях, монографиях, в докладах на конференциях, и т.п.

   Далее Т. Гринхальх уточняет этот аспект следующей фразой: "Таким образом, в основе доказательной медицины лежит использование количественных сведений, полученных в исследованиях на группах пациентов, при принятии решений о конкретных пациентах". И этот специфический аспект также присущ методу логистической регрессии. Т.е. уравнения логистической регрессии  оцениваются разными алгоритмами с использованием всего имеющегося массива данных (базы данных - БД), но затем, используя полученные уравнения, вычисляются упомянутые выше вероятности пользы и риска вреда для каждого из проанализированных пациентов. Более того, полученные уравнения могут далее использоваться для новых пациентов, данные по которым отсутствуют в проанализированной БД. Далее обсудим доступным образом эти детали и возможности этого отличного метода.

    Практически во всех медицинских научных исследованиях, авторы собирают массивы данных, которые содержат несколько различных группировок признаков. Некоторые из этих основных группировок как раз и сравниваются методом логит-регрессии. Такие группировки имеют свои специфики. Например, если исследуются пациенты в периоды наблюдения "До лечения" и "После лечения", то данные 2 группы различаются временем наблюдения, а также значениями основных признаков, отражающих состояние здоровья больных и здоровых пациентов. Для использования метода логистической регрессии при анализе двух этих периодов наблюдения, в качестве зависимого признака Y используем признак с градациями "1 = До лечения" и "2 = После лечения". Назовём этот признак, например, PERIOD. При этом значения, фиксируемые (измеряемые) в оба эти периода, вводятся в один признак. Например, у пациентов в оба периода ("До лечения" и "После лечения") измеряется систолическое артериальное давление. Назовём этот признак, например, SAD. Отметим, что данный признак SAD является количественным признаком.

    Однако помимо количественных признаков, в реальных научных исследованиях фиксируется немало и иных, неколичественных признаков, так называемых дискретных, качественных признаков. Например, в научном исследовании производится сравнение двух групп пациентов: "Больные" и "Здоровые", или "До лечения" и "После лечения", и т.п. В этом случае используется зависимый признак (назовём его, например, BZ) с двумя градациями: "1 = Больной" и "2=Здоровый". Такие качественные признаки могут иметь и более 2 градаций (уровней, значений, групп). При этом данные градации могут быть ранговыми т.е. упорядоченными, а также и не ранговыми. В качестве примеров других дискретных, качественных признаков, используемых в исследованиях как признаки-предикторы (объясняющие признаки), приведём несколько следующих признаков: VAR97A = 'Функциональный класс сердечной недостаточности', PR15A = 'Наличие одышки', K126A = 'Мужчина курит', PHAS = 'Признаки хронической аневризмы сердца', SA = 'Симптомы аритмии', и т.д. Такими не ранговыми могут быть также признаки отражающие национальность пациента, пол пациента, место жительства, и т.д.

  Исторически самыми первыми методами статистического анализа, при работе с массивами данных содержащих количественные и группирующие признаки, были процедуры сравнения групповых средних. Так более 100 лет тому назад, Уильямом Госсетом был разработан t-критерий Стьюдента. Данный критерий имеет свою специфику. В частности, его корректное использование при сравнении двух групповых средних, требует выполнения двух обязательных условий в обеих сравниваемых группах. К сожалению большинство авторов, публикуемых результаты использования этого критерия, не знают об этих условиях.

   Сравнение групповых средних, двух и более, является исследованием наличия/отсутствия причинно-следственной взаимосвязи между двумя признаками. В частности, между количественным признаком, по которому вычисляются средние значения в каждой из сравниваемых групп, и группирующим признаком, по значениям которого наблюдения относятся в одну из этих групп.

  При исследовании взаимосвязи между парой признаков, производится также и оценка направленности этой взаимосвязи. Т.е. какой из признаков является причиной, а другой признак, по сути, является следствием первого признака. То есть оценка наличия/отсутствия и направленности причинно-следственной взаимосвязи, уточняет специфику отношений этой пары признаков. В некоторых парах исследуемых признаков такие причинно-следственные взаимосвязи устанавливаются достаточно легко. Например, в зависимости от пола пациента, могут существенно меняться некоторые изучаемые количественные признаки. В этом случае пол пациента является причиной, а значения количественного признака являются следствием.  Однако в других аналогичных парах признаков констатация причинно-следственной направленности не всегда доступна. Т.е. несмотря на подтверждение статистически значимого различия групповых средних, отсутствует объяснение какой признак является причиной, а какой - следствием.

   Аналогичные соотношения имеют место при анализе взаимосвязи между парой количественных признаков, и между парой дискретных, качественных признаков. Для пары количественных признаков в этом случае могут применяться методы корреляционного или регрессионного анализа, которые позволяют оценивать направление и интенсивность этих связей. А для пары дискретных, качественных признаков весьма продуктивно использовать анализ таблицы сопряжённости. И в этом случае также оцениваются различные показатели интенсивности и направленности этих взаимосвязей. Более того, при наличии статистически значимой взаимосвязи пары дискретных признаков, в таблице сопряжённости можно (и нужно!) идентифицировать структуру этой взаимосвязи. Т.е. в каких комбинациях значений этой пары признаков данная взаимосвязь имеет место, а в каких - отсутствует. А также в этих комбинациях (клетках таблицы) устанавливается и направленность этой взаимосвязи - отрицательная, или положительная.

   Часто после оценки наличия этих статистически значимых связей, не всегда возможно сразу и адекватно оценить направление причинно-следственной взаимосвязи. Т.е. установить какой из признаков является причиной, в другой - следствием. В таких ситуациях оба эти признака могут быть следствиями некоторых иных признаков. То есть оба эти признака также могут иметь статистически значимую взаимосвязь с некоторыми иными признаками. Причём изменения каждого из этой пары признаков могут быть зависимы не от одного какого-то признака, а даже от некоторого подмножества признаков. Естественно, что для для решения подобных проблем следует использовать наборы иных, более сложных и продуктивных, многомерных методов статистического анализа.

 В качестве примера подобного набора с количественными и дискретными, качественными признаками, приведём список признаков БД исследователя М.С.И. из города С., который проводил научное исследование по теме "Разработка метода комплексного лечения больных после эндоскопической холецистэктомии на раннем восстановительном  этапе с использованием магнитолазерной терапии, КВЧ – терапии и  минеральных вод". Вот список этих 46 признаков:

PERIOD = 'Время наблюдения'
GRUPPA = 'Группа'
VAR4A = 'Пол пациента'

VAR5 = 'Возраст'
VAR6A = 'Градации возраста'
VAR7A = 'Давность заболевания'
VAR8A = 'Фактор риска'

VAR9 = 'Лейкоциты'
VAR10 ='Эритроциты'
VAR11 = 'Гемоглобин'
VAR12= 'СОЭ'
VAR13= 'Лимфоциты'
VAR14A = 'Уровень реактивности'
VAR15 = 'Билирубин крови'
VAR16 = 'АЛТ'
VAR17 = 'АСТ'
VAR18 = 'Лактатдегидрогеназа'
VAR19 = 'Щелочная фосфатаза'
VAR20 = 'Гаммаглютаминтрасфераза'
VAR21 = 'Индекс Кердо'
VAR22A = 'Вегетативный тонус'
VAR23 = 'Индекс Хильдебранта'
VAR24A = 'Боли в правом подреберье'
VAR25A = 'Изжога'
VAR26A = 'Тошнота'
VAR27A = 'Отрыжка'
VAR28A = 'Горечь во рту'
VAR29A = 'Вздутие кишечника'
VAR30A = 'Нарушение стула'
VAR31A = 'Астеновегетативный синдром'

VAR32 = 'ИКП'
VAR33A = 'Интегральный клинический показатель'
VAR34A = 'Холангит УЗИ'

VAR35 = 'Объём ЖП УЗИ'
VAR36A = 'Тип ДЖВП'
VAR37A = 'Синдром холестаза'
VAR38A ='Синдром цитолиза'
VAR39A = 'Синдром мезенхимально-воспалительный'

VAR40 = 'Уровень стресса'
VAR41A = 'Наличие стресса'
VAR42 = ' Уровень п/эмоционального напряжения'
VAR43A = 'Наличие п/эмоционального напряжения'
VAR44 = 'Состояние здоровья'
VAR45 = 'Физическое функционирование'
VAR46 = 'Интенсивность боли'
VAR47A = 'Эффективность'

   В приведённой выше таблице красным цветом выделены 25 признаков, называемые дискретными, группирующими (качественными), а синим цветом - 21 количественный признак.

  Напомню, что все существующие методы статистического анализа условно подразделяются на две группы: многомерные методы анализа, и иные, не многомерные методы. Под многомерными методами принято считать те методы анализа, в которых вместе анализируются более двух признаков. Одномерным анализом для количественного признака являются оценки параметров распределения признака, например, оценки среднего значения, дисперсии, ошибки среднего, коэффициента вариации, и т.д. Либо проверка закона распределения значений количественного признака, в частности, проверка наличия/отсутствия нормального закона.

   Следующая группа - это упомянутые выше двумерные виды анализов. То есть те статистические анализы, в которых вместе анализируется пара признаков. Это могут пары количественных признаков, либо пары дискретных, качественных признаков, либо один из признаков количественный, а второй - дискретный, качественный.

    В наших статьях "Проценты - статистический анализ? Или проценты - арифметический анализ?" и "Сравниваем средние, а также и ... " достаточно подробно описаны методы оценки количества всех пар признаков, для которых можно (и нужно!) производить анализ наличия/отсутствия и направленности причинно-следственной взаимосвязи Например, для 5 признаков VAR1, VAR2, VAR3, VAR4, VAR5 имеется 10 парных взаимосвязей, показанные ниже на рисунке.

Это следующие 10 парных зависимостей: VAR1-VAR2; VAR1-VAR3; VAR1-VAR4; VAR1-VAR5; VAR2-VAR3; VAR2-VAR4; VAR2-VAR5; VAR3-VAR4; VAR3-VAR5; VAR4-VAR5.

В общем случае при наличии V признаков, количество таких парных зависимостей будет равно числу сочетаний (неупорядоченных комбинаций) из V по 2 [1]:

Так при значении V=5 получаем, Z = 5! / ((5-2)!*2!) = 5*4*3*2*1 / (3!*2!) = 5*4*3*2*1 / (3*2*1*2*1) = 20/2=10. Тогда для 5 качественных, группирующих признаков можно (и нужно!) провести анализ 10 таблиц сопряжённости. А для 5 количественных признаков можно (и нужно!) провести корреляционный анализ (либо парный регрессионный) 10 пар признаков. Также для всех этих пар признаков желательно не только установить наличие или отсутствие взаимосвязи, но при наличии этой взаимосвязи ещё и направленность. Т.е. какой их признаков можно считать причиной, а какой - следствием, результатом. А при установлении признака-причины, и признака-следствия, необходимо установить, а возможно ли в принципе подвергать изменению значения признака-причины. Поскольку очень часто одной из задач исследования является целевое управление значениями конкретных зависимых признаков.

   Если же есть 5 качественных и 5 количественных признаков, то кроме упомянутых выше 10+10=20 пар взаимосвязей, следует проверить наличие или отсутствие взаимосвязи между всеми парами количественных и качественных признаков. В этом случае количество таких пар будет равно 5*5=25. В результате количество всех анализируемых парных взимосвязей будет равно 10+10+25=45. Если же данный подход применить к упомянутой выше таблице признаков с 25 дискретными, группирующими признаками, и 21 количественным признаком, то такое общее количество парных взаимосвязей будет равно 300 + 210 + 525 = 1035.

   Разумеется, при наличии такого количества парных взаимосвязей, сразу возникает вопрос: - А нужно ли производить оценки всех подобных взаимосвязей? Анализ журнальных статей, диссертаций, монографий, и иных содержаний медицинских исследований, показывает, что подобные подходы к анализу имеющихся БД практически не реализуется. Напротив, перечисляется весьма ограниченное количество конкретных парх признаков, для которых и производится анализ взаимосвязей. Причин такому подходу несколько. Во-первых, общее количество анализа возможных парных взаимосвязей велико. Во-вторых, не все парные взаимосвязи вызывают интерес у исследователя. Между тем, установление статистически значимой взаимосвязи для каждой конкретной пары призраков, позволяет гораздо лучше понять механизм и структуру изучаемых систем. А при установлении причинно-следственной направленности в такой паре признаков, оценить возможность и целесообразность управления значением этого причинного признака.

  Напомним, что уравнение логистической регрессии с помощью набора признаков-предикторов X, позволяет оценивать вероятность отнесения конкретного k-того наблюдения к определённой группе сравнения. Например, имеются 2 группы сравнения: "Больные" и "Здоровые". В этом случае признаки-предикторы, включённые в уравнение логит-регрессии, объясняют какими комбинациями значений этих признаков, пациенты могут имеют высокие вероятности (гораздо более 50%; близко к 100%; или 100%) отнесения к группе "Больные", или к группе "Здоровые". При этом сумма двух этих вероятностей, при наличии двух групп сравнений, равна 100%. Обозначим это уравнение как Р(1)=F (X1 , X , ... , Xk-1, Xk ), где Р(1) - вероятность принадлежности, отнесения наблюдения (пациента) к группе Y=1, F( ) - функция для уравнения логит-регрессии, а X- признаки-предикторы, входящие в функцию F( ).

   Практика оценки уравнений логит-регрессии даёт исследователям информацию о том, что признаки-предикторы, вошедшие в составы набора уравнения, представляют собой разные доли от всего количества используемых потенциальных предикторов. Автор этой статьи использует метод логистической регрессии уже 30 лет, получив при этом порядка 25-30 тысяч уравнений. При этом в первые 10-15 лет количество потенциальных признаков-предикторов имело порядок от нескольких десятков до нескольких сотен. И в анализе таких БД, количество наблюдений в которых также имело порядок от нескольких десятков до нескольких сотен наблюдений, число получаемых уравнений по отдельным массивам имело количество от 2-3 до 8-10. Это объяснялось тем, что и в те времена использовались разные алгоритмы оценки уравнений, и разные анализируемые объёмы по одной и тоже БД. Поскольку при изменении состава потенциальных признаков-предикторов в конкретном массиве данных, меняется и объём анализируемых наблюдений. Это объясняется тем, что в большинстве БД многие признаки имеют пропущенные значения. Что и приводит в итоге к оценке новых уравнений.

   В настоящее время при анализе массивов данных объёмами от нескольких сотен до тысяч и миллиона наблюдений, при количестве признаков-предикторов от нескольких десятков до нескольких тысяч, количество уравнений, получаемых по одной и той же БД, возрастает на порядок и более. Это обусловлено как расширением количества самих алгоритмов оценки уравнений, так и существенным увеличением параметров БД.

   Однако за весь этот период использования данного метода, всегда имеет место тот факт, что в уравнения логит-регрессии алгоритмами включается лишь некоторая доля всего набора потенциальных признаков-предикторов. Например, из 100 потенциальных признаков-предикторов могут включаться от одного признака, до нескольких, и даже до нескольких десятков. И никогда не включаются все 100 потенциальных признаков-предикторов.

  В первой серийной статье "Логистическая регрессия. Основные понятия и возможности метода" приведены формулы уравнений логистической регрессии, и описания того, как по по этим уравнениям можно вычислять вероятности отнесения конкретного наблюдения к каждой из групп сравнения. При наличии определённого количества потенциальных признаков-предикторов можно подсчитать всё количество потенциальных уравнений, учитывая включение в эти уравнения разное количество признаков-предикторов. Рассмотрим как это можно вычислить.

   Предположим, кроме признака BZ с двумя градациями: "1 = Больной" и "2=Здоровый", имеется ещё 10 потенциальных признаков-предикторов причём как количественных, так и дискретных, качественных. Также предположим, что в уравнения в принципе можно включить от 1 признака, до всех 10 признаков-предикторов. Такие различные уравнения можно потом сравнить как по их возможностям, так и по важности одних и тех же признаков, находящихся в разных уравнениях. Используя формулу числа комбинаций из 10 признаков, вычислим количество уравнений Z с числом предикторов К от 1 до 10. Ниже приведена таблица со значениями количеств уравнений для разных значений К. Просуммировав все значения Z, установим, что общее количество

K = 1 2 3 4 5 6 7 8 9 10
Z = 10 45 120 210 252 210 120 45 10 1

  возможных уравнений равно 1023.         Очевидно, что использовать при таком    огромном количестве возможных    уравнений, простейший метод отбора    лучших уравнений, проверяя для этого возможности всех 1023 уравнений, не вполне реально. Отметим, что в принципе в программах написанных с помощью разных языков программирования, такой вариант возможен. Но он не продуктивен, поскольку требует очень большого количества времени для получения всех этих уравнений, затем вычисления оценки их результативности, и затем сравнения результативности всех пар уравнений (N.B.! Количество таких пар сравнения будет огромным!). Поэтому при оценке уравнений логистической регрессии пишутся такие программы, которые позволяют производить последовательный отбор самых лучших признаков-предикторов. Однако и в этом случае оценивается не 1 уравнение, а от 2-3 до 20-30 уравнений (и более!), которые отличаются друг от друга как набором признаков-предикторов, так и надёжностью прогноза принадлежности каждого наблюдения к сравниваемым группам наблюдений.

   Чем же объясняется отбор определённых признаков-предикторов в уравнения логистической регрессии? Напомню, что основной целью такого уравнения является выбор группы признаков-предикторов, комбинации значений которых определяют принадлежность анализируемых наблюдений (пациентов) к конкретным группам сравнения. Для чего по этому уравнению вычисляются вероятности отнесения конкретного наблюдения к каждой из групп сравнения. И наблюдение относится к той группе, для которой вероятность самая максимальная. Одна из основных причин выбора первых признаков-предикторов заключается в наличии статистически значимых связей с зависимым признаком Y. Причём с немалыми величинами связей в этих парах Y- X. Именно этот аспект и является мотивацией к проведению анализа взаимосвязи всех этих пар Y- X i . Так для признака PERIOD = 'Время наблюдения'  следует провести анализ взаимосвязи с 24 дискретными, качественными признаками, и с 21 количественным признаком (см. приведённую выше таблицу признаков).

  Однако в большинстве алгоритмов признаки-предикторы включаются в уравнение последовательно. Поэтому уже вводимый второй предиктор может иметь объяснения этого ввода не наличием сильной взаимосвязи с зависимым признаком Y,  а наличием более сильной взаимосвязи с первым введённым предиктором X1 .  Этот аспект мотивирует проверку наличия/отсутствия взаимосвязей между всеми парами признаки-предикторов. То есть для всех 45 потенциальных предикторов следует провести анализ парных взаимосвязей. Ниже приведена формула расчёта этого количества анализа этих парных взаимосвязей. С учётом упомянутых выше 24 и 21 взаимосвязей признака  PERIOD = 'Время наблюдения'  с 45 потенциальными предикторами, получаем общее количество полезных для анализа парных взаимосвязей: 990+45=1035. Выше это количество уже приводилось как общее число парных взаимосвязей для всех 46 признаков.

  Результаты проверки всех подобных парных взаимосвязей имеют несколько полезных аргументов. Во-первых, для каждой из этих пар признаков факт наличия или отсутствия статистически значимой взаимосвязи помогает лучше  и быстрее достичь первично сформулированных целей исследования. То есть сформулировать механизм взаимосвязи анализируемых признаков, либо констатировать их наличие или отсутствие, но при этом не сформулировать наиболее вероятный механизм этой взаимосвязи. Что является очередной мотивацией для расширения цели исследования. Однако применительно к уравнению логистической регрессии эти установленные взаимосвязи позволяют более глубоко и ясно объяснить механизм различия сравниваемых групп наблюдений (пациентов). Поскольку рассматривая набор парных взаимосвязей фактически можно сформировать последовательность признаков, имеющих максимальные взаимосвязи между собой.

   Также сортировка этих интенсивностей взаимосвязей позволяет установить потенциально самые важные и полезные признаки-предикторы, коррекция которых, в нужном направлении, позволяет повышать вероятности перехода наблюдения (пациента) из одной группы в другую. Например, из группы "Больной" в группу "Здоровый".  То есть используя полученные уравнения логистической регрессии, скорректировать процедуры воздействия на анализируемые объекты, путём целенаправленных изменений значений признаков-предикторов, вошедших а уравнение, с целью улучшения их состояния.

  Напомним, что в большинстве БД многие признаки имеют пропущенные значения. Доли этих пропусков разные. Поэтому используя для зависимого признака Y в качестве потенциальных предикторов все имеющиеся признаки, анализируемые программами логит-регрессии количества наблюдений уменьшаются. Поскольку из анализируемых наблюдений удаляются те наблюдения, которые имеют по одному и более пропущенных значений. Напомню, что в БД, вводимых, например, в программе EXCEL, эти пропуски представлены пустыми клетками. Значит при максимальном количестве потенциальных признаков-предикторов используется в анализе минимально возможное количество наблюдений. 

   По мере удаления потенциальных предикторов с наличием пропусков, возрастает количество анализируемых наблюдений. И при этом начинают изменяться значения парных взаимодействий, и, соответственно, состав предикторов введённых в уравнения логит-регрессии. Таким образом, по разным наборам потенциальных предикторов получаются и разные уравнения. Что в итоге приводит и к изменению надёжности этих уравнений. В частности, эти уравнения могут как ухудшаться, так и улучшаться. Естественно, что из всех полученных при этом уравнений можно (и нужно!) выбрать одно, или несколько, лучших уравнений. 

  В разных алгоритмах и программах анализа, которые позволяют получать эти наборы уравнений, используются разные показатели надёжности уравнений. В своём подходе к оценке надёжности каждого полученного уравнения логит-регрессии, мы используем также таблицы сопряжённости для двух признаков. Первый признак - это фактический зависимый признак Y. А вторым признаком является подобный признак, но в котором значения принадлежности наблюдения к конкретной сравниваемой группе устанавливается по величине вероятности, вычисленной по используемому уравнению логит-регрессии. То есть анализируется таблица сопряжённости для признаков "Y-фактический" и "Y-предсказанный".

  Ниже представлены 3 подобные таблицы сопряжённости, полученные по 3 уравнениям логит-регрессии (всего их было порядка 100, полученных по массису данных исследователя К.А.А. из города З.).

Таблица 1

Синим цветом выделены по диагонали те количества наблюдений, которые были предсказаны полученным уравнением в те же самые группы, к которым фактически принадлежали эти наблюдения. То есть из 96 наблюдений 1-й группы уравнение логит-регрессии отнесло в эту первую группу только 85 наблюдений. Из 65 наблюдений 2-й группы - 48 наблюдений, а из 57 наблюдений 3-й группы - 51 наблюдение. Общее количество наблюдений, отнесённых уравнением логит-регрессии в иные группы, равно 11+12+5+6=34. Значит доля неверно отнесённых наблюдений равно 34 / 218 = 15,6% .  

Таблица 2

В данной таблице показано, что второе уравнение получено при анализе 281 наблюдения. Что достигнуто путём удаления нескольких признаков с имеющимися пропусками измерений. При этом из 103 наблюдений 1-й группы уравнение отнесло в эту же группу 97 наблюдений, из 87 наблюдений 2-й группы - 75 наблюдений, и из 91 наблюдения 3-й группы - 87 наблюдений. Общее количество наблюдений, отнесённых уравнением логит-регрессии в иные группы, равно 6+7+5+4=22. Значит доля неверно отнесённых наблюдений равно 22 / 281 = 7,8% . По сравнению с уравнением по таблице 1, в уравнение по таблице 2 было введено в 2 раза больше признаков-предикторов.

Таблица 3

В данной таблице показано, что третье уравнение также было получено при анализе 281 наблюдения. При этом из 103 наблюдений 1-й группы уравнение отнесло в эту же группу 101 наблюдений, из 87 наблюдений 2-й группы - 86 наблюдений, и из 91 наблюдения 3-й группы - 90 наблюдений. Общее количество наблюдений, отнесённых уравнением логит-регрессии в иные группы, равно 2+1+1=4. Значит доля неверно отнесённых наблюдений равно 4 / 281 = 1,4% . По сравнению с уравнением по таблице 2, в уравнение по таблице 3 также было введено в 2 раза больше признаков-предикторов.

  Сравнение этих трёх таблиц говорит о том, что удаление признаков с пропусками увеличивает количество анализируемых наблюдений, и в результате получаются уравнения, которые дают более точное объяснение различий сравниваемых групп. Отметим, что данная реакция на удаление признаков с пропусками, не всегда даёт более лучшие варианты уравнений. Также отметим, что уравнения по таблицам 2 и 3 оценивались по одинаковым объёмам наблюдений, т.е. по 281 наблюдению. Однако при этом последнее уравнение отличалось от предыдущего другим алгоритмом оценки. Что в итоге дало более лучший результат.

 Весьма важным направлением, после получения подобных таблиц, является оценка причин, по которым некоторые наблюдения (пациенты) переведены полученным уравнением из своей собственной группы в иную группу. При детальном выполнении метода логистической регрессии, создаются таблицы со значениями основного показателя BETA для каждого наблюдения, а также таблицы со значениями вероятностей отнесения каждого наблюдения в каждую группу сравнения. Проводя сортировку наблюдений по группам и BETA, можно установить конкретные наблюдения, которые отнесены уравнением не свою группу. После чего полезно установить значения предикторов уравнения для каждого из таких наблюдений, и тем самым установить причины такого перевода из фактической группы в другую. Причины таких переводов могут быть разные. Например, в этих наблюдениях отдельные предикторы могут иметь либо ошибочные значения, либо весьма оригинальные, редкие по величине значения, либо весьма редкие комбинации этих значений по нескольким предикторам.

  Другой часто встречаемой причиной является принадлежность этих наблюдений к некоторым конкретным подгруппам иных признаков. И в этом случае полезно провести оценки уравнений логит-регрессии не по всей БД, а раздельно по подгруппам этих иных признаков. Такой подход оптимально планировать сразу при подготовке этого этапа исследования, используя потенциально самые разные группировки наблюдений. Естественно это увеличит объём самой работы, но зато будут получены более надёжные и ценные уравнения.

  Оценки разных уравнений логистической регрессии помогают исследовать разные механизмы появления различных группировок наблюдений (пациентов). Для этого следует производить оценки этих уравнений используя 3 принципиально разные наборы потенциальных признаков-предикторов. Например, использовать только те признаки, которые в принципе не могут быть изменены какими-то воздействиями. Такими признаками являются возраст пациента, его пол, разные признаки анамнеза, и т.п. Второй набор потенциальных признаков-предикторов может содержать только те признаки, которые доступны к изменения их значений с помощью определённых механизмов. Наконец, третий набор потенциальных признаков-предикторов содержит обе предыдущие группы, т.е. практически все имеющиеся признаки.

  Важным способом установления специфики влияния неизменных признаков, является проведение оценок уравнений логит-регрессии раздельно в подгруппах этих признаков. Например, можно провести вначале оценки уравнений по всей БД, используя указанных 3 вида потенциальных признаков-предикторов. А затем сделать аналогичные оценки используя раздельно БД для пациентов мужского пола. А далее - для пациентов женского пола. Отметим, то продуктивность этого подхода зависит ещё и от общего количества наблюдений в самой БД и подобных раздельных подгрупп. 

Завершая данную вводную статью о методе логистической регрессии, отметим, что основными целями использования этого метода является весьма  глубокое изучение структуры исследуемого явления. Что позволяет делать выбор признаков-предикторов влиящих на вероятности попадания наблюдений (пациентов) в отдельные сравниваемые группировки. А также делать и выбор тех признаков, с изменением значений которых, в нужном направлении, существенно повышается вероятность перевода наблюдений из одной группы, в другую. Например, перевод пациентов из группы "Больные" в группу "Здоровые".

Для знакомства с теорией данного продуктивного метода, и примерами его использования на многих реальных БД медиков-исследователей, следует прочитать все остальные 9 статей данной серии:
     http://biometrica.tomsk.ru/logit_1.htm     http://biometrica.tomsk.ru/logit_2.htm 
     http://biometrica.tomsk.ru/logit_3.htm     http://biometrica.tomsk.ru/logit_4.htm
 
     http://biometrica.tomsk.ru/logit_5.htm     http://biometrica.tomsk.ru/logit_6.htm 
     http://biometrica.tomsk.ru/logit_7.htm     http://biometrica.tomsk.ru/logit_8.htm
     http://biometrica.tomsk.ru/logit_9.htm    


Далее: 1. Логистическая регрессия. Основные понятия и возможности метода.  

 

Центр БИОСТАТИСТИКА выполняет работы по статистическому анализу экспериментальных данных уже более 30 лет. В его составе исследователи России, США, Израиля, Англии, Канады и других стран. Услугами Центра пользуются аспиранты и докторанты в области медицины, биологии, социологии, психологии и т.д. (См. далее )

Подарок читателям БИОМЕТРИКИ в связи с праздником 9 Мая. В течение последних 5 лет, перед праздниками, мы собирали читателям нашего сайта большие коллекции изданий по медицине, биологии, статистике и ...

RusDASL - российская библиотека данных  для изучающих биометрику и биостатистику. DASL (The Data and Story Library ) - под такой аббревиатурой на веб-сайте Carnegie Mellon University размещена известная библиотека исходных статистических данных данных из различных отраслей науки. Теперь аналогичная библиотека открыта на БИОМЕТРИКЕ и для российских пользователей...

Отзывы заказчиков по статистическому анализу данных

Сравниваем средние, а также и ... В. Леонов

     Исследователям в медицине и биологии весьма большую пользу приносит сравнение не только групповых средних, но также и иных параметров. Такими новыми сравнениями являются проверки равенства дисперсий, коэффициентов корреляции, коэффициентов регрессии или векторов групповых средних, сравнение групп многомерными методами, и т.д. В статье объяснена большая ценность обнаружения не нормального распределения признака. Показано, что не нормальное распределение количественного признака, означает наличие взаимосвязей данного признака с другими признаками.


Проценты - статистический анализ? Или проценты - арифметический анализ? В. Леонов.


23 примера оформления данных, их описания и описания целей исследования


В ноябре 2013 года сайту БИОМЕТРИКА исполнилось 16 лет. А что было раньше? И что теперь?


Примеры отличных диссертаций и статей по медицине и биологии, с нашими результатами статистического анализа

В.В. Половинкин
ТОТАЛЬНАЯ МЕЗОРЕКТУМЭКТОМИЯ — ФАКТОР ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ЛЕЧЕНИЯ СРЕДНЕАМПУЛЯРНОГО И НИЖНЕАМПУЛЯРНОГО РАКА ПРЯМОЙ КИШКИ.

Н.Г. Веселовская 
КЛИНИЧЕСКОЕ И ПРОГНОСТИЧЕСКОЕ ЗНАЧЕНИЕ ЭПИКАРДИАЛЬНОГО ОЖИРЕНИЯ У ПАЦИЕНТОВ ВЫСОКОГО СЕРДЕЧНО-СОСУДИСТОГО РИСКА.

О.Я. Васильцева ЗАКОНОМЕРНОСТИ ВОЗНИКНОВЕНИЯ, КЛИНИЧЕСКОГО ТЕЧЕНИЯ И ИСХОДОВ ТРОМБОЭМБОЛИИ ЛЕГОЧНОЙ АРТЕРИИ ПО ДАННЫМ ГОСПИТАЛЬНОГО РЕГИСТРА ПАТОЛОГИИ.

В.А. Габышев 
ФИТОПЛАНКТОН КРУПНЫХ РЕК ЯКУТИИ И СОПРЕДЕЛЬНЫХ ТЕРРИТОРИЙ ВОСТОЧНОЙ СИБИРИ.

М.И. Антоненко
  ГИПЕРКОРТИЦИЗМ БЕЗ СПЕЦИФИЧЕСКИХ КЛИНИЧЕСКИХ СИМПТОМОВ: ЭПИДЕМИОЛОГИЯ, КЛИНИКА, ДИАГНОСТИКА.

Н.Г. Веселовская"ПРОГНОЗИРОВАНИЕ РИСКА РЕСТЕНОЗА КОРОНАРНЫХ АРТЕРИЙ ПОСЛЕ ИХ СТЕНТИРОВАНИЯ У ПАЦИЕНТОВ С ОЖИРЕНИЕМ"

М.А. Будникова АНАЛИЗ ДИНАМИКИ ЧАСТОТЫ И СПЕКТРА АНОМАЛИЙ МИТОЗА, МЕЙОЗА И ЭЛЕМЕНТОВ ПРОДУКТИВНОСТИ Allium cepa L., ВЗЯТОГО ИЗ АГРОПОПУЛЯЦИЙ С РАЗНОЙ АНТРОПОГЕННОЙ НАГРУЗКОЙ ( Дипломная работа )

И.А. Бирюкова Научно - практическая работа " ФАРМАКОЭКОНОМИЧЕСКИЕ ИССЛЕДОВАНИЯ РОЗНИЧНОГО РЫНКА ГОРОДА ОМСКА"

Г.А. Попова СРАВНИТЕЛЬНОЕ ИЗУЧЕНИЕ ПОДВИДОВ LINUM USITATISSIMUM L . В УСЛОВИЯХ ЗАПАДНОЙ СИБИРИ. (диссертация на соискание учёной степени кандидата биологических наук).

А.Г. Сыркина Ретроспективный анализ эффективности и безопасности тромболитической терапии острого инфаркта миокарда у больных пожилого и старческого возраста (диссертация на соискание учёной степени кандидата медицинских наук).

В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года).

Фоторепортаж с Конференции по доказательной медицине в Ереване.

Фоторепортаж с семинара по биометрике в Ереване, прошедшего после конференции по доказательной медицине (24 - 26 сентября 2015 года).

Отзывы слушателей семинара по биометрике в Ереване в сентябре 2015 г.


Новые полезные книги...

(Заказать книгу можно через издательство)

Ланг Т., Сесик М. Как описывать статистику в медицине. Руководство для авторов, редакторов и рецензентов. Пер. с англ. В.П. Леонова. 2016 - 480 с.

Петри А., Сэбин К. Наглядная медицинская статистика. Учебное пособие. 3-е издание. Пер. с англ. В.П. Леонова. 2015. - 216 с.

Банержи А. Медицинская статистика понятным языком: вводный курс. Издательство "Практическая медицина", 2014. - 287 с. Пер. с англ. В.П. Леонова.

Т. Гринхальх. Основы доказательной медицины. Издательство "ГЭОТАР-Медиа", 2015. - 336 с. 4-е издание переработанное и дополненное. Пер. с англ. Под ред. И.Н. Денисова, К.И. Сайткулова, В.П. Леонова.


Долгое прощание
с
лысенковщиной 

История науки не ограничивается перечислением успешных исследований. Она должна сказать нам о безуспешных исследованиях и объяснить, почему некоторые из самых способных людей не могли найти ключа знания, и как репутация других дала лишь большую опору ошибкам, в которые они впали.

Дж. Максвелл 

Функциональный кризис отечественной науки, переживаемый в последнее десятилетие, вынуждает беспристрастно анализировать основные причины этого явления [1-2, 45-47]. Последние результаты библиометрического анализа говорят о том, что вклад России в мировую науку по основным направлениям составляет уже порядка 5-8% [1-2]. По данным того же источника вклад США составляет 32-41%. 

Коммунистическая идеология, уродовавшая многие направления отечественной науки на потребу вождей, породила и такое явление, как лысенковщина. Для большинства читателей фамилия Лысенко ассоциируется с августовской сессией ВАСХНИЛ 1948 г. и разгромом генетики. Однако лысенковщину нельзя сводить только к запрету на генетику. Достигнув своего апогея в середине текущего века, и став воистину периодом средневековья в отечественной биологии и медицине, лысенковщина изуродовала и методологию этих наук, изгнав из них в частности математику, и в первую очередь статистику. Последствия этого уродства и по сей день не позволяют биологии и медицине приблизиться к статусу точных наук. В статье описаны основные этапы этого явления и особенности методологии применения статистики в биологии и медицине, полученные автором при анализе нескольких сот диссертаций и монографий а также более 1500 статей в области экспериментальной биомедицины. 

Ключевые слова: лысенковщина, биология, медицина, статистика, биостатистика, методологический кризис. 


Автор понимает, что поднятая им проблема достаточно обширна и не может быть полностью освещена в одной статье, содержащей лишь малую часть материалов готовящейся к изданию монографии, посвященной проблемам применения статистики в медицине и биологии. Автор будет признателен читателям, которые выскажут свой взгляд на эту проблему, а также смогут дополнить авторские материалы новыми примерами.  Обсуждаемая в данной статье проблема может быть решена только общими усилиями всех заинтересованных в этом специалистов.

Работая над этой статьей, мне довелось несколько раз встречаться с одним из ректоров медицинского вуза. Обсуждая с ним предлагаемые в статье меры, направленные на исправление этого неприглядного положения, я с изумлением услышал от него такой ответ: "Как ученый - я "За", а как ректор - "Против"! И если так мыслит и говорит ректор, доктор медицинских наук, член-корреспондент РАМН, то несложно понять отношение к этой проблеме рядовых сотрудников такого вуза. Не потому ли многие из них представлены в разделе КУНСТКАМЕРА, вместе с моим собеседником, своими диссертациями и статьями...

За те несколько лет, что прошли с момента публикации этой статьи, а также статей  "В новый век - с доказательной биомедициной"(ПОИСК, N 20 (522) 21 мая 1999) и "Куплю 500 диссертаций! (Медицинская Газета N10 за 14.02.2001)", практически ничего не изменилось. Да, в России стали писать и говорить о доказательной медицине, проводить конференции по этой тематике, а в некоторых медицинских вузах даже открыли центры доказательной медицины. Однако откроем биомедицинские журналы и диссертации, и станет ясно, что это не более чем дань моде... 

 

Материалы по науковедению

В новый век - с доказательной биомедициной


1997 - 2017.© Василий Леонов. E-mail:

Доказательная или сомнительная? Медицинская наука Кузбасса: статистические аспекты.

Отклики читателей статьи "Доказательная или сомнительная?"

Возврат на главную страницу.

Возврат в КУНСТКАМЕРУ

Т. Кун "Структура научных революций"