Яндекс.Метрика

Логистическая регрессия в медицине

Каждый слышит то, что понимает. Гете

Статистика посещаемости БИОМЕТРИКИ


16.05.2011 г. на сайт пришло 2561 человек, открывших 3205 страниц
14.11.2011 г. на сайт пришло 2106 человек, открывших 3250 страниц
14.12.2011 г. на сайт пришло 2640 человек, открывших 3452 страниц
17.01.2012 г. на сайт пришло 2439 человек, открывших 3097 страниц
03.03.2012 г. на сайт пришло 2219 человек, открывших 3019 страниц
30.05.2012 г. на сайт пришло 3512 человек, открывших 4706 страниц
06.03.2014 г. на сайт пришло 2556 человек, открывших 3179 страниц
08.02.2015 г. на сайт пришло 2341 человек, открывших 2682 страницы
Если приходят, значит полезное находят.
.  
Наш 
адрес:  
Выбрав любое изображение, кликните по нему мышкой, и Вы узнаете о статистике ...

На файле "Поиски методов или результатов статистического анализа" сообщается, что сейчас на сайте БИОМЕТРИКА размещено 4162 htm-файлов, 651 pdf-файлов, 152 djvu-файлов, и т.д. И там же приводятся описания групп конкретных файлов. В частности по методам статистического анализа, их отличным результатам, отзывам авторов, книгам этих методов, статистике посещаемости сайта БИОМЕТРИКА, и т.д. Далее приведено подробное пояснение поиска нужных файлов системой Google, которая там же и помещена. А после системы Google размещены популярные 341 htm-адресов и 79 адресов pdf-адресов. Итак, для оперативного выбора конкретного нужного файла на данном сайте БИОМЕТРИКА, рекомендую перейти на файл "Поиски методов или результатов статистического анализа".

Логистическая регрессия в медицине и биологии

В. Леонов

 

    Логистическая регрессия. Введение.
1. Логистическая регрессия. Основные понятия и возможности метода.
2. Логистическая регрессия. Анализ массивов большой размерности.
3. Логистическая регрессия. Примеры анализа реальных данных.
4. Логистическая регрессия и ROC-анализ.
5. Особенности логистической регрессии в акушерстве.
6. Особенности логистической регрессии в психиатрии, психологии и социологии.
7. Пример использования логистической регрессии для расчёта прогноза исхода оперативного лечения.
8. Логистическая регрессия - "вершина пирамиды". А в "фундаменте" - что?
9. Как повысить качество уравнений логистической регрессии.


В данной серии статей, на уровне доступном для начинающих, рассмотрены цели и направления метода логистической регрессии. В частности, приводятся пояснения, какие надёжные результаты этого метода могут быть использованы для поставленных целей медицинских и биологических исследований. На примерах реальных медицинских массивов данных, поясняется специфика использования данного метода. Объяснено, что метод имеет много алгоритмов оценки уравнений логистической регрессии, что позволяет назходить для использования во врачебной практике самые удобные и надёжные методы лечения. Рассмотрено использование метода к массивам данных, содержащим несколько сотен признаков разной природы. Показано, что корректное создание таких массивов, и их анализ, возможны лишь при участии биостатистиков на самых первых этапах таких исследований. Рассмотрена связь логистической регрессии и ROC-анализа. Приведены многочисленные уравнения логистической регрессии и ROC-кривые, полученные при анализе реальных данных. Объяснена целесообразность использования вместе с методом логистической регрессии набора методов анализа парных взаимосвязей между различными признаками, а также использование более сложных методов многомерной статистики.

 


Как повысить качество уравнений логистической регрессии

Научное изучение всех явлений,
касающихся здорового и больного человека,
есть та база, на которой основываются
все достижения клинической медицины,
как медицины научной.

__________________________
В.И. Глинчиков

N.B.! Перед чтением данной статьи, настоятельно рекомендуем прочитать статью "Логистическая регрессия. Введение"


 

    В предыдущей нашей статье "Логистическая регрессия - "вершина пирамиды". А в "фундаменте" - что? " речь шла о тех методах статистического анализа, которые позволяют более результативно и осмысленно интерпретировать получаемые уравнения логистической регрессии. Целью настоящей статьи является объяснение мотивов предварительного использования некоторых методов анализа, которые позволяют существенно улучшить качество получаемых уравнений логистической регрессии.

В восьми предыдущих статьях о логистической регрессии мы объясняли основную цель использования этого метода. Напомним, что доминирующий в медицинских публикациях критерий Стьюдента, который был предложен более 100 лет тому назад, позволяет лишь сравнивать две групповые средние. Например, образно выражаясь, сравнить средние температуры больных и здоровых пациентов. Либо средние систолические давления больных и здоровых пациентов, и т.п. Если в этих двух группах сравнения фиксируется, например, 20 количественных признаков (вес, рост, возраст, результаты анализа крови, и т.д.), то с помощью критерия Стьюдента авторы могут проверить гипотезы равенста средних значений отдельно для каждого из этих 20 признаков.

   Однако при этом следует помнить, что одновременно два ограничения для корректного использования этого критерия (нормальность распределения в обеих сравниваемых группах, и равенство дисперсий в этих группах) выполняются крайне редко, в нескольких процентах случаев. Поэтому чаще всего выводы, получаемые в результате использования критерия Стьюдента, весьма сомнительны. В результате авторы исследований дезинформируют не только себя, но и своих читателей, в том числе и врачей, тем самым отрицательно влияя на здоровье больных пациентов, которых лечат читатели-врачи. По сути подобное доминирование некорректного использования критерия Стьюдента является СТАТИСТИЧЕСКОЙ ВАМПУКИЗАЦИЕЙ со стороны авторов.

 Ещё большая потеря информации, при сравнении лишь групповых средних, заключается в потере огромного количества информации содержащейся в связях между всеми фиксируемыми признаками. Напомним, что у 20 признаков количество парных взаимосвязей будет равно 20*(20-1)/2=10*19=190. В реальных исследованиях, помимо количественных признаков, фиксируются также и качественные признаки. Например, признаки анамнеза пациента, его пол, диагноз при поступлении, выписной диагноз, и т.д. Если также фиксировались 20 качественных признаков, то и для них имеется 190 парных связей. А для всех 40 признаков будет 40*(40-1)/2=20*39=780 парных связей. Таким образом, сравнение средних для 20 количественных признаков является попыткой получения самой минимальной доли собранной информации, равной 20/780=1/39=0,0256. То есть примерно 2,56% из всей доступной информации о парных связях. Более подробно этот аспект изложен в статье Логистическая регрессия. Анализ массивов большой размерности. 

Метод логистической регрессии, также представляющий собой метод сравнения групп, позволяет подключить к сравнению групповых средних также и множественные связи между зависимой переменной (состояние пациента, исход лечения, и т.п.), и набором всех фиксируемых количественных и качественных переменных. Многолетний опыт использования метода логистической регрессии, причём не только при анализе данных биологии и медицины, но также и при анализе данных социологических, психологических, филологических, экономических, специальных технических данных, и т.д., позволяет указать на одно специфичное направление, которое в литературе по этому методу практически не рассматривается.

Итак, рассмотрим, например, задачу сравнения трёх подгрупп пациентов. В качестве примера такой задачи ниже описан результат клинического испытания фармпрепарата, проведённого одной из зарубежных фирм. Испытания проводились у пациентов страдающих артериальной гипертензией. Сравнивались между собой три подгруппы пациентов. Первая подгруппа - это пациенты до начала приёма фармпрепарата. Вторая подгруппа - те же самые пациенты, но после установленного срока приёма данного фармпрепарата. А третья группа являлась группой контроля, и включала здоровых пациентов. Всего у пациентов фиксировались 34 качественных и количественных показателя. В первом этапе анализа данных в результате использования разных алгоритмов метода логистической регрессии были получены 7 уравнений. Отличия этих уравнений заключались как в различных комбинациях предикторов, вошедших в уравнения, так и результатами переклассификации проанализированных наблюдений с помощью этих уравнений. При этом качество получаемых уравнений отображается несколькими показателями.

Напомним, что в уравнениях множественной регрессии для количественных признаков основным показателем качества уравнения является числовая величина, которая вычисляется как средняя ошибка предсказания значения зависимой переменной по значениям независимых признаков, предикторов. Для чего из фактического значения зависимой переменной вычитается значение предсказанное по уравнению, эта разность возводится в квадрат, далее эти полученные квадраты суммируются по всем проанализированным наблюдениям, и полученная сумма делится на число степений свободы. Таким образом вычисляется дисперсия ошибок предсказания. Все эти формулы приведены в учебниках статистики с описанием метода множественной регрессии.

А при оценке качества полученного уравнения логистической регрессии для каждого наблюдения вычисляется вероятность его отнесения к каждой из групп сравнения. Таким образом происходит повторная переклассификация всех наблюдений, проанализированных с помощью полученного уравнения. Далее оценивается взаимосвязь между фактической классификацией, и классификацией повторной. То есть анализируется таблица сопряжённости признаков "Фактическая классификация" и "Классификация предсказанная". Ниже приведена такая таблица сопряжённости для одного из полученных уравнений лостической регрессии, содержащего 14 предикторов, и полученного для описанного выше клинического испытания фармпрепарата.

Анализ данной таблицы даёт значение критерия Пирсона Хи-квадрат равное 411,0448, которому при значении степеней свободы df=4 достигнутый уровень статистической значимости р < 0,0000001. При этом показатель интенсивности связи двух группирующих признаков (фактической группировки наблюдений и группировки предсказанной по уравнению) V-Крамера, равен 0,7663.

 

   В наших предыдущих статьях о логистической регрессии и анализе таблиц сопряжённости, мы уже писали о необходимости установления структуры статистически значимой взаимосвязи в подобных таблицах сопряжённости. Ниже приведена таблица со значениями вкладов отдельных клеток, строк и столбцов в установленную взаимосвязь двух группировок. Значения приведены в процентах; в последнем столбце приведены суммы вкладов по строкам, а в самой нижней строке приведена сумма вкладов по столбцам.

 

 

   Как видим, максимальные суммы вкладов по фактической и предсказанной группам до приёма фармпрепарата. Тогда как минимальные суммы фиксируются для группы после приёма фрампрепарата. Как известно, в качестве предикторов в уравнение логистической регрессии могут входить признаки двух разных свойств. В частности, первая когорта предикторов может содержать показатели анамнеза, либо такие признаки, которые в принципе не доступны к изменению их значений. Например, пол пациента, его возраст, рост пациента, и т.п. Вторая когорта показателей в принципе доступна к изменению в нужном направлении, т.е. уменьшении или увеличении значения количественных признаков, либо в переводе из одной градации категориального признака в другую градацию. Именно эти возможности и позволяют использовать полученные уравнения логистической регрессии для повышения вероятности перехода отдельных наблюдений (пациентов) в более приемлемую (хорошую) группу сравнения. Например, из группы "Больной" в группу "Здоровый".

   Внимательное изучение теоретических основ метода логистической регрессии указывает на то, что более высокое качество получаемых уравнений обеспечивается тремя основными аспектами анализируемых наблюдений. Во-первых, наблюдения входящие в одну конкретную группу сравнения должны быть весьма однородными по своим свойствам. Во-вторых, различия между группами сравнения должны быть максимальными. В третьих, анализируемые наблюдения должны иметь по возможности максимальное число описываемых их потенциальных предикторов.

Третье условие естественно не всегда легко выполнимо, поскольку требует для этого фиксации максимального количества признаков разной природы. Более же реализуемы первые два условия. Причём наиболее важным является самое первое условие. Поскольку его реализация приводит и к частичной реализации второго условия.  Для выполнения первого условия можно использовать несколько различных приёмов. Например, получив конкретное уравнение логистической регрессии, производятся для всех наблюдений оценки параметра beta (см. статью "Логистическая регрессия. Основные понятия и возможности метода"), а далее оценки вероятностей отнесения наблюдений к конкретным группам сравнения. Так для каждого наблюдения из трёх подгрупп сравнения были получены три величины параметра beta и три вероятности Р1, Р2 и Р3. Напомним, что Р1+Р2+Р3=1.

    Отметим также, что чем максимальнее вероятность отнесения конкретного наблюдения к его фактической подгруппе, тем более типичным для этой подгруппы является данное наблюдение. Для оценки однородности наблюдений в конкретной подгруппе сравнения, помимо величин Р1, Р2 и Р3 удобно использовать также и отношения Р1/Р2, Р1/Р3, Р2/Р3. Когда значения подобных отношений близки к 1, например, для некоторого конкретного наблюдения получаем отношение Р1/Р2=0,3/0,3=1, то очевидно, что данное наблюдение не является типичным для обеих подгрупп. При этом вероятность отнесения к оставшейся третьей подгруппе будет равно 1 - (0,3 + 0,3)=1 - 0,6 = 0,4. Таким образом, это наблюдение нельзя назвать типичным и для третьей подгруппы.

После получения данных величин целесообразно произвести сортировку наблюдений по значениям этих величин. Выделив в результате этого подвыборки наблюдений, которые не являются типичными для подгруппы, в которую отнесено данное наблюдение. Вполне естественно, что при реализации такой технологии следует повторить известную методику "скользящего контроля". В этом случае производится удаление одного наблюдения, например, из всех 350 наблюдений, удаляется наблюдение под номером 1. Далее на основе оставшихся 349 наблюдений оценивается уравнение логистической регрессии, с получением всех необходимых параметров и значений (коэффициентов предикторов, анализ таблицы сопряжённости со значениями критерия Пирсона Хи-квадрат величиной V-Крамера, и т.д. Затем удалённое наблюдение возвращается, и удаляется наблюдение под номером 2. И анализ повторяется. И так повторяется вплоть до удаления наблюдения под номером 350. То есть в дополнение к одному первичному уравнению на основе 350 наблюдений, были получены ещё 350 уравнений по 349 наблюдениям.

Такой подход позволяет выделить те наблюдения, удаление которых существенно улучшает качество получаемых уравнений. Однако при этом очевидно, что данный подход весьма значительно повышает трудоёмкость проводимого анализа. К тому же, если подобных нетипичных наблюдений фактически будет обнаружено не 1-2, а несколько больше, то придётся вновь повторить применение этого метода теперь уже для получения уравнений по 348 наблюдениям, далее 347 наблюдениям, и т.д.

Проведя 10 подобных итераций, мы получили несколько тысяч новых уравнений, среди которых наиболее продуктивным было выбрано одно из последних уравнение, на основе которого и была получена таблица сопряжённости, приведённая ниже.  

 

 

   Анализ данной таблицы даёт значение критерия Пирсона Хи-квадрат равное 337,7011, которому при значении степеней свободы df=4 достигнутый уровень статистической значимости р < 0,0000001. При этом показатель интенсивности связи двух группирующих признаков (фактической группировки наблюдений и группировки предсказанной по уравнению) V-Крамера, равен 0,7047. Отметим, что в предыдущей таблице сопряжённости лишь 40 наблюдений из 150 наблюдений второй группы (40/150=26,67% ) были переклассифицированы с помощью полученного уравнения логистической регрессии в третью подгруппы (здоровые). Тогда как во второй таблице сопряжённости уже 120 из 145 пациентов (120/145=82,76%) были переклассифицированы в третью подгруппы (здоровые).

Ниже приведена таблица со значениями вкладов отдельных клеток, строк и столбцов в установленную взаимосвязь двух группировок. Значения приведены в процентах; в последнем столбце приведены суммы вкладов по строкам, а в самой нижней строке приведена сумма вкладов по столбцам.

 

   Другое важное отличие последнего варианта уравнения логистической регрессии от первичного заключается в том, что в нём дисперсия модулей стандартизованных коэффициентов предикторов была примерно в 4 раза больше, чем в первом варианте уравнения. То есть существенно увеличились чувствительности взаимосвязи включённых в уравнение предикторов. А это означает возможность выделения предикторов, в полученном уравнении, наиболее сильно влияющих на изменение параметра beta, а значит, и на изменение вероятности перевода наблюдения (пациента) из подгруппы до приёма фармпрепарата в подгруппу после приёма, или в контрольную подгруппу здоровых.

Однако достижение такого эффекта требует весьма огромного увеличение объёма работы по достижения подобного результата. Так в данном случае в 5 итерациях с методикой "скользящего контроля" потребовалось оценить несколько тысяч уравнений. Поэтому для снижения объёма работы в принципе можно использовать другие методы поиска наиболее оптимальных вариантов анализа.

    Для пояснения выбора иных разных вариантов улучшения качества получаемых уравнений логистической регрессии, обратим внимание читателей на следующий аспект. При анализе двумерных таблиц сопряжённости мы фактически из сети многомерных взаимосвязей качественных, группирующих признаков выделяем лишь пару таких признаков. Для которых далее и исследуем наличие/отсутствие связи. При этом не учитывая влияние всех остальных качественных признаков. Если же помнить о возможном влиянии многих из "оставленных за бортом" качественных признаков на структуру связи анализируемой пары признаков, то в этом случае теоретически анализируемую таблицу сопряжённости можно представить как сумму многих аналогичных таблиц сопряжённости, которые своими частотами отвечают конкретным условиям, значениям градаций других качественных признаков. В качестве примера такой ситуации ниже приведены 3 таблицы сопряжённости А*В, в которых приведены частоты частоты с разными градациями третьего качественного признака С.

 

 

 

    Как видно из этих таблиц, при значениях группирующего признака С=1 и С=2 наблюдается статистически значимая и довольно ярко выраженная взаимосвязь признаков А и В. Причём при значении С=1 V-критерий Крамера положителен, а при С=2 этот критерий отрицателен. Что весьма наглядно видно в доминировании частот в этих таблицах по диагональным клеткам разного направления. В частности, при значении С=1 максимальные частоты расположены по диагонали "сверху-вниз, слева-направо". Тогда как , при значении С=2 максимальные частоты расположены по диагонали "снизу-вверх, слева-направо". Однако в общем массиве, в котором С=1+2, статистически значимой взаимосвязи признаков А и В не наблюдается. Ясно, что это вызвано суммированием противоположных взаимосвязей для подгрупп наблюдений с С=1 и С=2.

    Учитывая тот факт, что в реальных исследованиях число контролируемых качественных признаков гораздо больше 2-3, к тому имеющих более двух градаций, становится понятно, что на частоты наиболее интересных в исследовании пар качественных признаков, могут оказывать воздействие довольно многие показатели. При этом не следует забывать и то, что на частоты этих наиболее интересных парных сочетаний качественных признаков могут оказывать и многие другие качественные и количественные признаки, которые вообще отсутствуют в анализируемом массиве данных. Иными словами, обнаруживаемые статистически значимые зависимости могут быть теоретически представлены как некие суммы многих других значимых связей, плюс ошибки измерения, и плюс воздействия иных, неизвестных факторов.

    Одна из теоретических возможностей более глубокого проникновения в структуру подобных связей заключается в выполнении анализа собственных векторов произведения исходных и транспонированных матриц. Данная задача в принципе может решаться методами матричной алгебры (1). Однако опыт использования этого методического подхода свидетельствует о весьма большом объёме как необходимых вычислений, так и о сложностях интерпретации получаемых при этом результатов. Подобный анализ структуры собственных векторов был выполнен нами для данных о кожных заболеваниях ряда жителей Азербайджана, проживающих в местах добычи нефти, а также у самих работников нефтепромышленности. При этом фиксировались не только виды кожных патологий, но также и многие социальные показатели, а также содержание микро- и макроэлементов в питании и в крови пациентов. С помощью упомянутого выше анализа были получены весьма эффективные уравнения логистической регрессии, которые, по мнению исследователя собравшего эти данные, весьма результативно позволили установить механизм возникновения изученных патологий.

   Другим перспективным направлением повышения качества получаемых уравнений логистической регрессии является предварительная оцифровка градаций качественных признаков. Одна из первых работ с изложением идеи оцифровки градаций качественных признаков была опубликована Гиршфельдом в 1935 году (2). Перспективность этого подхода заключается не только в возможности повышения качества оцениваемых уравнений логистической регрессии, но также и возможности использования многих других многомерных статистических методов. В частности, метода канонической корреляции, факторного анализа, дискриминантного анализа, множественной регрессии, многомерного шкалирования, и т.д. Однако и в этом случае реализация данного направления требует весьма большого количества сложных вычислений. Для выполнения таких вычислений наиболее подходяще использование последних версий математического пакета MATLAB.

   Все перечисленные выше подходы по своей сути являются технологиями исследования структуры анализируемых признаков. Однако не менее продуктивно для повышения качества оцениваемых уравнений логистической регрессии и исследование структуры анализируемых наблюдений. Поскольку все используемые в исследованиях признаки проявляют свои взаимосвязи именно через анализируемые наблюдения. То есть можно рассматривать "две стороны медали" - структуру признаков, и структуру наблюдений.

   Анализ структуры наблюдений также может быть проведён самыми разными методами. Один из таких методов, с помощью которого может быть значительно улучшено качество уравнений логистической регрессии, это кластерный анализ применяемый к наблюдениям. Как известно, число алгоритмов кластерного анализа весьма велико. Основное их отличие в различной природе используемых метрик и алгоритмов кластеризации (3 - 6). Поскольку в реальных исследованиях используются и качественные, и количественные признаки, то очевидно, что проводить предварительный кластерный анализ можно со многими наборами признаков.

  В результате этого получаются новые группирующие признаки, содержащие нумерацию кластеров, полученных как с разными наборами признаков, так и с разными алгоримами. При этом важной деталью данного исследования является то, что благодаря использованию предварительного кластерного анализа фактически устанавливаются скрытые, латентные группировки наблюдений. Анализ таблиц сопряжённости таких латентных группировок с основными зависимыми качественными признаками (исход лечения, состояние пациентов, и т.п.), позволяет установить, насколько однородны, или же неоднородны, эти основные группировки, для которых далее оцениваются уравнения логистической регрессии.

   Благодаря проведению такого предварительного исследования однородности группировок основных зависимых признаков с помощью разных алгоритмов кластерного анализа, удаётся существенно увеличить однородность анализируемых группировок. Ниже приведён результат оценки логистической регрессии по массиву данных исследователя из Германии, который изучал специальные диеты при лечении патологий печени. В качестве зависимой группирующей переменной рассматривался результат лечения с двумя исходами. В составе потенциальных предикторов были как составы и количества потребляемых продуктов, так и результаты анализа крови и ряда других показателей состояния пациентов. Состав эти потенциальных предикторов включал 33 количественных признака и 25 качественных признаков.

Ниже приведена таблица сопряжённости для первичного уравнения логистической регрессии, полученного без проведения предварительного кластерного анализа.

 

    Как видим, наблюдения с градацией "Исход=1" переклассифицируется неплохо. Из 268 наблюдений уравнением логистической регрессии переклассифицированы в свою же градацию 223 наблюдения. Тогда как из 266 наблюдений второй градации в свою же градацию переклассифицированы лишь 145 наблюдений. Проведённые 6 вариантов кластерного анализа позволили установить, что в подгруппе "Исход=1" фактически имеется несколько латентных группировок. Анализ этих скрытых группировок показал, что среди 268 пациентов были 43 пациента с относительно редкими комбинациями ряда характеристик, которые как раз и делали достаточно неоднородной эту подгруппу.

   Также и среди 266 пациентов из подгруппы "Исход=2" было наличие латентных группировок. В частности, было выявлено 32 пациентов, которые весьма специфично реагировали на потребляемую диету. Проведённый анализ этой латентной группировки установил разные специфические причины таких реакций. В результате этого эти пациенты были удалены из анализируемой выборки. Ниже приведена таблица сопряжённости, полученная по уравнению логистической регрессии, с коррекцией массива данных после проведения предварительного кластерного анализа.

 

 

   Очевидно, что целесообразно также проводить дальнейший анализ и установленных латентных группировок, которые далее удалялись из анализа. В частности, нами было предложено проведение такого анализа для удалённых 75 пациентов. Однако исследователь, собравший данный массив наблюдений, не счёл необходимым проведение такого анализа. Тем не менее мы провели самостоятельно такой анализ. Для этого ввели 2 новых группирующих признака с двумя градациями. Первый признак назовём "Факт", а второй -  "Прогноз". Обозначим градацией 1 первую подгруппу из 43 пациентов с относительно редкими комбинациями ряда характеристик, а 2 - вторую подгруппу из 32 пациентов, которые весьма специфично реагировали на потребляемую диету. При анализе этих двух подгрупп из 75 пациентов, было получено несколько уравнений логистической регрессии. При этом по уравнению самого лучшего качества была получена следующая таблица сопряжённости для признаков "Факт" и "Прогноз".

 

 

Полученные результаты в итоге привели к проведению следующей последовательности подобного комплексного анализа. Вначале по всему массиву данных было выполнено несколько видов кластерного анализа. Далее для полученных группировок в виде отдельных кластеров были произведены оценки уравнений логистической регрессиию При этом примерно у половины уравнений были получены таблицы сопряжённости, аналогичные по по своей структуре приведённой выше таблице. Отметим при этом, что по результатам кластерного анализа упомянутые выше 75 наблюдений входили в 1 или 2 кластера в количестве от 75 до 70 наблюдений. Далее раздельно по выделенным кластерам проводилась оценка уравнений логистической регрессии по основной группирующей переменной "Исход". И полученные при этом уравнения логистической регрессии были весьма высокого качества как по процентам согласия частот фактических и предсказанных, так и по структуре предикторов.

    Подводя итог описанным выше акцентам, можно утверждать, что при использовании метода логистической регрессии целесообразно использовать как анализ парных взаимосвязей, описанных в нашей предыдущей статье "Логистическая регрессия - "вершина пирамиды". А в "фундаменте" - что? ",  так и многие другие методы многомерной статистики.

 

Литература

1.  Матричный анализ. М.: Наука. 1987. 666 с.

2. Hirschfeld, H.O. A connection between correlation and contingency. Proc. Cambridge Philosophical Society, Vol. 31 (1935), pp. 520–524

3. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с.

4. Жамбю М. Иерархический кластер-анализ и соответствия. — М.: Финансы и статистика, 1988. — 345 с.
5. Дюран Б., Оделл П. Кластерный анализ. — М.: Статистика, 1977. — 128 с.

6. Леонов В. Кластерный анализ: основы метода и его применение в биомедицине. http://www.biometrica.tomsk.ru/cluster_1.htm



НЦ БИОСТАТИСТИКА выполняет работы по статистическому анализу экспериментальных данных уже более 30 лет. В его составе исследователи России, США, Израиля, Англии, Канады и других стран. Услугами НЦ пользуются аспиранты и докторанты в области медицины, биологии, социологии, психологии и т.д. (См. далее )

Примеры оформления заказчиками базы данных, описания признаков и целей статистического анализа этой базы данных

Островок  здоровья

Пример 1   Пример 2   Пример 3


Пример "ПРОГРАММА РАБОТ по статистическому анализу" базы данных Исследователя. Леонов В.П. ... При этом содержание подобных "ПРОГРАММ..." определяются приводимыми 5-ю деталями. ...  В данном примере "ПРОГРАММЫ..." приводится 22 БЛОКА по конкретным методам анализа и графикам.


Отзывы исследователей по
статистическому анализу данных


СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ ДЛЯ МЕДИКОВ И БИОЛОГОВ (время и опыт). Леонов В.

Сравниваем средние, а также и ...  В.П. Леонов. Исследователям в медицине и биологии весьма большую пользу приносит сравнение не только групповых средних, но также и иных параметров. Показано, что не нормальное распределение количественного признака, означает наличие взаимосвязей данного признака с другими признаками.


НАУКОМЕТРИКА СТАТИСТИЧЕСКОЙ ПАРАДИГМЫ ЭКСПЕРИМЕНТАЛЬНОЙ БИОМЕДИЦИНЫ  (ПО МАТЕРИАЛАМ ПУБЛИКАЦИЙ). В.П.Леонов. Вестник Томского государственного университета. Серия "Математика. Кибернетика. Информатика". №275. АПРЕЛЬ 2002, стр. 17-24.


В ноябре 2013 года сайту БИОМЕТРИКА исполнилось 16 лет. А что было раньше? И что теперь?


Примеры отличных результатов статистического анализа в диссертациях, дипломных работах и статьях, полученных с нашей помощью.

В.В. Половинкин. Тотальная мезоректумэктомия — фактор повышения эффективности лечения среднеампулярного и нижнеампулярного рака прямой кишки.  (диссертация на соискание учёной степени доктора медицинских наук)

Н.Г. Веселовская.  Клиническое и прогностическое значение эпикардиального ожирения у пациентов высокого сердечно-сосудистого риска.  (диссертация на соискание учёной степени доктора медицинских наук)

В.А. Габышев.  Фитопланктон крупных рек Якутии и сопредельных территорий восточной Сибири.  (диссертация на соискание учёной степени доктора биологических наук)


Роль «малых» доз ионизирующего излучения в развитии неонкологических эффектов: гипотеза или реальность? Бюллетень сибирской медицины, № 2, 2005, с. 63-70. Карпов А.Б., Семенова Ю.В., , Тахауов Р.М., Литвиненко Т.М., Попов С.В., Леонов В.П.

В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года).


На файле "Поиски методов или результатов статистического анализа" сообщается, что сейчас на сайте БИОМЕТРИКА размещено 4162 htm-файлов, 651 pdf-файлов, 152 djvu-файлов, и т.д. И там же приводятся описания групп конкретных файлов. В частности по методам статистического анализа, их отличным результатам, отзывам авторов, книгам этих методов, статистике посещаемости сайта БИОМЕТРИКА, и т.д. Далее приведено подробное пояснение поиска нужных файлов системой Google, которая там же и помещена. А после системы Google размещены популярные 341 htm-адресов и 79 адресов pdf-адресов. Итак, для оперативного выбора конкретного нужного файла на данном сайте БИОМЕТРИКА, рекомендую перейти на файл "Поиски методов или результатов статистического анализа".


История биометрики

Применение статистики в статьях и диссертациях по медицине и биологии. Часть I. Описание методов статистического анализа в статьях и диссертациях.                   Международный журнал медицинской практики, 1998 г., вып. 4. В.П. Леонов, П.В. Ижевский

ПРИМЕНЕНИЕ СТАТИСТИКИ В СТАТЬЯХ И ДИССЕРТАЦИЯХ ПО МЕДИЦИНЕ И БИОЛОГИИ.   ЧАСТЬ 2. ИСТОРИЯ БИОМЕТРИКИ И ЕЁ ПРИМЕНЕНИЯ В РОССИИ. Леонов В.П.

ПРИМЕНЕНИЕ СТАТИСТИКИ В СТАТЬЯХ И ДИССЕРТАЦИЯХ ПО МЕДИЦИНЕ И БИОЛОГИИ.  ЧАСТЬ III. ПРОБЛЕМЫ ВЗАИМОДЕЙСТВИЯ  "АВТОР - РЕДАКЦИЯ - ЧИТАТЕЛЬ". Леонов В.П.

Применение статистики в статьях и диссертациях по медицине и биологии. Часть IV. Наукометрия статистической парадигмы экспериментальной биомедицины.                                    Международный журнал медицинской практики, 2002 г. вып. 3. Леонов В.

СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ  ДЛЯ МЕДИКОВ И БИОЛОГОВ.  (время и опыт). Леонов В.П.


ОБ ИСПОЛЬЗОВАНИИ ПРИКЛАДНОЙ СТАТИСТИКИ ПРИ ПОДГОТОВКЕ ДИССЕРТАЦИОННЫХ РАБОТ ПО МЕДИЦИНСКИМ И БИОЛОГИЧЕСКИМ СПЕЦИАЛЬНОСТЯМ. Бюллетень ВАК N5 1997 г. В.П.Леонов, П.В.Ижевский.


Статистика в кардиологии. 15 лет спустя.  Леонов В.П. 15 лет назад, в 1998 году, в журнале «Кардиология» была опубликована наша статья  «Применение методов статистики в кардиологии (по материалам журнала «Кардиология» за 1993–1995 гг.) В ней были проанализированы 426 статей кардиологической тематики.

Леонов В.П. Ошибки статистического анализа биомедицинских данных. Доклад на научно-практическая конференция "Роль эпидемиологических и клинических исследований в здравоохранении: планирование, организация, внедрение результатов в практику". Якутск, (12-13 ноября 2009).


Доклад "Почему и как надо учить медиков статистике?" Леонов В. П. Доклад на международной конференции по доказательной медицине  в Ереване 18-20.10.2012

Зачем нужна статистика в доказательной медицине?  В. Леонов. Армянский медицинский реферативный журнал, 2012, вып. 9, с. 184-193.


Новые полезные книги...

(Заказать книгу можно через издательство)

Ланг Т., Сесик М. Как описывать статистику в медицине. Руководство для авторов, редакторов и рецензентов. Пер. с англ. В.П. Леонова. 2016 - 480 с.

Петри А., Сэбин К. Наглядная медицинская статистика. Учебное пособие. 3-е издание. Пер. с англ. В.П. Леонова. 2015. - 216 с.

Банержи А. Медицинская статистика понятным языком: вводный курс. Издательство "Практическая медицина", 2014. - 287 с. Пер. с англ. В.П. Леонова.


После взрыва на СХК в 1993г. в Томске и Северске увеличилась частота рождения детей с пороками развития

В новый век - с доказательной биомедициной
Газета ПОИСК, № 20 (522)
21 мая 1999
г.


Леонов В.П. Общие проблемы применения статистики в биомедицине. 

ОБ ИСПОЛЬЗОВАНИИ ПРИКЛАДНОЙ СТАТИСТИКИ ПРИ ПОДГОТОВКЕ ДИССЕРТАЦИОННЫХ РАБОТ ПО МЕДИЦИНСКИМ И БИОЛОГИЧЕСКИМ СПЕЦИАЛЬНОСТЯМ. Бюллетень ВАК N5 1997 г. В.П.Леонов, П.В.Ижевский.

Леонов В.П. Ошибки статистического анализа биомедицинских данных. Доклад на научно-практическая конференция "Роль эпидемиологических и клинических исследований в здравоохранении: планирование, организация, внедрение результатов в практику", посвящённая памяти доктора медицинских наук, профессора В.П. Алексеева в Якутске (12-13 ноября 2009).

Леонов В.П. Факторный анализ: основные положения и ошибки применения.

История биометрики

 Анализ таблиц сопряжённости 2х2 с вычислением многих статистик связи...

Можете просматривать все графики по данной тематике...


Леонов В.П. Ошибки статистического анализа биомедицинских данных.  Международный журнал   медицинской практики,  2007, вып. 2, стр.19-35.
Ошибка – это …
Ошибка или обман?

Обзоры ошибок применения статистики в медицине

Причины возникновения ошибок и меры борьбы с ними

Ошибки описания статистических методов

Меметический анализ описаний методов статистики

Локализация ошибочных описаний внутри научных школ

Мемы камуфляжных описаний

Смутно пишут о том, о чём смутно представляют

Коварный t-критерий Стьюдента

«… не зная законов языка ирокезского, можешь ли ты делать такое суждение  по  сему предмету…»

Что же делать, чтобы избежать ошибок?

ОТЗЫВ заочного аспиранта Омского Государственного медицинского университета, врача акушера-гинеколога акушерского отделения Лабытнангской городской больницы(ЯНАО) Коваленко Марины Александровны. 

Хочу поблагодарить создателей сайта БИОМЕТРИКА, и лично Леонова В.П., за совместно проделанную работу. Я, как и многие практические врачи, считают, что статистика - это что-то из области фантастики, где-то рядом с космонавтикой...

ОТЗЫВ Корнеевой Н.В., доцента ДВГМУ, г. Хабаровск. Здравствуйте! Меня зовут Корнеева Наталья Вячеславовна, я являюсь доцентом кафедры факультетской терапии ДВГМУ г. Хабаровск. Как и полагается доценту, я имею степень кандидата медицинских наук, диссертация защищена в 2011 году. Работая над кандидатской диссертацией, самой сложной для меня была статистическая обработка данных. Обучаясь в очной аспирантуре, я посетила 5 занятий по статистике, предусмотренные программой подготовки аспирантов. Занятия проводила то ли студентка технического ВУЗа, то ли молодая преподаватель, которая постоянно заглядывала в конспект и не могла понять суть преподаваемого ею, тем более эту суть не могли понять и обучающиеся. Прикладного значения полученным «знаниям», я так и не нашла. (далее...)"

ОТЗЫВ врача-кардиолога М.В. Емельяненко, ФКУ «Центральный военный госпиталь имени П.В. Мандрыка» МО РФ, Москва, о проведённом статистическом анализе.  Хочу выразить глубокую признательность за качественный и весьма объёмный труд, проделанный Вами по статистическому анализу моей базы данных. Особенную благодарность, без сомнения, хотелось бы выразить руководителю проекта «БИОМЕТРИКА» - Василию Петровичу Леонову. Причина такой благодарности следующая. Помимо структурированного статистического анализа присланных в Ваш адрес медицинских данных, Вы подробно и, что самое невероятное,  – доступным образом разъяснили мне суть каждого метода, который был применён при анализе моей матрицы. (далее...)

Проценты - статистический анализ? Или проценты - арифметический анализ? В. ЛеоновМотивом к написанию данной статьи стал следующий инцидент. 11 апреля 2016 г. я получил вот какое письмо.

Уважаемый Василий Петрович! Я являюсь одним из читателей Вашего сайта "Биометрика", который нашёл по ссылке, размещённой на странице http://bono-esse.ru/blizzard/ais.html C большим интересом ознакомившись, в частности, с разделом "Кунсткамера", обращаюсь к Вам с несколько необычным вопросом по независимому, неформальному рецензированию работы ....

P.S. Сайт дополнен PDF-файлом полной версии данной статьи.


НАУКОМЕТРИКА СТАТИСТИЧЕСКОЙ ПАРАДИГМЫ ЭКСПЕРИМЕНТАЛЬНОЙ БИОМЕДИЦИНЫ  (ПО МАТЕРИАЛАМ ПУБЛИКАЦИЙ). В.П.Леонов. Вестник Томского государственного университета. Серия "Математика. Кибернетика. Информатика". №275. АПРЕЛЬ 2002, стр. 17-24.

СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ ДЛЯ МЕДИКОВ И БИОЛОГОВ (время и опыт). Леонов В.

ОБ ИСПОЛЬЗОВАНИИ ПРИКЛАДНОЙ СТАТИСТИКИ ПРИ ПОДГОТОВКЕ ДИССЕРТАЦИОННЫХ РАБОТ ПО МЕДИЦИНСКИМ И БИОЛОГИЧЕСКИМ СПЕЦИАЛЬНОСТЯМ. Бюллетень ВАК N5 1997 г. В.П.Леонов, П.В.Ижевский.

Леонов В.П. Ошибки статистического анализа биомедицинских данных. Доклад на научно-практическая конференция "Роль эпидемиологических и клинических исследований в здравоохранении: планирование, организация, внедрение результатов в практику". Якутск, (12-13 ноября 2009).


Статистика - это что? Статистика - нужна зачем? Статьи читаем - зачем? Статьи пишем - зачем? Краткая версия лекции для слушателей-медиков в Ереване, прочитанной в 2014 году по Скайпу.

В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года).

НАУКОМЕТРИКА СТАТИСТИЧЕСКОЙ ПАРАДИГМЫ ЭКСПЕРИМЕНТАЛЬНОЙ БИОМЕДИЦИНЫ   (ПО МАТЕРИАЛАМ ПУБЛИКАЦИЙ). В.П.Леонов. Cамая читаемая наша статья после отправки в мае м-це с.г. более 300 писем авторам статей мед. журналов о наличии в них примитивных и ошибочных методов статистического анализа, и получаемых при этом результатах.


Пример "ПРОГРАММА РАБОТ по статистическому анализу" базы данных Исследователя. Леонов В.П. ... При этом содержание подобных "ПРОГРАММ..." определяются приводимыми 5-ю деталями. ...  В данном примере "ПРОГРАММЫ..." приводится 22 БЛОКА по конкретным методам анализа и графикам.

На файле "Поиски методов или результатов статистического анализа" сообщается, что сейчас на сайте БИОМЕТРИКА размещено 4162 htm-файлов, 651 pdf-файлов, 152 djvu-файлов, и т.д. И там же приводятся описания групп конкретных файлов. В частности по методам статистического анализа, их отличным результатам, отзывам авторов, книгам этих методов, статистике посещаемости сайта БИОМЕТРИКА, и т.д. Далее приведено подробное пояснение поиска нужных файлов системой Google, которая там же и помещена. А после системы Google размещены популярные 341 htm-адресов и 79 адресов pdf-адресов. Итак, для оперативного выбора конкретного нужного файла на данном сайте БИОМЕТРИКА, рекомендую перейти на файл "Поиски методов или результатов статистического анализа".


Наш адрес       Сайт БИОМЕТРИКА создан в 1997 г. © Василий Леонов

Пример "ПРОГРАММА РАБОТ по статистическому анализу" базы данных Исследователя

Зачем нужна статистика в доказательной медицине? 

Доклад "Почему и как надо учить медиков статистике?" В. Леонов