МЕДФАР-АНАЛИСТ

Ежемесячно обновляемый информационно-образовательный сайт, посвященный статистическому анализу медицинских, фармакологических и биологических данных на компьютере

 

Учимся применять статистические методы для анализа медицинских данных: советы профессионала

Эрнст Статистик

Статья 1


Введение

Данной статьей мы открываем серию материалов, посвященных применению системы STATISTICA в медицине. На примерах, взятых из различных областей медицины, мы покажем как обрабатываются данные в системе STATISTICA, расскажем об ограничениях, которые нужно знать при использовании популярных статистических методов. Если вы врач, студент медицинского института или аспирант и хотите научиться находить закономерности в ваших данных, например, сравнить различные способы лечения и диагностики заболевания, проводить статистический анализ, опираясь на всестороннее графическое представление в системе, полностью согласованной со стандартами Windows, то наши статьи окажутся полезными для вас. Из них вы узнаете, как сгруппировать данные, построить и проанализировать сложные таблицы сопряженности, разбив пациентов на группы по полу, возрасту, симптомам болезни и исследовать зависимости в каждой группе; каким образом сравнить средние показатели пациентов в различных группах; как провести анализ выживаемости; избежать появления искусственных эффектов; подтвердить или опровергнуть гипотезы, провести сложную классификацию, используя дискриминантный анализ или деревья классификации.

Следует заметить, что у каждого врача имеется собственный архив данных, отражающий многолетний опыт его работы - огромный массив знаний, имеющий большую познавательную ценность, начало которому положено, возможно, задолго до начала эры компьютеризации.

Ценность этой информации может быть мнократно увеличена, если воспользоваться статистическими методами: данные следует структурировать, визуализировать - отобразить на графиках, а значимость результатов строго доказать. И в этот момент на помощь врачу приходит наука статистика и современные системы, делающие обработку данных, доступной практически всем. Результаты получат свой блеск и завершенность, какую имеет алмаз после обработки!

Применение статистических методов имеет свои шаблоны и рецепты, как и при постановке диагноза, однако эти методы осваиваются гораздо быстрее, благодаря современным компьютерным технологиям. Имея компьютер минимальной конфигурации (подойдет даже видавший виды IBM PC AT-386), и общую культуру работы на персональном компьютере, например, опыт работы в Word или в Excel, вы легко овладеете основными методами статистики. Собственно, наша цель состоит в том, чтобы научить врача анализировать данные в дружественной для него среде, снабдив необходимыми навыками, позволяющими, организовать исследование, оценить значимость результатов, обнаружить скрытые закономерности и связи.

Если у вас имеются довольно смутные представления о науке статистика, не расстраивайтесь: изложение материала построено таким образом, что доступно школьникам старших классов, кроме того, следует помнить, что STATISTICA построена таким образом, что фактически задает клише или, более точно, направление анализа: во многих ситуациях вам не нужно думать о следующих шагах исследования - система сама предлагает их вам.

Несколько слов об истории применения статистических методов

Прежде чем продолжить изложение, полезно бросить ретроспективный взгляд на историю предмета и представить себе, как возникли статистические методы. Первоначально статистические закономерности возникли из наблюдений за азартными играми, например, было замечено, что при бросании правильной кости различные грани выпадают примерно с одинаковой частотой; при бросании пары костей 24 раза пара шестерок появляется в менее половине игр, но при 25 бросках частота этого события уже более половины и т.д.

Первые применения статистики в медицине, по-видимому, относятся к 18 веку, когда в Англии было замечено, что относительная частота смертности мужчин и женщин одного возраста, живущих примерно в одинаковых условиях, из года в год колеблется, но колеблется в весьма узких пределах. Самым интересным здесь является замечание: “колеблется в узких пределах”. Всем известно, что колебания происходят, неожиданным являются узкие границы колебания, что позволяет с большой точностью предсказать долю умерших в той или иной категории населения и служит основой современного страхования.

Итак, в случайном явлении – смертности или, наоборот, выживаемости людей - была открыта устойчивая закономерность: относительная частота или доля для людей одного пола и близкого возраста примерно постоянна. А это удивительное открытие, повлекшее за собой множество событий, в частности возникновение современной теории страхования! Такие закономерности возникают во многих ситуациях и формулируются совершенно просто. Они понятны любому человеку со здравым мышлением и представляют основной интерес.

Но вот вопрос: как найти устойчивые закономерности в реальных данных – в тех данных, которые лежат перед вами? Например, как доказать эффективность выбранного метода лечения, когда на результат воздействует такие факторы, как биологическая изменчивость пациентов, психотерапевтический фактор, субъективные оценки врача и т.д.? Методы классической математики не позволяют оценивать воздействие таких факторов, классическая математика не позволяет исследовать случайные явления - в свои права вступает статистика.

Как устроены статистические критерии?

Большинство статистических критериев устроено следующим образом: имеется некоторая величина, называемая статистикой критерия или критериальной статистикой, попадание которой в определенную область является индикатором опровержения или подтверждения гипотезы. В таких случаях статистик говорит: гипотеза является маловероятной или, напротив, наблюдения не противоречат ей.

Аналогично врач, измеряя давление пациента, количество лейкоцитов в крови и другие параметры, приходит к выводу о наличии или отсутствии болезни, рассуждая следующим образом: маловероятно, чтобы при данных показателях у пациента отсутствовала болезнь.

Не будет преувеличением сказать, что рассуждения врача, ставящего диагноз, и статистика, проверяющего гипотезу, например, о наличии зависимости между переменными, имеют много общего, только в отличии о температуры, давления, веса и т.д. статистик имеет дело с понятиями: среднее, дисперсия, корреляция…

О современных системах статистического анализа на персональных компьютерах

Персональные компьютеры открывают статистические методы широкому кругу пользователей, на 90% процентов состоящему из непрофессиональных статистиков. Эти методы стали доступны не теоретически, а в высокоинтегрированных средах, где весь этап анализа от ввода данных, импорта их из других баз данных до построения автоотчетов и сохранения их в формате HTML полностью автоматизирован (вы легко проведете аналогию с организацией современной хирургической операции). Сейчас стало модным ругать компанию Майкрософт и обвинять Б.Гейтса во многих бедах, однако мало кто будет отрицать, что Майкрософт создал удобный стандарт для множества конкретных прикладных программ, в частности для анализа данных. Оказалось, что статистический анализ очень удобно проводить в среде Windows. Эта среда очень естественная для него.

Известно несколько систем, предназначенных для статистического исследования данных: SAS, SPSS, S-плюс, STATISTICA и др. Достоинство STATISTICA состоит в том, что она изначально основана на Windows-технологиях, а не переносилась с больших компьютеров. Можно сказать, что STATISTICA является Windows-средой, предназначенной для всестороннего проведения статистического анализа данных.

Имеются следующие 7 причин, по которым предпочтительнее выбирать STATISTICA среди других систем: во-первых, полная согласованность со стандартами Windows, легкая обучаемость (во многом связанная с реализацией Windows-технологий, отражающих интуитивные представления статистиков о среде анализа данных), минимальные требования к компьютеру, уникальная научная и презентационная графика, исчерпывающий набор классических и современных методов статистики, представленных в системе, полный перевод системы на русский язык и, что немаловажно, цена, которая, благодаря политике компании разработчика, доступна для широкого круга пользователей.

Несколько слов о системе STATISTICA и ее возможностях

Разработчиком STATISTICA является американская фирма StatSoft Inc., (США).

В системе реализован так называемый графически-ориентированный подход к анализу данных, смысл которого состоит в том, чтобы получать всестороннее визуальное представление данных на всех этапах статистической обработки и на основе этого выбирать следущий шаг анализа.

Система построена по модульном принципу и содержит все известные методы статистического анализа: от методов описательной статистики и построения таблиц сопряжености до продвинутых методов классификации и анализа цензурированных данных (анализа выживаемости). Данные могут быть легко экспортированы в популярные базы данных и импортированы из них с помощью нескольких щелчков мыши.

В STATISTICA имеется замечательное средство – вероятностный калькулятор, пользоваться которым так же просто, как обычным калькулятором, и который позволяетбыстро вычислять процентные точки различных распределений, а также рассчитывать критические значения различных статистик.

В STATISTICA имеются сотни типов графиков, предназначенных для визуализации исходных данных, разведочного анализа, графического вывода результатов и выбора последующих направлений анализа. Такие уникальные графики, как лица Чернова, диаграммы Вороного, матричные, позволяющие, например, “визуализировать” корреляционную матрицу, категоризованные графики, трассировочные и др., а также большой выбор двумерных и трехмерных научных и деловых графиков и диаграмм становится легко доступным для пользователя несколькими щелчками мыши.

Кроме стандартных типов графиков, в STATISTICA имеется большое количество специализированных статистических графиков: “ящиков с усами” с разнообразными опциями по выбору средней точки, граничных значений, подгонки, определения выбросов, различных гистограмм, графиков на нормальной вероятностной бумаге, графиков типа “вероятность-вероятность”, “квантиль-квантиль” и т.д. Графики могут автоматически изменяться при изменении связанного с ними файла данных. Особенно важно средство КИСТЬ для визуального анализа данных, описанию которого мы уделим отдельное внимание.

Встроенный в систему язык программирования STATISTICA BASIC позволяет пользователю расширять возможности системы, программировать собственные оригинальные методы.

Организация данных

Исходные данные в системе STATISTICA организованы в виде таблицы. Если вы имеете опыт работы с электронными таблицами (например, MS Excel), то вам совсем несложно освоиться с электронными таблицами STATISTICA. Табличная структура данных позволяет естественно отобразить большинство реальных данных, встречающихся в медицинских задачах.

Данные, встречающиеся в повседневной практике, бывают нескольких видов: категориальные данные (например, тип болезни или признак: болен-не болен), порядковые данные (например, самочувствие: плохое-удовлетворительное-хорошее), непрерывные данные (например, давление, температура). В реальном исследовании обычно присутствуют данные всех типов. Имеющийся в системе статистичесий советник (прообраз экспертной системы) поможет вам в выборе метода, подходящего для анализа и визуального представления ваших данных.

Электронная таблица STATISTICA позволяет естественно отобразить эти типы данных и анализировать их в диалоговом режиме.

Таблица исходных данных системы STATISTICA состоит из строк и столбцов.

В отличие от обычных электронных таблиц, в которых строки и столбцы равноправны, в STATISTICA они имеют разные смысловые значения. Столбцы таблицы STATISTICA называются Переменные, а строки - Наблюдения. В качестве переменных обычно выступают исследуемые величины, а наблюдения - это значения, которые принимают переменные и которые измеряются в процессе наблюдения.

Например, наблюдения – это больные, переменные – пол, возраст, дата поступления в больницу, дата диагноза, дата операции, дата выписки и т.д. Вы можете представлять такую таблицу как страницу из записной книжки, где строки – это имена больных, столбцы - характеристики, переменные, описывающие течение болезни. В такой таблице может быть записана история болезни отдельного пациента, назначения лекарств, моменты появления отдельных симптомов.

Переменные в таблице STATISTICA могут принимать как численные, так и текстовые значения, что, конечно, очень удобно для повседневной практики.

Кроме значений переменных таблица может содержать дополнительную информацию (заголовок, комментарии об источнике данных и т.д.).

В системе STATISTICA для удобной работы с переменными, принимающими текстовые значения, реализован так называемый “двойной способ записи”, согласно которому каждому текстовому значению переменной ставится в соответствие некоторое число. Таким образом, устанавливается соответствие вида Число=Текстовое значение. Оно может быть установлено как автоматически (самой системой STATISTICA при вводе данных), так и определено пользователем. При работе с данными всегда можно переключиться между текстовой и числовой формой просмотра исходных данных.

Наличие “двойной записи” позволяет удобно вводить текстовые значения, выполнять необходимые преобразования и, кроме того, выполнять любой статистический анализ над текстовыми переменными так, как если бы они принимали числовые значения.

В ближайшем будущем фирма StatSoft планирует выпустить ряд новых программных продуктов. Это в первую очередь средства разработки, ориентированные на пользователей, которые разрабатывают собственные процедуры и методы обработки данных. Они будут включать в себя объектно-ориентированные средства для макро программирования графических, математических и статистических процедур.

Типичные задачи медицинской статистики

Разбираемые нами примеры сгруппированы по следующим разделам:

  • описательные статистики: среднее, медиана, мода, парные корреляции Пирсона и др. статистики;
  • визуальный анализ данных: диаграмма рассеяния, график ящики и усы, визуализация корреляционных матриц и др.;
  • группировка, построение и анализ таблиц – оценивание связей между категориальными переменными, например, между переменной ПРИВИВКА и переменной БОЛЕЗНЬ или между переменными КУРЕНИЕ, ВОЗРАСТ, БОЛЕЗНЬ;
  • сравнение средних в разных группах (классический t-критерий Стьюдента и дисперсионный анализ, ограничения применения);
  • непараметрические методы статистики, например, ранговые корреляции, сравнение двух препаратов с помощью критерия знаковых рангов Вилкоксона и др.;
  • оценивание зависимостей между несколькими переменными – построение регрессии;
  • классификация данных – отнесение объекта, например, пациента, к определенной группе - дискриминантный анализ, деревья классификации и др.
  • анализ выживаемости – анализ длительностей жизни, оценки Каплана-Мейера функции выживания, сравнение функций выживания в различных группах, например, этими методами вы можете проанализировать время жизни пломб, выполненных из различных материалов и поставленных по разным технологиям.

Итак, вот наш совет – не откладывайте эту работу, не заставляйте данные пылиться на полках, включайте компьютер и смело анализируйте их! Для этого в настоящее время имеются все возможности, и наши советы, надеемся, помогут вам.

О проекте

Литература

Обмен опытом

Легкий коктейль

Реклама

Письма на сайт

 
  Наверх
На главную страницу