Памятка по работе с БД для статистической обработки данных

Я таки сделала это. Там далеко не всё, наверное, так что если есть ещё какие важные моменты, которые я успустила, пишите!!!!!!!! Данные: памятка Что в теории? Часть исследований в Смольном построена на статистической обработке данных, собранных исследователем. При этом курсы по методам редко усваиваются кем-то до такой степени, чтобы необходимость работы с БД не вызывала ужас. Обычно, в качестве консультационного материала отсылают к разного рода учебникам или мануалам, которые расписывают каждый этап очень подробно и красочно, так что читать это впопыхах не получается. Есть сокращённые версии, и лучшая, на мой взгляд: http://statsoft.ru/home/textbook/modules/stbasic.html. Если вы пытаетесь сэкономить время и посчитать всё быстро, то ниже общий алгоритм, он же чек-лист. Вся инфа далее — это из собственной практики с SPSS (22 версия на торрентах, если вдруг вы ещё не знали, может, даже что-то посвежее скинули), так что чего-то может не хватать! Как на практике? 1. Перевести исследовательскую гипотезу в статистическую. Определить, что ищем (корреляцию или причинно-следственную связь) и на чём смотрим (тип исследуемых переменных). Типы в SPSS: “номинальная”, “порядковая”, “шкала”. 2. Подготовить данные. а) Проверить, есть ли пропущенные значения в выбранных переменных. (быстрее всего через описательные статистики —> частотные таблицы) б) Проверить, что кодировка данных одинаковая для всех случаев (например, для всех 1 — да, 0 — нет). Здесь уже только вручную, хотя если есть провисания, то это будет видно в выбросах. в) Убрать выбросы (аномальные случаи) для каждой переменной, !!!если ваше исследовательское поле предполагает подобное!!! Обычно это +-2 стандартных отклонения. В таблице для переменной из описательных статистик берём стандартное отклонение и считаем верхнюю и нижнюю границы (с обычным калькулятором). Затем Данные —> отобрать наблюдения —> если … условие —> ниж.гран. < переменная < верх.гран. г) Проверить, что тип переменной отображается правильно в “представление переменных” TIP for type: SPSS иногда лагает и определяет континуальные переменные как “номинальные”. Тогда нужно посмотреть форматирование: если “.” в качестве разделителя целой и десятичной части, то заменить на “,”. 3. Подобрать соответствующий анализ. В зависимости от цели исследования и характеристик переменных подбираем соответствующий анализ. Кратко о том, что куда в зависимости от формы переменной здесь (стр. 10-11): https://www.sgu.ru/sites/default/files/textdocsfiles/2014/02/19/titkova.pdf. 4. Организовать данные сообразно анализу (если это необходимо) Агрегация и реструктуризация, да, они самые. Возможно, это чисто когнитивная штука, но если кратко: а) Если вас попросили “агрегировать”, значит, скорее всего, вас просят усреднить по какой-то переменной (участник или стимул, например). Искать это нужно в Данные —> агрегировать. Если нужен другой критерий сбора (скажем медиана, то это в “Функции” под “Итоги для переменных”). б) Если у вас повторные переменные, то после агрегации вам понадобится реструктурировать данные (“Данные —> реструктурировать”). Здесь вам нужно будет “переменные в наблюдения” —> переменная, по которой будет идентифицироваться наблюдение (пример, участник) в “для идентификации”, а для разных видов “повтора” (пример, условие) в “индексные”. 5. Проверить выполняются ли условия, необходимые для анализа Для хи-квадрата доп анализов не требуется. Кратко, но чётко об условиях использования здесь: https://lit-review.ru/biostatistika/kriterijj-khi-kvadrat-pirsona/ Для т-теста (он же t-критерий Стьюдента) и АНОВА: нормальность распределения. Для этого нужно нажать описательные статистики —> частоты —> диаграммы —> гистограмма + показать… нормальную кривую. Если не выполняется для т-теста, использовать непараметрические критерии. 6. Провести соответствующий анализ и сохранить результаты. Проводим анализ в соответствии с особенностями, выделленными на прошлых этапах. Помним, что для записи каждого результата статистического анализа помимо силы эффекта нам понадобятся степени свободы (и у АНОВА их две!). Таблички исходники сохраняем отдельно, можно потом редачить в самом SPSS (двойное нажатие на таблицу) В SPSS же строим графики. В когнитиве особо ценят, если отображается доверительный интервал. Общепринятый формат представления таких данных — “ящик с усами”. Я пробовала джасп. Возможности как-то впихнуть ноль там нет, к сожалению, а без этого никак. Поэтому придётся через SPSS. Чтобы сделать годный график для повторных, надо взять данные в состояние, где данным по одной переменной собраны в одном столбце. А дальше графика —> мастер диаграмм —> ящик с усами —> по вертикали континуальная переменная, по горизонтали условие. Ещё можно через excel попробовать рассчитать все критерии. Годный тьюториал про т-тест и АНОВА даже с поправкой Боферрони: https://www.youtube.com/watch?v=-ZW2uSNmtTo. Hope, this will be useful.

Теги: статистика БД SPSS

Теги других блогов: статистика БД SPSS

Оставить комментарийCancel reply