Как посчитать достоверность различий p
Перейти к содержимому

Как посчитать достоверность различий p

  • автор:

4.2.2. Оценка достоверности отличий.

Одной из наиболее часто встречающихся задач при обработке данных является оценка достоверности отличий между двумя или более рядами значений. В математической статистике существует ряд способов для этого. Для использования большинства мощных критериев требуются дополнительные вычисления, обычно весьма развернутые.

Обсуждая обработку данных, я ориентируюсь на компьютерный ее вариант, который стал в настоящее время наиболее распространенным. Во многих прикладных статистических программах есть процедуры оценки различий между параметрами одной выборки или разных выборок. При полностью компьютеризованной обработке материала нетрудно в нужный момент использовать соответствующую процедуру и оценить интересующие различия. Однако, большинство психологов не имеют свободного и неограниченного доступа для работы с компьютером — либо недостаточен парк ЭВМ, либо психолог как пользователь ЭВМ неподготовлен и может проводить обработку только с помощью квалифицированного персонала. И в том, и в другом случае типичный сеанс работы с компьютером заканчивается тем, что психолог получает принтерные распечатки, содержащие подсчитанные первичные статистики, результаты корреляционного анализа, иногда и факторного (компонентного).

Основной анализ осуществляется позже, не в диалоге с ЭВМ. Исходя из этих рассуждений, будем считать, что перед психологом часто встает задача оценки достоверности различий, используя ранее вычисленные статистики. При сравнении средних значений признака говорят о достоверности (недостоверности) отличий средних арифметических, а при сравнении изменчивости показателей — о достоверности (недостоверности) отклонений сигм (дисперсий) и коэффициентов вариации.

Достоверность различий средних арифметических можно оценить по достаточно эффективному параметрическому критерию Стьюдента. Он вычисляется по формуле:

M1 и M2 — значения сравниваемых средних арифметических,

m1 и m2 — соответствующие величины статистических ошибок средних арифметических.

Значения критерия Стьюдента t для трех уровней значимости (p) приведены в Приложении 2. Число степеней свободы определяется по формуле:

n1 и n2 — объемы сравниваемых выборок.

Решение о достоверности различий принимается в том случае, если вычисленная величина td превышает табличное значение для данного числа степеней свободы. В тексте публикации или научною отчета указывают наиболее высокий уровень значимости из трех: 0.05, 0.01 или 0.001.

для d = 13 + 16 — 2 = 27 вычисленная величина превышает табличную для вероятности Р = 0.01. Следовательно, различия между средними достоверны на уровне 0.01.

Приведенная формула проста, используя ее, можно с помощью простейшего бытового калькулятора с памятью вычислить t критерий без промежуточных записей.

Следует помнить, что при любом численном значении критерия достоверности различия между средними этот показатель оценивает не степень выявленного различия (она оценивается по самой разности между средними), а лишь статистическую достоверность его, т.е. право распространять полученный на основе сопоставления выборок вывод о наличии разницы на все явление (весь процесс) в центом. Низкий вычисленный критерия различия не может служить доказательством отсутствия различия между двумя признаками (явлениями), ибо его значимость (степень вероятности) зависит не только от величины средних, но и от численности сравниваемых выборок. Он говорит не об отсутствии различия, а о том, что при данной величине выборок оно статистически недостоверно: слишком велик шанс, что разница при данных условиях определения случайна, слишком мала вероятность ее достоверности.

Степень выявленного различия желательно оценивать, опираясь на содержательные критерии. Вместе с тем, для психологического исследования весьма характерно наличие множества показателей, которые, по существу, являются условными баллами, и валидность оценивания с помощью них еще предстоит доказать. Чтобы избежать большей произвольности, в таких случаях также приходится опираться на статистические параметры.

Пожалуй, наиболее распространено для этого использование сигмы. Разницу между двумя значениями в одну сигму и более можно считать достаточно выраженной. Если сигма подсчитана для ряда значений более 35, то достаточно выраженной можно рассматривать и разницу в 0,5 сигмы. Однако, для ответственных выводов о том, насколько велика разница между значениями, лучше использовать строгие критерии.

P-значение

P-значение, или значение вероятности, это статистическая величина, выраженная числом от 0 до 1, которая используется для проверки гипотезы. В клинических испытаниях данная величина применяется для определения, является ли полученный в клинических испытаниях результат случайным.

До начала сбора данных необходимо определить уровень значимости, который обычно равен 5 % (или 0,05), хотя в зависимости от исследования может быть выбран и другой показатель.

Статистически значимым (и позволяющим отвергнуть нулевую гипотезу)при этом считается результат, р-значение которого равно уровню значимости или меньше его. Это, как правило, обозначается следующим образом: p ≤ 0,05.

При подсчете p-значения вначале предполагается, что на самом деле значительной разницы между двумя исследуемыми режимами лечения, т.е. новым и стандартным лечением, не существует (нулевая гипотеза). Затем определяется возможность (вероятность) случайности наблюдаемого различия при условии верности нашего предположения (т.е. при условии отсутствия объективных различий). Это и есть p-значение.

Таким образом, p-значение — это вероятность получить результаты, схожие по значимости с наблюдаемыми в исследовании, при реальном отсутствии различий между вариантами лечения. При небольшом p-значении маловероятна случайность результатов, что дает основание отвергнуть предположение об отсутствии различий между двумя режимами лечения (отвергнуть нулевую гипотезу). При большом p-значении наблюдаемая разница может быть результатом случайности, и предположение об отсутствии различий между двумя режимами лечения не может быть отвергнуто.

Связанные термины:

  • Термин: Уровень значимости
  • Термин: Нулевая гипотеза
  • Термин: Вероятность
  • Термин: Статистика
  • Термин: P-значение

Взаимосвязь понятий «уровень значимости», достоверность и ошибка первого рода

При работе со статистическим отчетом, научной статьей или диссертацией Вы постоянно сталкиваетесь таким термином, как уровень значимости или альфа (ошибка первого рода), чаще всего этот уровень задается относительно 5% или вероятности р=о,05. Решение о достоверности различий или «статистически значимых различиях» принимается относительно этого порогового значения. В данной статье мы предлагаем читателю разобраться в том, почему так важен этот уровень и что он значит в практическом смысле.

Определение (словарь Дж. М. Ласта):

ОШИБКА ТИПА I (ERROR TYPE I; син. alpha-error — ошибка альфа)

ошибочное отклонение нулевой гипотезы, т.е. утверждение о том, что различия существуют, тогда как их нет.

Немного о смысле уровня значимости и достовернности различий

Для понимания темы статистических ошибок мы перейдем к простейшей матрице соотношения статистики (что она нам говорит по результатам статистических тестов) и реальности. Так вот, предположим, что статистика нам говорит о существовании связей, о существовании различий. В реальности же они также существуют, тогда мы считаем этот результат правильным положительным или truth positive (ТР). Например, статистика нам говорит об отсутствии связей, об отсутствии различий, а в реальности же они действительно существуют. Такая ситуация называется ложноотрицательной или false-negative (FN). Соответственно существуют ситуации, когда статистика нам говорит о существовании каких-то определенных взаимосвязей или о существовании различий, которые в реальности не существуют. Тогда это называется ложноположительной или false-positive (FP). И последний случай касается отсутствия по данным статистических тестов того, чего в действительности не существует, различий в действительности нет. И эта ситуация именуется как truth negative (TN) или ложноотрицательный результат.

Рисунок 1. Матрица соотношения реальность-результаты статистического теста. TN (true negative) — верноотрицательный, FN (false negative) — ложноотрицательный, FP (false positive) — ложноположительный, TP (true positive) — верно позитивный.

Так вот, как видно из этой матрицы, у нас существуют 2 ситуации, в которых мы можем ошибаться: это false-positive и truth negative. Это как раз два типа ошибок, о которых я говорил в начале этого блока: о ложноотрицательной ошибке и ложноположительной. Что на самом деле это значит?

Что в какой-то ситуации мы можем пересмотреть, а в какой-то – недосмотреть.

Пересмотреть, то есть найти то, чего в действительности нет, это является false-positive – это ошибка первого рода.

Или недосмотреть, то есть упустить то, что в действительности существует в реальности, но по данным статистических тестов мы чего-то не находим – это ложноотрицательный результат или ошибка второго рода.

Давайте нанесем те термины, которые, возможно, вы уже слышали – «уровень достоверности», «достоверные различия». Что это за слово такое «достоверность»? Оно относится как раз к ошибке первого рода и обозначается буквой α. Вы наверняка знаете обозначение уровня в р=0,05. Уровень достоверности в 0,05 как раз является критическим значением для результатов большинства статистических тестов ( 5 %). Мы делаем вывод относительно этих 5 %. Что в практическом смысле это значит? Что в 95 % мы находим различия, которые действительно существуют, и в 5 % даем себе возможность переобнаружить то, чего в действительности не существует в реальности.

Что касается ошибки второго рода, то здесь это уже не 5 %. И мы задаем либо 20, либо 10 %, что-то в этом диапазоне, это ошибка в 0,2; в 0,1. И как раз мы подходим к следующему чрезвычайно важному статистическому понятию как «мощность исследования». Мощность исследования это: (1 – β), где β это ошибка второго рода. Если стандартный уровень ошибки это 0,2 и 0,1, то мы получаем, что мощность исследования в норме составляет 0,8 или 0,9 (чаще, конечно, 0,8).

NB! по уровню значимости

Уровень значимости, то есть ошибки первого рода составляет чаще всего относительно уровня в 5 %, это уровень той ошибки, при которой мы даем возможность себе «перенайти» то, что в действительности не существует. В ошибке второго рода мы даем себе определенный люфт до 20 % не обнаружить того, что в действительности существует, то есть когда статистические тесты нам скажут, что чего-то нет, а в реальности эти различия существуют.

Если Вам понравилась статья и оказалась полезной, Вы можете поделиться ею с коллегами и друзьями в социальных сетях:

Калькулятор достоверности

Не каждый результат эксперимента имеет статистический вес. Некоторые значения могут быть следствием ошибки. Калькулятор достоверности помогает понять, какие из них являются значимыми для статистики и могут служить основанием для формулировки выводов.

Что такое статистическая значимость

Это показатель вероятности того, что разница между контрольным и тестовым вариантами экспериментальных данных не является случайной или ошибочной.

Статистическая значимость

Простыми словами, в A/B-тестировании он показывает, с какой вероятностью тот факт, что улучшенная версия тестируемой страницы имеет более высокие оценки, не будет случайным.

Измерить надежность результатов позволяет оценка достоверности. Если она высокая, можно считать исход исследования значимым. Это помогает сделать заключение о том, что именно внесенные изменения, а не случайность, повлияли на улучшение показателей.

  • 95-100% – высокая статистическая значимость. Внесенные изменения стоит применить на сайте.
  • 90-95% – результат имеет невысокий процент значимости для статистики. Рекомендуется делать корректировки осторожно, а лучше повторить A/B-тестирование.
  • Менее 90% – данные не значимы для статистики. Не рекомендуется вносить такие изменения.

Этот параметр применяется не только в маркетинге, он также важен для бизнеса. Компании используют его, чтобы проводить эксперименты и отслеживать их влияние на коэффициент конверсии бизнеса. При проведении опросов помогает оценить, насколько ответам можно доверять.

Как провести A/B-тестирование

A/B тестирование чаще всего заключается в сравнении двух веб-страниц, которые отличаются лишь одним измененным элементом. При этом страница А остается прежней и служит контрольной. На странице В вносится небольшое изменение, она является тестовой.

Чтобы получить статистически значимый результат, необходимо тестировать страницу, на которой меняется только один элемент. Корректирование сразу нескольких элементов не позволит понять, какое именно изменение привело к улучшению показателей.

Коррекциям и тестированиям подлежат прежде всего те элементы, которые нужны для проявления активности пользователей и увеличения конверсии:

  • призывы к действию;
  • кнопки CTA;
  • заголовки;
  • рекламные тексты;
  • изображения;
  • описания товаров.

Изменение может предполагать не только полную замену элемента, но и коррекцию:

После того, как создана дублирующая исходную страница с каким-либо измененным элементом, запускают A/B-тест. При этом половина трафика направляется на контрольную страницу А, а вторая половина – на тестовую В. При этом посетители никогда не узнают, что вошли в фокус-группу и стали участниками маркетинговых исследований.

При получении статистически значимых результатов эксперимента лидером тестирования становится та версия, которая лучше сказывается на конверсии.

Существует несколько правил работы с A/B-тестами:

Правила работы с AB-тестами

  1. Правило возврата. Пересмотр ранее проведенных тестов хотя бы раз в полгода способствует возникновению новых идей и даже может заставить изменить подход к тестированию.
  2. Правило А/А-теста. Одновременное тестирование абсолютно идентичных веб-страниц при определенной выборке дает возможность увидеть, не рано ли приступать к А/Б-тестированию. Если показатели похожи, а стандартное отклонение значений не превышают 10%, пора переходить к реальному сплит-тесту.
  3. Правило общего тестирования. Тестировать можно не только сайты, но и другие маркетинговые инструменты: рассылки, всплывающие окна, опросы и даже определять самое удачное время получения письма пользователем.
  4. «No Peeking» Rule или правило «Не подглядывать». Просматривая промежуточные цифры до завершения теста, есть соблазн закончить его раньше времени. Данное правило звучит так: как положительный, так и отрицательный результат, полученный при малой выборке, с высокой вероятностью окажется случайным. Поэтому не стоит доверять данным, если они были получены до окончания эксперимента.
  5. Другие правила:
    • Проводите A/B-тест последовательно и не менее 7 дней;
    • Используйте калькуляторы только после того, как статистических данных станет достаточно для анализа;
    • Не меняйте параметры теста до его завершения, это приведет к их искажению.

Вместо многочисленных A/B-тестов можно подключить к рекламной кампании сквозную аналитику на основе коннекторов. Она покажет, какие корректировки положительно влияют на конверсию, а какие сливают бюджет.

С чем можно столкнуться при A/B-тестировании

Разберем основные трудности, ошибки и подводные камни, которые часто встречаются при проведении А/Б-тестов.

  • Тестирование нескольких элементов одновременно. Так бывает, когда нужно протестировать, например, письмо для email-рассылки с коротким и длинным текстом. При этом в длинном письме не только больше текста, но и другая его структура, формулировка предложений, добавлены визуальные элементы, которых нет в коротком письме. Тестирование в данном случае заведомо непоказательно.
  • Проблема подглядывания. Частично о ней мы уже упоминали выше. В данном случае проблема заключается в том, что p-value может как расти, так и опускаться ниже нужного уровня значимости в процессе тестирования. Эти колебания случайны, поэтому вывод о значимости для статистики рискует быть ошибочным, если делать его до завершения эксперимента.
  • Непостоянство данных. Параметры сайтов нестабильны, они могут меняться в зависимости от ряда факторов, поэтому и итоги A/B-тестирования тоже могут отличаться. Вот основные факторы влияния:
    • сезон или время года;
    • праздничные дни, период каникул, отпусков;
    • день недели;
    • появление в СМИ статей о компании;
    • изменения в рекламе;
    • изменения в SEO-продвижении;
    • распространяемое мнение о компании, слухи, отзывы.

    Чтобы сгладить последствия влияния внешних факторов, нужно взять за правило: регулярно проводить мониторинг корректировок и отслеживать закономерности, а также перепроверять то, что выдает А/В-тестирование.

    Как определить уровень значимости

    Чтобы в конце тестирования сделать правильные выводы, необходимо определить их уровень значимости (significance level). Он показывает, при каких условиях тот или иной вариант будет закономерным. Обычно достоверным считается показатель, полученный в пределах от 90 до 95%.

    Для проверки статистической значимости нужно:

    Для проверки статистической значимости нужно

    1. Провести эксперимент и собрать сведенья, чтобы сделать разные предположения.
    2. Сформулировать две гипотезы: нулевую и альтернативную. Нулевая гипотеза утверждает, что между сравниваемыми фактами нет связи, альтернативная – что связь существует.
    3. Если стоит задача доказать, что все факты идентичны, нужно рассчитать вероятность получения наблюдаемую или большую разницу между предположениями (p-value).
    4. Если p-value ниже порогового уровня, то нулевую гипотезу можно отвергнуть и утверждать о значительной разнице между сравниваемыми группами.
    5. Если p-value больше порога, то из двух гипотез исходная подтверждается, а альтернативная отвергается.

    Для расчета уровня значимости обычно используется калькулятор. Онлайн-сервис позволяет быстро выполнить расчет, не проводя сложных математических вычислений вручную.

    Пример расчета

    В конце A/B-теста двух страниц сайта были получены такие данные:

    • Вариант 1: 1500 новых посещений, из них конверсия – 3 человека;
    • Вариант 2: 1500 новых посетителей, из них конверсия – 12 человек.

    В калькулятор (calculator) вносим эти числа, чтобы узнать, являются ли они значимыми. При этом выбираем уровень достоверности 95% и смотрим отчет.

    Пример расчета статистической значимости

    Из вердикта видно, что рост конверсии на странице 2 с вероятностью 95% доказывает влияние внесенных правок на показатель и не является случайностью. Подобные примеры можно приводить бесконечно.

    Основные показатели

    • CR (conversion rate) – коэффициент конверсии. Показывает предполагаемое число конверсий на каждого посетителя в процентах. Рассчитывается по формуле: CR = (Конверсия / Трафик) × 100%
    • Uplift – повышение. Показывает относительный рост конверсии при сравнении двух экземпляров. Может принимать отрицательное значение, если эффективность исходной страницы выше, чем новой. Uplift = (CR Б / CR А) × 100%
    • P-value – вероятность получения случайных цифр. Для расчета этого показателя чаще всего используется онлайн-калькулятор.
    • Доля признака в генеральной совокупности, для которой определяется ошибка.
    • Ошибка выборки или размер доверительного интервала (confidence interval) – отклонение результатов, которые были получены в ходе исследования. Бывает систематическая и статическая.

    Статистические критерии, которые рассчитываются с применением калькуляторов

    Онлайн-калькуляторы позволяют рассчитывать множество статистических показателей, вот самые распространенные из них:

    • выбор статистического метода;
    • расчет относительных величин;
    • оценка значимости отличий между средними величинами по t-критерию Стьюдента;
    • оценка значимости изменений средних величин с помощью парного t-критерия Стьюдента;
    • анализ динамического ряда;
    • расчет демографических показателей;
    • прямой метод стандартизации;
    • определение относительного риска;
    • вычисление отношения шансов;
    • анализ четырехпольной таблицы;
    • расчет показателей вариационного ряда;
    • расчет критерия Манна-Уитни;
    • корреляционно-регрессионный анализ;
    • определение коэффициента корреляции Спирмена;
    • анализ произвольных сопряженных таблиц с помощью критерия хи-квадрат (х 2 ).

    Критерии оценки

    Критерий Стьюдента . Разработан для оценки различий между средними величинами двух распределенных по нормальному закону выборок. Благодаря широте применения может использоваться и для сравнения средних у связных и несвязных выборок, в т. ч. различающихся по величине.

    Критерий Стьюдента применяется при следующих условиях:

    • выборочные совокупности распределяются по нормальному закону;
    • измерение может проводиться в шкале отношений и интервалов.

    Автоматический расчет t-критерия осуществляется с помощью калькулятора. Для этого нужно:

    1. Определить тип выборочной совокупности: зависимые (связанные) или независимые (несвязанные).
    2. Ввести данные для первой и второй выборок, после чего запустить расчет.

    F-критерий Фишера . Применяется для проверки статистической значимости как отдельных коэффициентов уравнения регрессии, так и его целиком. Для расчета F-критерия в общем виде используется следующая формула:

    F = S 2 факт / S 2 ост, где:

    S 2 факт – факторная дисперсия;

    S 2 ост – остаточная дисперсия.

    Для полученного в ходе расчета значения F-критерия Фишера определяют статистическую значимость путем его сравнения с табличным (критическим) значением.

    Как пользоваться калькулятором

    Калькулятор статистической значимости позволяет выполнить вычисления в несколько шагов:

    Шаги вычисления статистической значимости

    1. Укажите данные выборки и количество конверсий для версии А.
    2. Введите цифры выборки и количества конверсий для версии В.
    3. Задайте достоверность, передвинув ползунок на отметку 95%.

    В калькуляторе варианты А и В – это просто сравниваемые гипотезы. Например, при А/В-тестировании это могут быть данные по исходной и измененной веб-страницам.

    Калькулятор автоматически определит результат по указанным данным и напишет, какой имеет более высокую достоверность.

    Как интерпретировать результаты

    Калькулятор способен выдавать три вариации ответов:

    • «победил вариант А» – означает, что итоги А-теста говорят о повышении целевых показателей после тестирования;
    • «победил вариант В» – это значит, что по итогам A/B-тестирования версия В показала улучшенные характеристики;
    • «между вариантами нет разницы» – полученные сведенья не являются статистически значимыми.

    Со статистической значимостью связаны следующие распространенные ошибки:

    1. Магия цифр – параметры являются доказательством того, что один вариант лучше другого.
      На самом деле А/Б-тест не позволяет доказать это, а отражает лишь тот факт, что в одной из версий целевые показатели оказываются более высокими.
    2. Вера в то, что одна версия превосходит другую.
      В действительности цифры демонстрируют исключительно вероятность того, что данные, полученные при A/B-тестировании, не случайны.
    3. Значимость мышления.
      Речь не идет о том, что пользователи предпочитают одну страницу другой. Оценивается влияние внесенных изменений на то, как ведут себя пользователей.

    Определение размера выборки

    Выборка – это количество респондентов, которые приняли участие в исследовании. В случае с А/Б-тестированием – посетили обе веб-страницы. Принято считать, что чем больше выборка, тем точнее результат.

    Расчет размера выборки

    Для расчета размера выборочной совокупности удобно пользоваться онлайн-калькулятором. Чтобы быстро посчитать это значение:

    1. Укажите базовую конверсию сайта.
    2. Задайте минимальный видимый эффект (предполагаемый прирост конверсии).
    3. Передвиньте ползунок на нужный уровень достоверности (рекомендуемое значение – 95%).
    4. Задайте статистическую мощность теста.
    5. Выберите нужный способ изменения – абсолютная или относительная величина.

    В качестве ответа калькулятор покажет расчетное число уникальных посетителей для каждой тестируемой версии.

    Часто задаваемые вопросы

    Это позволит определить, можно ли доверять цифрам, которые были получены в ходе проведения A/B-тестирования.

    Он оценивается с помощью модели расчет, основанной на общей посещаемости сайта. Если на ресурс приходит меньше 10 тыс. посетителей в месяц, конверсия должна быть более 25%. Если ежемесячное число посетителей достигает 100 тыс. человек, конверсия должна превышать 9%. При трафике до 1 млн пользователей достаточно иметь конверсию в пределах от 2 до 9%.

    Вот несколько советов по повышению статистической значимости A/B-тестов:

    • получите более согласованные величины с минимальными отклонениями;
    • увеличьте объем выборки и длительность тестирования;
    • обеспечьте рост конверсии при сравнении веб-страниц.

    Упрощенные калькуляторы применяются для облегчения и ускорения процесса вычисления. Мы предлагаем более расширенную версию для определения размера выборочной совокупности, которая нужна для получения статистически значимого итога эксперимента.

    Нашли ошибку в тексте? Выделите нужный фрагмент и нажмите ctrl + enter

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *