Сожгите свою аналитику. Она лжет вам.

Сожгите свою аналитику. Она лжет вам.

Колонка вышла на сайте "Секрет фирмы": http://secretmag.ru/article/2017/03/28/artyom-kramin-kak-dispersiya-vliyaet-na-biznes/

Как правильно тестировать гипотезы и не только

Я ежедневно читаю статьи по продвижению в интернете, маркетинговым акциям, а/б тестированию, и регулярно натыкаюсь на полное непонимание авторами этих исследований влияния на результаты очень важной детали – «дисперсии». Между тем эта деталь может полностью разрушить логику исследования и даже показать результаты прямо противоположные тому, что случилось на самом деле.

Потратьте пятнадцать минут, чтобы разобраться, почему подавляющее большинство аналитических отчетов, которые лично вы используете для принятия управленческих решений, годятся максимум для растопки камина.

Чтобы всерьез поговорить о дисперсии, придется дать одно определение. Это будет единственный сложный абзац в статье, обещаю. Итак,

«Дисперсия – это мера разброса случайной величины вокруг математического ожидания».

Если приводить пример из повседневности, то все мы с детства помним, что, подбрасывая монетку, получим «орел» или «решку» в каждом отдельном испытании с вероятностью в 50%. Каждый так же понимает, что при длительной серии в 100 подбрасываний вряд ли получится 50 раз «орел» и 50 раз «решка». Результат каждый раз будет находиться где-то около этого ожидаемого значения, но будет отличаться. Величина этого разброса и определяется дисперсией.

Но то, что интуитивно понятно с монеткой, почему-то перестает адекватно восприниматься, когда речь идет о других процессах, где случайность так же присутствует.

Давайте опишу сейчас типичную и самую, пожалуй, частую ошибку такого типа, а потом попробуем применить ее на вашу деятельность.

Итак, представьте себе предпринимателя Ивана, который дает рекламу в Google с целью привлечь покупателей в интернет-магазин. Вот объявление настроено, начало работать. Один клик на рекламное объявление стоит для Ивана в среднем от 1 до 2 долларов, а каждая сделка принесет 150 долларов.

10 показов. 30. 100 показов. Продаж пока нет. 300 показов. 500 показов. К этому моменту две продажи. Потрачено 750 долларов.

Реклама вырубается в гневе, как неэффективная. Вся история начинается сначала.

Запускается другое объявление.

500 показов. Пять продаж. Делается вывод – хм, эта кампания в два с половиной раза эффективнее предыдущей. Зальем туда денег побольше.

100 показов. 500 показов. 1000 показов. 4 продажи. Результат внезапно упал до результата прошлой кампании. Черт, оно перестало работать!

Где тут логическая ошибка?

Иван принял решение об эффективности рекламы на основе слишком малой выборки. И дисперсия, которая присутствует в этом процессе, обманула его.

Чтобы не быть голословным, я решил на деле доказать, насколько сильно влияние этого фактора на результат. Постарался сделать это максимально наглядно.

Вот пример из нашего бизнеса:

Наши партнеры в США делают рекламу своих квестов в Google. Цена клика для них получается около 30 центов, а средняя продажа приносит 25 долларов чистой прибыли. Конверсия нашего сайта из посетителя в покупателя около 3%. Т.е. каждый гость сайта с вероятностью в 3% становится покупателем. Мы покупаем трафик в 100 человек и ведем их на сайт.

Как выглядит график такого процесса? Как будут выглядеть наши конкретные прибыли и убытки?

Я не стал откладывать все это в долгий ящик и с помощью экселя визуализировал результаты такого эксперимента. Я провел 4 таких эксперимента и вот такие у меня получились графики:

Еще раз обращаю ваше внимание – это один и тот же процесс. Все параметры у него одинаковые. Но разброс случайной величины превращает наш итоговый результат то в 150 долларов (верхний правый), то в 20 долларов. Разница больше чем в 7 (!) раз.

В чем беда? Что не так? Проблема в системе? Может быть 3% конверсии это мало?

Сразу предупрежу, теоретически тут все нормально. Построенная нами система имеет положительное матожидание (не буду тут объяснять, что это такое и почему это так, просто примите на веру).

Проблема в том, что мы использовали слишком маленькую выборку. На сто испытаний влияние дисперсии столь велико, что мы можем получить катастрофически разные результаты.

Давайте попробуем увеличить дистанцию?

Итак, еще 4 эксперимента, на этот раз по 1000 испытаний в каждом:
 

Вроде бы, все уже не так плохо. Разница между лучшим и худшим результатом всего в два раза.

Ну, давайте теперь пойдем уже до предела и проэксперементируем на 10.000 испытаний:
 

Ну, наконец-то. За четыре эксперимента мы получили разброс всего в 10%. 10.000 испытаний. Один и тот же случайный процесс. И разброс 10%! Для каких-то бизнесов это сравнимо с целевой рентабельностью.

По секрету скажу, чтобы результаты совсем уж сходились нужно примерно 100.000 испытаний.

Теперь переходим к выводам:

  • Когда вы оцениваете результат некоторого процесса, с низкой вероятностью успеха, например, изменения дизайна на сайте с конверсией 3%, необходимо использовать достаточно БОЛЬШУЮ выборку испытаний, чтобы доверять итоговому результату. Как видно из примеров выше, выборка должна быть в районе 100.000 испытаний.

  • Если вы пытаетесь понять, как различный текст или картинка на вашем лендинге влияют на продажи, необходимо провести достаточное количество испытаний. Оценивать эффективность изменений на выборке в 1000 посетителей – это изучать белый шум.

  • Важно, что это правило работает так же и вне интернета. К примеру, если вы раздаете в городе флаеры или клеите афиши, их надо раздавать и клеить очень много. Я подозреваю, что конверсия у флаера в продажи будет куда меньше 3%, а потому количество в 10- 30 тысяч штук, минимальный порог при котором можно оценить эффективность канала. Все остальное – случайность. ДИСПЕРСИЯ.

  • Чем выше вероятность наступление нужного вам результата, тем меньше нужна выборка, чтобы оценить результат. К примеру, если вы тестируете на сайте кнопки двух цветов: синюю и красную, и вторая дает конверсию на 40% больше, выборки в 10.000 испытаний будет, я думаю, достаточно.

Теперь вспомните все тысячи исследований и примеров, которые вы видели в интернете, где данное правило не выполняется. И смело отправляйте их в мусорную корзину. Глядишь, освободится место для чего-то реально полезного.

В приведенных выше примерах общий смысл можно свести к правилу «Если вы получили на выходе слишком хороший результат, не торопитесь покупать Феррари. Дождитесь, пока экспериментальная выборка станет достаточно большой». Это касается и рекламных кампаний в директе, и смена цвета кнопки с синего на красный.

Давайте теперь расскажу о случае, когда мы получили обратный опыт. Ужасный изначальный результат за счет терпения обернулся отличным профитом.

В одном из наших американских филиалов мы проводили промо-акцию, во время которой, флаеры с приглашением в наши квесты раздавали туристам в местных ресторанах.

Мы получили неплохую обратную связь, люди звонили и заходили на сайт, по специальной ссылке, указанной на флаере, но не бронировали.

В этом месте опыт можно было бы свернуть, однако я точно знал, что подобная схема успешно работает в похожих городах на похожих условиях. Пришлось настоять на продолжении акции, и более того, усилить ее.

В результате, через некоторое время конверсия вышла на приемлемый уровень, и затраты оправдали себя.

Признаюсь честно, в данном случае я опирался на уже аналогичный существующий опыт. Если говорить математическим языком, я знал матожидание для данного процесса в долгосрочном периоде, а потому неудача на коротком отрезке не смутила меня.