8 chyb které děláte při A/B testování

Potřebujete vědět, jestli nový design zvýší prodeje? Vyplatí se Vám newsletter? Jak velká ikona přiměje lidi kliknou? Odpověď získáte díky A/B testování – sto let starého nástroje, který je i přesto nejznámější metodou sběru dat v marketingu. Ne vždy ho ale používáme správně. Nejčastější omyly se dozvíte v dnešním článku.

O co při A/B testování jde

A/B testování pomáhá se zdánlivě jednoduchou otázkou: Co je lepší, A nebo B?

Máte dvě obálky knížky a nevíte která je lépe prodejná. Dvě verze tlačítka subscribe a hledáte, které má větší míru prokliku. Dvě verze reklamy a zjišťujete, která povede k větší míře konverzí. Google díky A/B metodě postupně otestoval 41 druhů modré, než se rozhodl, jak obarví svoje internetové linky.

V současném online marketingu se A/B testování využívá všude – od web designu, online nabídek, po slogany a popisy produktů.

Oblíbenost metody je ale její hlavní slabinou. Často ji v praxi dělají lidé bez formálního statistického vzdělání. Při kvalitním zaučení to nemusí vadit. Statistika ale není jednoduchá a svádí k omylům. Proto jsme pro vás shrnuli ty nejčastější. Přepokládáme, že už v problematice máte základní znalosti.

1) Netestujete dostatečně dlouho

Hlavním cílem A/B testování je odejít se statisticky signifikantním výsledkem. Když v praxi konečně klesne p hodnota pod magickou hranici 0,05, mnoho laiků chce testování ukončit. Statistické signifikance jsme dosáhli, tak proč testovat dál a mařit čas a peníze?

Tento přístup je chybný, protože riskujete, že vaše měření nebude spolehlivé. Délka testování se kalkuluje dopředu a v potaz bere mnohem více faktorů, jako:

Statistickou sílu testu
Efekt dne v týdnu
Sezónnost atp.

Pokud testování ukončíme předčasně, existuje vysoká pravděpodobnost, že i statisticky signifikantní výsledky jsou chybné. Závěry měření také nebudou replikovatelné. Vždy měřte tak dlouho jak jste si naplánovali!

2) Vás test není dostatečně silný

Často se stane, že dostanete statisticky nesignifikantní výsledek. To samotné ale ještě není důvodem hypotézu zamítnout. Je možné, že pouze nemáte dostatečně velkou sílu testu.

Síla testu vyjadřuje pravděpodobnost, že existující rozdíl mezi alternativami dokážete detekovat/prohlásit za statisticky významný. V praxi chceme, aby byla co největší, protože pokud je nízká, děláme výzkum zbytečně. Obvykle toužíme po síle 0,8 a výše.

Sílu testu ovlivňuje skutečná velikost efektu (čím větší, tím větší síla, protože je větší pravděpodobnost, že efekt detekujeme) a počet participantů.

V praxi zvládnete spočítat kolik lidí potřebujete, aby byl test silný tak a tak. Někdy se ale může stát, že během experimentu tolik lidí nezískáte. Například jsme chtěli tisíc, na stránce jich ale zrovna bylo jen 900. Experiment se v tomto případě vyplatí opakovat, i pokud vyšel statisticky nesignifikantní. Je totiž dost možné, že jste měli prostě jen smůlu.

3) Nesplňujete metodologické podmínky experimentu

A/B testování je druhem řízeného experimentu. Zkoumá kauzální vztah mezi proměnnými (barvou tlačítka a mírou konverzí). Jednou nezávislou proměnnou manipulujete (teď půjde zelené tlačítko, teď bílé…) a zkoumáte, jak se v reakci na to mění hodnoty druhé závisle proměnné (míra konverzí, prokliku, cokoliv aktuálně měříte). Z naměřených dat můžete získat kauzální tvrzení (A způsobuje více konverzí než B).

Jako každý experiment, má i A/B testování přísné metodologické podmínky:

Účastníky studie vyberte náhodně. Náhodnost znamená, že nelze určit kdo bude vybrán a výběr jednoho nijak nesouvisí s výběrem druhého.
Účastníky studie vyberte z vhodné populace. Ta většinou tvoří všechny návštěvníky webu, někdy je ale lepší zaměřit se na jejich menší část (viz metoda blokování).
Rozdělte účastníky náhodně do skupin. Experimentální skupina zažívá zkoumaný jev (dostane bílé tlačítko). Kontrolní skupina ne (dostane zelené tlačítko).
Sežeňte dostatečný počet participantů pro dosažení statistické signifikance.
Dopředu stanovte podobu experimentu, měření a hypotézu.
Měření musí být replikovatelné. Pokud váš experiment udělá někdo jiný, musí dostat statisticky podobné výsledky.

Pokud tyto a další podmínky nesplníte, mění se podstatně váha závěrů.

Například, pokud participanty nevyberete náhodně, získáte kvazi experiment. Ten už nemůže vést ke kauzálnímu tvrzení (zelená barva způsobuje více konverzí). Místo toho budete jen schopni konstatovat, že zelená barva tlačítka a zvýšená míra prodejů se spolu vyskytují víc, než je běžné (korelace).

4) Špatně kontrolujete prostředí a účastníky studie

Vědecké experimenty probíhají v přísně kontrolovaném prostředí laboratoře. Jedině tak dokážete ohlídat, že vaše měření neovlivní nepředvídané faktory. S experimenty na dálku to ale bývá těžší.

Příklad: Malé tlačítko vedlo k méně konverzím než velké.

Co když je ale ve vašem vzorku více mobilních uživatelů, kteří obecně potřebují větší ikony? Co když lidé na počítači klikají na věci více, než když jsme na telefonu? A měříte vůbec správnou skupinu? Co když v tuhle hodinu máte více starších návštěvníků, protože ti mladší jsou ve škole? Nebo jde jednoduše o efekt novosti?

Obecně se těmto nezapočítaným faktorům říká confoundery. Často vznikají chybou v náboru participantů a při designu měření. V experimentech jsou vaším největším nepřítelem, protože výsledky nepředvídatelně zkreslují (jsou zdrojem nevysvětlené variability).

Obecnou prevencí této chyby je dodržovat všechny podmínky experimentu a měřit co nejjednodušeji.

S kontrolou správného samplingu pomáhá A/A testování. Jde vlastně o A/B testování naruby: Dvě náhodně vybrané skupiny zažijí stejnou věc (zelené tlačítko). Výsledky by měly být statisticky podobné. Pokud nejsou, je něco špatně.

5) Špatně interpretujete výsledky

Typický výsledek A/B testování vypadá následovně:

Control: 15% (+/- 2.1%) Variation 18% (+/- 2.3%).

Statisticky to znamená, že 18 % uživatelů kliklo na nově zavedený prvek, s mezní chybou 2,3 % (tak velká chyba odhadu, že větší už je jen málo pravděpodobná).

Tento výsledek je ale pouhým odhadem skutečné hodnoty statistiky v populaci. Je proto chyba říkat, že skutečná míra konverzí leží mezi 15,7 % a 20,3 %. Statisticky správně můžete říct pouze to, že pokud byste měření donekonečna opakovali, v 95 % případů bude vámi naměřený interval obsahovat skutečnou míru konverzí. Jinými slovy, v 5 % případů bude skutečná míra konverzí mimo tento interval a skutečný efekt je nižší/vyšší. Konkrétní podíl záleží na zvolené hladině spolehlivosti.

Tento sofistikovanější pohled je důležitý, protože díky němu činíte lepší rozhodnutí. 3% uplift bude dobrým důvodem pro ozkoušení nové alternativy natvrdo. V jiných případech se to ale vyplatit nemusí.

6) Používáte příliš metrik zároveň

Nové testovací softwary ohromují širokou nabídkou dostupných metrik. Máme to rádi (čím víc toho vím, tím víc dokážu), v praxi je to ale dost rizikové.

Velké množství různorodých dat zvyšuje počet náhodných fluktuací a tím i riziko, že v nich objevíte falešné korelace. Čím více vidíme, tím více se naše myšlení překlápí k přístupu: co tu vypadá zajímavě? A to jednoduše není dobře. V naprosté většině případů se budete mýlit.

U správně provedeného A/B testování vždy metriky stanovte dopředu a vyberte jich jen pár.

7) Testujete pouze jednou

Průkazný experiment musí být replikovatelný. I přesto se spousta firem spokojí s prvním výsledkem a měření neopakuje.

A to je chyba. I se statisticky signifikantními závěry stále existuje riziko chyby prvního stupně (falešných pozitiv). Pokud test neprovedete jednou za čas znovu, nemůžete nikdy uspokojivě vyloučit, že se ve skutečnosti mýlíte!

8) Testujete moc malé změny

Produktoví manažeři často věří v přístup zavádění malých kontinuálních změn, které nakonec vyústí ve velký úspěch. Samo o sobě to není špatná filozofie. U A/B testování vás ale rychle svede na scestí.

Nevýhodou zkoumání malých efektů je fakt, že značně snižují sílu testu (pokud to nevyvážíte počtem participantů, což bývá nákladné) a tím zvyšují šanci, že se v závěrech měření zmýlíte.

Rizikem malých změn je i dosažení lokálního maxima. Pokud pomalu zlepšujete spoustu detailů, pravděpodobně brzo začnete stagnovat a bránit sami sobě v dosažní opravdu skvělého designu.

Jen velké změny dokáží přinést velký úspěch.

Závěr

Zkušený statistik by k nám popsaným chybám přidal ještě tucet dalších. V praxi ale k jeho službám nemusíte mít přístup a A/B testování zůstane na laikovi s rychlokurzem.

V tomto případě je dobré mít představu, co všechno vám nejspíš uniká. A pokud je snad složitost některých konceptů nad vaše síly, berte to jako důkaz toho, že založit si datové oddělení s proškolenými odborníky se vyplatí i začínajícím firmám.