Por que meu Teste A/B está demorando? Guia definitivo

28 fev 2023 | Cultura Ágil

Por Fábio Martinelli Duarte*

Otimizar e melhorar a eficácia de um produto digital, auxiliando e facilitando a vida de seus usuários é uma preocupação recorrente e necessária em qualquer time. Uma excelente técnica a ser utilizada visando a esses objetivos é o chamado Teste A/B.

Aprender a selecionar grupos representativos para esse Teste também é fundamental. Neste artigo, você vai conferir mais detalhes sobre o que é o Teste A/B e ampliar seu entendimento sobre o mecanismo do Teste, comparação de grupos, avaliações, análise de estatísticas, conclusões e muito mais.

 

Só para dar uma relembrada: O que é um Teste A/B?
Teste A/B: Comparar 2 grupos parece moleza, qual é a complicação?
Teste A/B e os efeitos do sorteio
Entendendo o mecanismo do Teste A/B
Não existe resultado parcial de Teste A/B
O que influencia o tempo para os grupos serem comparáveis no Teste A/B?
De onde vem a diferença entre A e B no Teste A/B: os “convencíveis”
Conclusão: O que fazer para ter Testes que demorem menos?
Bônus: Como pré-calcular seu Teste A/B
E bônus do bônus: Ferramentas de Testes A/B

 

Só para dar uma relembrada: O que é um Teste A/B

Se você está aqui lendo este artigo, provavelmente, já sabe o que é um Teste A/B, mas deixemos uma rápida explicação para os curiosos: Teste A/B é uma forma de medir o impacto de uma mudança num determinado público. Isso é feito separando o público em 2 grupos aleatórios e expondo apenas um deles à mudança.

Comparando-se os comportamentos entre os grupos, pode-se então concluir se a mudança surtiu algum efeito ou não. É assim que, por exemplo, a ciência farmacêutica prova a eficácia de novos remédios, dando para um dos grupos o famoso “placebo”, uma substância neutra, e comparando os resultados com quem está tomando o remédio. Portanto, essa prática está longe de ser uma novidade ou um modismo do Vale do Silício.

 

Teste A/B: Comparar 2 grupos parece moleza, qual é a complicação?

Pois é, tem sim um fator que complica: saber se essa comparação faz sentido estatisticamente. Já perdi as contas de quantas vezes vi pessoas declarando vencedores antes da hora ou entrando em pânico porque “O Teste está perdendo!” quando ainda não havia como afirmar isso. Têm dois culpados claros aí:

    1. Estatística é uma ciência cheia de conceitos esquisitos e contraintuitivos. O cálculo de resultado de um Teste A/B é muito mais complexo do que nossa intuição indicaria.
    2. As ferramentas de Teste A/B costumam mostrar gráficos de resultados “parciais” enquanto o Teste está correndo. Soa inofensivo, mas para quem não entende como o cálculo funciona, isso acaba incentivando conclusões prematuras e equivocadas.

Essas duas coisas estão por trás de uma das coisas mais difíceis de entender e transmitir:

Um Teste A/B não tem resultado parcial. Ou o resultado foi atingido e ele chegou ao seu fim, ou não se pode saber ou prever nada.

Como já tentei explicar isso de várias formas, esses dois pontos para gestores mais empolgados, cheguei numa ilustração que espero que seja clara, didática e ajude todo mundo a visualizar melhor. Peguem uma água e vamos lá.

 

Teste A/B e os efeitos do sorteio

Vamos imaginar uma loja virtual. Alguns visitantes compram, outros não. Na figura abaixo, representamos este conjunto. Cada pequeno círculo é um visitante e pintamos os compradores de verde. Ao todo, foram 4 visitantes e 2 compraram:


Você pode calcular sua taxa de conversão, neste caso 50%:

conversão =
compradores / total = 2/4 = 0.5 

 

Vamos agora imaginar que precisamos dividir esses visitantes em 2 grupos por algum tipo de sorteio. Chamemos esses grupos de “A” e “B”. Provavelmente, a primeira imagem que pensamos é algo assim:

Cada grupo tem o mesmo número de visitantes e compradores e a taxa de conversão segue sendo 50% em cada um. Nada muito palpitante, mas o sorteio pode acontecer de outra forma:

Ou seja, num grupo há 2 visitantes e nenhum comprador, com 0% de conversão e, no outro grupo, há apenas compradores, com 100% de conversão. Note que nada mudou no comportamento de ninguém, apenas dividimos os visitantes de outra forma. Numa, os grupos são similares e refletem o comportamento do todo. Noutra, há uma tremenda disparidade entre os grupos causada simplesmente pela sorte (ou azar!). Ou seja, estas duas afirmações estão rigorosamente corretas:

    1. O grupo B tem taxa de conversão maior (infinitamente!) que o grupo A.
    2. Isto não significa absolutamente nada de útil. Se sortearmos os grupos de outra forma, o resultado seria completamente diferente ou até oposto, no caso dos compradores caírem todos no grupo A.

Ou escrevendo de outra forma: O sorteio deste conjunto não garante que os dois grupos são comparáveis. Então, como pode existir um Teste que compare 2 grupos de forma válida? A solução é mais simples que parece: Jogar mais gente para dentro da análise. Vejamos como isso muda as coisas.

Por exemplo, se ao invés de 4 visitantes houver 16 e seguindo com 50% de compradores, nossa ilustração fica assim:

Ao dividir em 2 grupos de 8, continua sendo possível uma divisão com os 8 compradores num mesmo grupo e nenhum no outro. Isso não muda. Mas, as outras possibilidades de divisão revelam algo interessante.

Há, agora, mais formas de se dividir em 2 grupos idênticos, aqui vão só alguns exemplos:

O leitor mais entusiasmado vai enxergar outras divisões igualmente justas, com a conversão igual à do todo. A descoberta é que num conjunto maior de visitantes há mais possibilidades de divisão em dois grupos totalmente justos que totalmente injustos.

E os grupos levemente injustos, com, por exemplo, 5 compradores de um lado e 3 do outro? Há várias possibilidades também, o que fazer? Calcular essa probabilidade e inserir como margem de erro. A matemática disso pode se tornar cansativa, mas não precisamos entrar nisso tão a fundo. Vamos prosseguir com o que acontece ao longo de um sorteio.

 

Entendendo o mecanismo do Teste A/B

Durante um Teste A/B, a divisão em grupos vai acontecendo na medida em que chegam os visitantes.

Para cada um que chega, sorteamos um grupo, A ou B.

Aí, medimos quantas pessoas em cada grupo compram. Sabemos que a conversão total do grupo é de 50%. Conforme mostramos acima, há várias possibilidades para esses 50% estarem mais ou menos distribuídos pelos 2 grupos.

Mas, imaginemos que o sorteio bote quase todos concentrados num grupo só.

Neste exemplo ao lado, a conversões são:

  • grupo A: 7/8 (87,5%)
  • grupo B: 1/8 (12,5%)

Os visitantes veem exatamente a mesma loja, então, não há nada que explique porque o grupo A converte 7 vezes melhor que o B. É simplesmente azar no sorteio.

Para mitigar isso, temos que seguir sorteando. Quanto mais gente houver no conjunto, a probabilidade de apenas o povo que cai no grupo A serem justamente os novos compradores vai ficando cada vez menor. Se o sorteio for sempre aleatório, vai acontecendo algo desse tipo:

Ou seja, a distribuição mais caótica acaba equilibrando os comportamentos, deixando os grupos comparáveis.

Nessa figura, que parece mostrar grupos completamente diferentes, há 30 pessoas e 15 compradores de cada lado, com a nossa conhecida conversão de 50%.

Como já vimos acima, quanto mais gente chegar, maior a quantidade de combinações possíveis para esse equilíbrio ser atingido, até um momento onde fica bastante improvável o sorteio gerar alguma distorção nos comportamentos.

 

Hora de saber mais dois conceitos importantes:

    1. Essa probabilidade do sorteio finalmente ter gerado grupos comparáveis pode ser calculada e é exatamente isso que o mecanismo de Teste A/B faz para você. Essa probabilidade nunca chegará a 100% de certeza, porque sempre se pode dar um azar desgraçado. Mas pode-se afirmar que “O resultado deste Teste tem 90% de probabilidade de não ser fruto da sorte”, ou seja, 9 entre 10 Testes darão o mesmo resultado. O mercado hoje trabalha com o valor de 95%, ou 19 entre 20 Testes sem resultado diferente. Note, então, que 95% é o dobro de certeza de 90% (1 a cada 10 versus 1 a cada 20), e o Teste também precisará do dobro de visitantes. Uma certeza de 99%, ou apenas 1 Teste em 100 podendo dar algo diferente, precisa de 5 vezes mais visitantes que 95%.
    2. Enquanto este momento não chega, qualquer coisa que se meça entre os grupos A e B é uma simples distorção matemática e não significa nada. Os grupos ainda não são comparáveis!

Esse último ponto é o mais importante para fazer uma pausa e digerir.

 

Não existe resultado parcial de Teste A/B!

Quando o Teste A/B inicia, o sorteio que divide os usuários em 2 grupos vai gerar, por si só, distorções. Vimos acima um exemplo onde apenas a forma de dividir “causou” uma conversão 7 vezes maior num grupo que no outro. Não existe nada de especial no grupo A ou no B que possamos apontar ou concluir. Ninguém está perdendo ou ganhando dinheiro. A conversão do todo seguiu sendo igualzinha, 50%.

Se algum ansioso olhar para essa divisão, vai tentar achar alguma justificativa racional. É normal, nosso cérebro evoluiu para a detecção e descoberta de padrões. Mas, a estatística quebra nosso cérebro constantemente e temos que navegar contra nossos instintos. Não adianta olhar para esses grupos até os cálculos revelarem que eles já estão comparáveis.

Notem que ainda nem chegamos no que realmente caracteriza o Teste A/B: Mostrar alguma diferença para apenas um dos grupos. Pode ser um call-to-action diferente, uma cópia mais chamativa, um formulário mais enxuto. Seja o que for, o sorteio vai seguir o mesmo processo e vai levar um tempo sem que possamos concluir ou afirmar rigorosamente nada. Durante esse tempo, quaisquer diferenças medidas nos comportamentos entre um grupo e outro serão mero fruto do sorteio.

 

O que influencia o tempo para os grupos serem comparáveis no Teste A/B?

O fator preponderante é, como vimos acima, a quantidade de gente que foi exposta ao Teste. Quanto mais gente, mais perto chegamos do grupos serem comparáveis.

Mas, há outros 2 fatores também importantes que você pode usar a seu favor.

Primeiro, a taxa de “conversão” ou a proporção de visitantes que já fazem o comportamento que você quer melhorar. Acima, vimos algumas ilustrações usando uma taxa de 50%.

Imagine que essa taxa seja muito menor, como neste conjunto ao lado onde de 60 visitantes, só 2 são compradores (Taxa de 3,33%).

Há muito mais possibilidades do sorteio colocar todos esses compradores no mesmo grupo, gerando uma distorção, que no conjunto anterior com 30 compradores.

Então, quando essa taxa for mais baixa, vamos precisar de uma quantidade maior de visitantes para que a divisão comece a fazer sentido e, com isso, o Teste demorará mais.

Ou seja, Testes que visam impactar um comportamento mais frequente dos seus visitantes serão mais rápidos que Testes que miram em comportamentos mais raros.

E, aqui, cabe um rápido parênteses: Se você está pensando “Puxa, como eu vou saber o quão raro é um comportamento do meu usuário?”, seu problema não é saber mais sobre Testes A/B. Aquilo que você não está medindo não tem como saber se está melhorando. Volte duas casas, olhe para o seu produto, pense quais comportamentos do usuário representam o sucesso deles e precisam ser medidos e tenha certeza de que está acompanhando esses comportamentos num Dashboard bem bonito e fácil de ler. Agora, podemos voltar pro Teste A/B.

 

De onde vem a diferença entre A e B no Teste A/B: os “convencíveis”

Seu Teste, então, vai separar os visitantes em dois grupos. Um vê o site normal e o outro uma versão modificada que esperamos que impacte no comportamento desejável dos visitantes.

Por mais que você imagine uma hipótese de impacto para testar, essa mudança não vai convencer todo mundo a comprar. Então, durante o nosso Teste de uma hipótese, temos 3 tipos de visitantes:

      • Quem não vai comprar de jeito nenhum, está visitando por outros motivos.
      • Quem já ia comprar de qualquer forma, com ou sem mudanças.
      • Quem não compraria normalmente, mas seria convencido a comprar pela mudança.

Representamos este último grupo em amarelo na imagem ao lado. Não temos de antemão como saber quantos são, é exatamente o objetivo do Teste descobrirmos o tamanho desse público.

Digamos que o grupo B do Teste verá sua mudança (Chamamos esse grupo de “Variante”) e o grupo A verá a versão normal (Que chamamos de “Grupo de controle”).

Ao dividir o público em grupos rigorosamente iguais eis o que acontece:

Com o sorteio não mais influenciando, vemos uma diferença gerada pelo público que se tornou comprador graças à mudança vista na variante. Como resultado, a taxa de conversão na variante é 75% e não mais 50% (Aumento de 50%).

Como vimos anteriormente, uma taxa de conversão alta diminui a quantidade de gente necessária para o sorteio não influenciar mais no resultado e, da mesma forma, um Teste com uma mudança altamente impactante também faz com que se atinja o resultado mais depressa.

Os motivos para isso também têm a ver com os cálculos da margem de erro do sorteio. Quanto mais diferentes os resultados medidos nos dois grupos, mais rápido eles compensam possíveis incertezas sobre o quão comparáveis os dois grupos são.

 

Conclusão: O que fazer para ter Testes que demorem menos?

Recapitulando:

      • Meça o comportamento que você quer otimizar. Identifique gargalos claros e priorize onde o público já tenha uma taxa relevante para o Teste não demorar demais
      • Crie primeiro um Teste A/A, ou seja, simplesmente dividindo em 2 grupos, mas mostrando a mesma versão do seu produto para ambos. Veja quantos visitantes são necessários para que a conversão que você mediu seja lida em ambos os grupos. Essa será uma boa medida do tempo que um Teste A/B levará.
      • Escolha testar uma mudança que cause um alto impacto no público. O Google tornou famoso um Teste de vários tons de azul para os links de seus anúncios, mas o fato é que esse tipo de mudança quase imperceptível está fora do alcance da maioria das empresas. Privilegie, por exemplo, remover 5 perguntas do seu formulário de pré-venda ou simplificar o layout da sua versão mobile. Na dúvida, ouse ao máximo.
      • …E obviamente, resista a “ir acompanhando o resultado”. Ou o Teste não deu resultado algum, ou já deu e você pode pará-lo. Não tem meio termo.

Tentei explicar aqui alguns conceitos bem abstratos tentando driblar a necessidade de mergulhar demais na matemática envolvida. Espero que de alguma forma ajude quem achava o entendimento de um Teste A/B inacessível. E espero que não tenha exasperado os cientistas de dados com simplificações excessivas ou furos no raciocínio.

E, principalmente, espero que usemos dessa técnica para melhorar nossos produtos e tornar a vida de nossos usuários cada dia mais fácil e feliz. Todo produto digital deve almejar isto!

 

Bônus: Como pré-calcular seu Teste A/B

Você não precisa aprender como exatamente utilizar o aprendizado acima para calcular quantos visitantes afinal de contas precisará para algum Teste. Há na internet algumas calculadoras gratuitas que fazem esse serviço para você. A que eu mais uso é a do Optimizely, que está neste link:
https://www.optimizely.com/sample-size-calculator/

Lá, você verá as variáveis que mencionei:

      • Taxa de conversão atual.
      • Impacto esperado da variante na taxa de conversão.

Também pode-se ajustar a significância estatística, recomendo que sempre esteja em 95% conforme dito antes.

Calcular é fácil: Apenas insira sua taxa atual e comece a brincar com o outro valor (“Minimum Detectable Effect”) para ver quantos visitantes são necessários para que o Teste dê certo dependendo do impacto.

Por exemplo, usemos os números das ilustrações acima. Se a taxa de conversão atual for 50% e criarmos uma variante que aumente 50% essa taxa, precisaremos de 17 visitantes em cada grupo, num total de 34 visitantes.

Não é toda hora que vamos conseguir pensar numa mudança que cause um impacto tão forte, então, podemos ver o que aconteceria se conseguíssemos 5% de aumento na variante. Nesse caso, precisamos de mais de 10.000 visitantes para poder chegar a um resultado confiável.

Talvez o seu produto demore uns 6 meses para obter este número de visitantes, então, já dá para aconselhar pensar em algo mais impactante para poder aprender e iterar rapidamente ao invés de congelar tudo por várias Sprints.

É interessante saber que esses cálculos refletem a escolha dos matemáticos da Optimizely de quais métodos utilizam para medir a validade estatística da comparação entre os grupos. Sim, existe mais de um método. A brasileira Resultados Digitais também tem uma calculadora com resultados um pouco diferentes:

               

Se preferir utilizar essa versão dos cálculos, o link é este:
https://ferramentas.resultadosdigitais.com.br/calculadora-teste-ab/amostra

 

E bônus do bônus: Ferramentas de Testes A/B

Ao longo dos anos, já usei várias ferramentas, incluindo várias internas construídas pelas empresas onde estive. Essas são as mais consagradas do mercado:

  • Google Optimize – Duas vantagens maravilhosas, é grátis e é totalmente integrada ao Google Analytics, portanto, dá para usar as suas metas configuradas lá como critérios de impacto. O problema é a desvantagem. Como tantas outras ferramentas incríveis, o Google já avisou que ela sairá do ar em 30 de setembro de 2023. Descanse em paz, você já me ajudou muito, companheira (e, até lá, seguirá ajudando). https://optimize.google.com
  • VWO – Ferramenta paga que, espertamente, assim que o Google Optimize avisou de seu fim, lançou um plano gratuito para atrair os usuários. https://vwo.com/
  • Optimizely – Criada por engenheiros que criaram o motor interno de experimentos do Google e deixaram a nave-mãe para oferecerem essa ferramenta ao mercado. É muito confiável e completa, mas dependendo do tamanho de sua empresa, também muito cara. https://www.optimizely.com/

 

Fábio Martinelli Duarte começou como Product Manager no Canadá em 2007.
De lá pra cá, tocou produto em empresas B2B, B2C e B2B2C em 3 países.
No momento, é pai em tempo integral no Rio de Janeiro.

 

 

Gostou deste conteúdo?

O autor, junto à Caroli.org, está avaliando a realização de um Treinamento sobre este tema. Se você tem interesse em participar, entre agora neste grupo de WhatsApp onde iremos definir datas e outros detalhes sobre a primeira turma.

Caroli.org

A Caroli.org, com um excelente time e a integração de pessoas autoras, treinadoras, parceiras e demais colaboradoras, tem como missão principal compartilhar conhecimento e, dessa forma, contribuir para a transformação de um mundo melhor. Veja mais detalhes sobre nossos Treinamentos autorais e exclusivos, nossos Livros e muitos outros conteúdos em nosso Blog.
O que faz uma pessoa QA?

O que faz uma pessoa QA?

O artigo está dividido em três seções, que tratam sobre: Práticas de Qualidade ao longo do ciclo de desenvolvimento, Tarefas e Responsabilidades de uma pessoa QA, O que uma pessoa QA deve aprender. Se você se interessa pelo tema, este é um excelente material referente ao papel do QA, Quality Analyst em Inglês, ou Analista de Qualidade, em Português.

ler mais
A importância do Product Discovery para um produto inovador

A importância do Product Discovery para um produto inovador

O sucesso de um produto ou serviço, seja ele digital ou não, está totalmente relacionado a sua utilidade na vida das pessoas. Esse produto ou serviço também precisa ser atraente para os usuários, fácil de usar e principalmente viável para o negócio. O Product Discovery é uma peça fundamental do processo para criar um produto que atenda a todos esses requisitos.

ler mais

Pin It on Pinterest