O modelo

O que estamos fazendo?

Uma das perguntas mais comuns é qual a diferença entre o que estamos fazendo e uma pesquisa de opinião, que nem as conduzidas pelo Datafolha e pelo IBOPE. Quando esses institutos conduzem uma pesquisa de opinião, a pergunta que eles fazem aos entrevistados é se a eleição fosse no dia da entrevista, em quem o respondente votaria. Essa pergunta faz com que o entrevistado dê a opinião dele naquele momento, mas o voto dele pode mudar até o dia da eleição. Por isso, são conduzidas pesquisas de tempos em tempos: assim é possível averiguar a mudança de opinião com o passar do tempo e de eventos que acontecem (p. ex., debates). Uma metáfora para esse método é a seguinte: a pesquisa de opinião conduzida por esses institutos tira uma foto do momento em que a pesquisa é feita. Diversas fotos são tiradas, uma em cada momento que é feita uma nova pesquisa, e então é possível montar um filme de como a opinião pública foi mudando até a data da eleição.

Agora imagine essa outra metáfora: você assiste vários filmes, e cada vez que você assiste um filme, você fica melhor em prever o final do próximo filme. Com o tempo, você será capaz de dizer qual será o final do filme que você está assistindo com base no início dele, por conta de tantos outros filmes que você já viu. É exatamente isso que estamos fazendo com nosso modelo. Com base em todas as outras eleições e as pesquisas de opiniões delas, conseguimos extrair padrões que podemos usar agora para prever o que acontecerá no dia da eleição. Diferente das pesquisas de opiniões, não estamos interessados em saber como a opinião pública está agora, mas sim interessados em saber o que acontecerá na data da eleição. Dessa forma, o nosso método tenta prever quais serão as porcentagens alcançadas pelos candidatos no dia da eleição e quais suas chances de irem para o segundo turno ou vencerem no primeiro turno. Quanto mais nos aproximamos da eleição, menos incertezas nossos modelos apresentam, uma vez que “estamos mais perto do final do filme”.

Nosso método

Nosso método é embasado em modelos de análise estatísticas complexas para prever o resultado no dia das eleições. Ele usa as porcentagens válidas de votos para candidatos publicadas em pesquisas de opiniões do Datafolha e do IPEC para dizer como serão as porcentagens válidas dos candidatos no dia da eleição. Somente usamos os dados dos quatro candidatos que estão mais a frente nas pesquisas, uma vez que porcentagens de intenção de votos muito baixas enviesam o modelo. Usamos dois modelos, um para agosto e um para setembro. Caso ocorra o segundo turno, um terceiro modelo será usado.

No modelo de agosto, usamos a média dos institutos para cada candidato até o momento como preditor. Damos pesos diferentes para a pesquisa de cada instituto com base no erro histórico desses institutos. Esse modelo tende a ter uma previsibilidade mais fraca pois as pesquisas até esse momento contam com candidatos que não participarão da eleição, uma vez que as candidaturas não estão oficializadas, e muitos eleitores ainda estão indecisos sobre seus votos. Mas de qualquer forma, esse modelo traz um poder preditivo e um indicativo do que está se desenvolvendo para o dia das eleições.

O modelo de setembro é um pouco diferente. Nesse método, calculamos a média que cada instituto está dando para cada candidato por mês. Consideramos três períodos: um mês antes da eleição; dois meses antes da eleição; três ou mais meses antes da eleição. Fazemos isso porque nossas análises indicaram que pesquisas anteriores a esse período são preditores fracos da porcentagem real adquirida por cada candidato no dia da eleição (motivo pelo modelo de agosto não ser tão forte). Depois disso, com base em dados histórico, damos pesos diferentes para cada instituto de acordo com o erro deles em eleições do passado. O grande ponto do modelo de setembro é que, por fim, calculamos a tendência de cada candidato durante o último mês do primeiro turno. Ou seja, estimamos se um candidato está ganhando ou perdendo votos indo para o dia da eleição. Essa medida é extremamente importante porque conseguimos prever quais candidatos estão murchando e quais estão ganhando força. Essa medida de tendência só é formada com algum tempo de pesquisas, e por conta disso só pode ser inserida nesse segundo modelo. Optamos pela medida do último mês do primeiro turno e não a tendência geral porque nos testes que fizemos, a tendência desse último mês aparenta ser um maior preditor do que se consideramos a tendência desde as primeiras pesquisas. Ainda nesse último modelo, submetemos esse valor produzido por nosso modelo a uma correção de acordo com as tendências históricas, através de um modelo hierárquico. Sendo assim, a medida gerada pelo nosso modelo é corrigida de acordo com valores históricos das posições que cada candidato assumiu na pesquisa. Ou seja, o candidato em primeiro lugar tem seu valor previsto corrigido pelos valores históricos dos candidatos que terminaram em primeiro lugar nas eleições, o candidato que está em segundo lugar tem seu valor previsto corrigido pelos valores históricos dos candidatos que terminaram em segundo lugar nas eleições, e assim por diante. Caso as posições não estejam claras nas pesquisas, corrigimos pela média histórica das posições envolvidas. Dessa forma, terceiro e quarto lugar são corrigidos pela média de ambas as posições, uma vez que elas tendem a ficar próximas. Por conta disso, há a possibilidade do modelo acabar superestimando a porcentagem real dos candidatos da terceira e quarta posição. Todavia, tomamos decisões de assumir maior probabilidade de eventos raros nos nossos modelos, a fim de sermos conservadores com os resultados, o que é melhor do que presumir baixa porcentagem para um candidato enquanto a porcentagem dele ainda é alta. Ademais, nessa correção, também consideramos possíveis vieses que as pesquisas de opinião acabam tendo ano após ano. Esse é um efeito comum em pesquisas de opinião e bastante estudado em outros países, embora não exista ume explicação exata do porquê ele ocorre. Quando submetemos os valores preditos do modelo a essa correção pelo modelo hierárquico, contamos com a possibilidade do erro das pesquisas, o que ajuda a termos uma previsão mais precisa do valor no dia das eleições.

Em testes para eleições de outros anos, conseguimos concluir que esse método é extremamente preciso, principalmente para os três primeiros candidatos. Por exemplo, com testes para os dados de 2018, nosso modelo de setembro estimou uma porcentagem de 43.4% (margem de erro de 38.2 a 48.7%) para Bolsonaro, que obteve resultado real de 46%. Tal resultado é surpreendente, tendo em vista que as pesquisas de opinião da época deram a porcentagem mais alta para ele de 36%, um dia antes da eleição. Nosso modelo também previu uma porcentagem de 29.1% (margem de erro de 23.8 a 34.4%) para Haddad (resultado real de 29.3%), e uma porcentagem de 15.4% (margem de erro de 11.9 a 18.9%) para Ciro Gomes (resultado real de 12.5%). Dessa forma, podemos ver que nosso modelo foi extremamente preciso para os candidatos que foram para o segundo turno e que o resultado do terceiro colocado ficou dentro da margem de erro.

Por fim, os valores preditos pelo modelo são submetidos a uma avaliação da probabilidade de ganhar em primeiro turno na data da eleição. Essa probabilidade é calculada com base no erro do modelo e na chance de tal medida ficar acima de 50% dos votos válidos. Da mesma forma, também calculamos a probabilidade dos candidatos irem para o segundo turno. Para o primeiro e segundo colocado, calculamos qual é a probabilidade do valor previsto pelo nosso modelo para ele ficar acima da margem de erro mais alta calculada pelo nosso modelo do terceiro colocado. Já para o terceiro e quarto colocado, calculamos qual a probabilidade do valor previsto para eles pelo nosso modelo ficar acima da margem de erro mais baixa do segundo colocado. Caso as posições dos candidatos mudem na pesquisa, as probabilidades também serão alteradas, o que pode gerar mudanças bruscas em caso de inversão na posição dos candidatos

Suposições para nosso modelo

Para gerar o nosso modelo, tivemos que fazer algumas decisões em relação a como iríamos trabalhar os dados. Essas decisões estão justificadas abaixo.

Somente dados de IBOPE e Datafolha

Nosso modelo só é alimentado com dados publicados por dois institutos: IBOPE e Datafolha. Tomamos essa decisão baseada em alguns fatores. Primeiramente, como mencionamos acima, os modelos são feitos com base nos dados de outras eleições. Os dados de pesquisa de opinião das primeiras eleições após a redemocratização são produzidos pelo IBOPE e pelo Datafolha. Dessa forma, optamos por manter apenas esses dois institutos, uma vez que é possível garantir que os dados que teremos agora são similares aos dados históricos que foram utilizados para construir o modelo. Além disso, esses institutos conduzem pesquisas presenciais em domicílio, um método que consideramos ser superior a outros para pesquisas de opinião. Consideramos isso pensando no número de pessoas que possuem acesso a telefone móvel no Brasil: segundo o IBGE, em 2019, 94.3% dos domicílios possuem telefone móvel, o que indica que mais de 5% da população brasileira não é acessada durante pesquisas por método telefônico.

IPEC no lugar do IBOPE

O IBOPE Inteligência, braço do IBOPE responsável pelas pesquisas de opinião eleitoral, fechou no final de janeiro de 2021. A diretora das pesquisas do IBOPE, Márcia Cavallari nunes, agora é diretora do IPEC. Dessa forma, optamos por substituir no nosso modelo as pesquisas que seriam do IBOPE pelas pesquisas publicadas pelo IPEC a fim de não usar apenas o Datafolha como preditor.

Eleições a partir de 1989

Nossos modelos foram feitos com pesquisas de opinião a partir de 1989. Essa decisão foi tomada por ser o registro mais antigo com os modelos de eleição que temos até hoje. Sendo assim, usamos os dados das eleições de 1989, 1994, 1998, 2002, 2006, 2010, 2014 e 2018. Poderíamos usar apenas as eleições mais recentes, mas perderíamos riquezas dos dados históricos. Um exemplo disso seria a possibilidade de se ganhar em primeiro turno (1994 e 1998). Dessa forma, optamos por usar os dados mais antigos, a fim de garantir que o modelo compreenda diferentes desfechos.

Médias mensais de 3 meses

Nosso modelo de setembro é pautado em médias ponderadas mensais: uma média para as pesquisas um mês antes da eleição, uma para as pesquisas dois meses antes da eleição e uma para as pesquisas anteriores a esse segundo mês. Optamos por essa divisão pois sabemos que pesquisas anteriores a confirmação oficial dos candidatos tendem a ter porcentagens que não refletem diretamente no dia da eleição. Nessa época, também vemos muitos eleitores sem saber em quem vão votar, o que contribui para uma instabilidade nessa medida. Além disso, separamos entre um e dois meses antes, quando as candidaturas estão oficialmente confirmadas, pois vemos que os dados de um mês antes a data da eleição tendem a apresentar um valor preditivo melhor do que os de dois meses antes. Sendo assim, quando nos aproximamos do dia da eleição, nosso modelo começa a apresentar maior precisão.

Distribuição em t com caudas longas

Quando corrigimos os valores previstos pelo nosso modelo através de um modelo hierárquico, optamos por usar distribuições em t com caudas longas, em vez de distribuições gaussianas/normais. Deixando a parte técnica de lado, ao tomarmos essa decisão, estamos assumindo que existe maior probabilidade de eventos raros acontecerem. Com a distribuição normal, certos eventos teriam a chance de acontecer uma vez em mil. Quando usamos a distribuição t com caudas longas, tal evento passa a ter uma chance em 180, fazendo com que ele seja quase seis vezes mais provável. Exemplos dessa suposição seria assumir a possibilidade de candidatos que aparentemente não tem chances de ganhar em primeiro turno conseguirem tal feito, ou a possibilidade de candidatos com alta porcentagem de votos declarados nas pesquisas não conseguir ganhar no primeiro turno. Optamos por essa decisão a fim de deixar o modelo mais conservador. Nos nossos testes com eleições dos anos passados, vimos que tal distribuição tende a representar melhor o que aconteceu, garantindo que consigamos estimar a probabilidade corretamente, contando com a possibilidade de eventos raros. Por outro lado, ao tomarmos essa decisão, podemos superestimar as chances de candidatos com pouca porcentagem de voto. Mas optamos por esse caminho pois acreditamos que a decisão mais conservadora é assumir chance de vitória de tal candidato quando não há em vez de não assumir chance de vitória quando há.

Correção por posição dos candidatos

Ao corrigirmos as medidas do nosso modelo pelos dados históricos através do modelo hierárquico, usamos os dados históricos por posições. Sendo assim, o candidato que está em primeiro lugar nas pesquisas terá seu valor corrigido pela média histórica dos candidatos que ficaram em primeiro lugar, o candidato em segundo lugar nas pesquisas terá seu valor corrigido pela média histórica dos candidatos que ficaram em segundo lugar, e o terceiro e quarto lugar terão seus valores corrigidos pela média histórica dos candidatos que ficaram em terceiro e quarto lugar. Optamos por unificar o terceiro e quarto lugar uma vez que a diferença de ambos candidatos nas pesquisas de opinião não é gritante. Porém, isso pode supervalorizar as porcentagens desses candidatos, principalmente a do candidato em quarto lugar. Outro ponto dessa decisão, é que caso os candidatos estejam próximos, usamos uma média das posições que estão em disputa. Por fim, caso os candidatos mudem de posição (por exemplo, o candidato que estava em segundo lugar acabar passando o candidato que estava em primeiro lugar), essa inversão alterará a correção de ambos os candidatos, o que pode gerar mudanças de um modelo para o outro.