WonkaPistas: El galimatías de las encuestas electorales (gráficos curiosos LVIII)

22.2.08

El galimatías de las encuestas electorales (gráficos curiosos LVIII)

Como entretenimiento para estos días de campaña electoral, aquí les dejo unos cuantos gráficos con los principales resultados de la estimación de voto a los dos grandes partidos extraídos de las encuestas electorales publicadas desde el año 2004 (1). Digo "como entretenimiento" con conciencia, pues no es fácil extraer una información útil de estos datos. Antes de presentarlos, en cualquier caso, tengan en cuenta, primero, que todas las estimaciones están basadas en datos obtenidos con encuesta y, por tanto, vendrían a ser puntos medios en intervalos marcados por el margen de error en cada encuesta, intervalos que pueden ser bastante amplios. Y, segundo, que todas estas estimaciones son construcciones y no el mero reflejo de las intenciones de voto recogidas en bruto en la encuesta (es decir, son datos "cocinados" según la particular receta del que los elabora, recetas que no tienen por qué coincidir, claro).

Veamos, para empezar, la evolución del "voto" al PSOE y al PP desde justo después de las elecciones de 2004. Primero, con un eje que comienza en 0, como le gustan a Josu (y a mí, pero en este caso no me convence).

Si acortamos un poco los ejes, se ve algo mejor:

Aquí podemos ver cómo, según estas estimaciones, han ido cambiando las "fortunas electorales" de ambos partidos. Las cosas empezaron muy bien para el PSOE y mal para el PP. Las estimaciones de ambos se igualaron a finales de 2005 con la discusión del Estatuto de Cataluña. Después cobró una nueva ventaja el PSOE, ayudado por la llamada tregua de ETA. Con su ruptura, se volvió a una situación de gran cercanía. Desde la primavera de 2007, de todos modos, se sugiere un relativo despegue del PSOE y un estancamiento a la baja del PP.

Si recogemos en el gráfico no las estimaciones de cada uno, sino la diferencia entre ambas, se ve algo mejor:

Obviamente, en los gráficos anteriores he incluido estimaciones provenientes de todos los institutos demoscópicos y los medios que las encargan. En el siguiente distingo las líneas según el instituto/medio que publica la estimación (2). Les da una idea de la, a veces, notable diversidad en las estimaciones.

Lo más interesante, en cualquier caso (en el supuesto de que estas estimaciones nos indiquen algo real, cosa que yo no tengo del todo clara), es lo que está pasando en las últimas semanas. Véanlo, en términos de la diferencia PSOE-PP, desde finales del año pasado:

No me digan que los datos del final no parecen una montaña rusa. Recordemos, en cualquier caso, que, grosso modo, buena parte de estas últimas diferencias (excepto las pocas más amplias) estarían dentro del "margen de error" de las encuestas. Es decir, si tratamos a las estimaciones como si fueran porcentajes obtenidos directamente de las muestras analizadas, los intervalos a los que corresponden esos porcentajes se cortarían, por lo que no podríamos decir que las diferencias son significativas. Eso sí, y que Josu me corrija en esto, que sabe más que yo, la probabilidad de que la diferencia sea favorable al PSOE debe de ser bastante más alta que la probabilidad de que la diferencia sea favorable al PP.

En cualquier caso, desde la entrada del año 2008, no se aprecia ninguna tendencia ni al alza ni a la baja, manteniéndose una diferencia favorable al PSOE en el entorno de los tres puntos.

A continuación, para que vean que ni tendencia ni nada, el gráfico de spaghetti diferenciando según instituto/medio:

Fíjense, por ejemplo, en los datos más recientes (teniendo en cuenta que no he incluido, por ejemplo, la última encuesta de la COPE, por no tener datos anteriores). Para Público, el PSOE se desploma. Según Expansión, se eleva hacia los cielos. Según La Vanguardia, también está en alza, pero según Antena 3, está a la baja. No me digan que estos spaghetti multicolores no son deliciosos. Mmm...!

____________
(1) Buena parte de los datos proceden del estupendo portal demoscópico del gobierno de la Comunidad Valenciana, aunque los más recientes los he ido recogiendo yo mismo de los distintos medios e institutos. La fecha a la que refiero cada encuesta es la del trabajo de campo, más bien, la fecha media del trabajo de campo, si este dato está disponible. Esto lo hago para los datos desde 2007, no para los anteriores, para los que tomo el mes, tal como lo recoge la página del gobierno de la CV.
(2) Sólo incluyo los institutos/medios que cuentan con varias estimaciones.

Etiquetas: elecciones, encuestas, españa

10 Comments:

¡Muy entretenido! ¿Quién remueve las cazuelas de los fogones demoscópicos? También es cierto que, quizá con tantas circunscripciones electorales no hay modo de sazonar el resultado con moderación.

By Anónimo, at 2/22/2008 12:21 p. m.
Está muy bien poder tener esta visión de conjunto, sí señor. Pero yo creo que se interpretarían aún mejor los resultados si:

1) En lugar de los gráficos "de spaghetti" se hicieran gráficos de dispersión (es decir, un punto para cada dato, sin unirlos). Eso evitaría el efecto de "montaña rusa" que se debe simplemente a que las encuestas son más frecuentes en las últimas semanas.

2) Se dibujara para cada punto el intervalo de confianza, como una barra de error vertical.

Con esto, tendríamos una nube de puntos a la que podríamos ajustar una línea de tendencia (un polinomio, por ejemplo) por mínimos cuadrados....Y así dejaría de ser un galimatías.

Un saludo

By Anónimo, at 2/22/2008 3:03 p. m.
Pseudópodo,

Desde luego, sería mejor tener los datos con sus intervalos de confianza, pero:
a) no tenía tanto tiempo como para recoger los tamaños de las muestras en todos los casos; y, más importante,
b) ¿cómo los calculamos? No creo que baste con aplicar el error máximo ofrecido para el conjunto de la muestra (y p=q=50), ni el calculado expresamente para cada porcentaje teniendo en cuenta el tamaño de la muestra. Más que nada porque no sabemos cómo se elaboran los porcentajes de estimación y, en particular, no sabemos el número de encuestados efectivamente tenido en cuenta para efectuar las estimaciones. Todo esto, claro, suponiendo que a esa submuestra pudiéramos aplicarle tan alegremente las fórmulas de error calculadas para muestras aleatorias: ya nos equivocamos (algo) al aplicárselas a las muestras realmente existentes (por cuotas, no del todo aleatorias)...
e) el no usar una nube de puntos y sí gráficos de spaghetti de colores me sirve para mostrar que incluso con encuestas celebradas en los mismos días, las estimaciones varían bastante, y no sólo por los datos brutos obtenidos, sino por la "cocina" aplicada.

Con lo de galimatías me refiero a que no tenemos un buen criterio sobre cómo interpretar datos tan diversos producidos en el mismo tiempo. ¿Hacemos la media? ¿Tiene hacer la media algún sentido? ¿Excluimos las estimaciones extremas? ¿Podemos estimar, verdaderamente, tendencias a corto plazo--de semana a semana, por ejemplo--con los datos públicos disponibles? Yo lo dudo bastante.

By Wonka, at 2/22/2008 3:21 p. m.
Estoy (creo) de acuerdo con seudópodo. Si tuviéramos en cuenta la desviación estándar, vendría a decir lo que sabemos: que hay empate técnico.
Lo interesante sería también saber los resultados pre-cocina.

By JJ Merelo, at 2/22/2008 7:23 p. m.
JJ: yo también creo que los porcentajes estimados son muy parecidos y que, si aplicásemos el margen de error de la manera correcta (¿alguien sabe?), no podríamos diferenciarlos para casi ninguna encuesta.

By Wonka, at 2/22/2008 9:45 p. m.
Wonka, entiendo que es mucho trabajo recopilar los intervalos de confianza, que a lo mejor en muchos casos no se dan. De hecho ya me parece un trabajo enorme el que has hecho...

Pero no es necesario que los intervalos de confianza estén calculados con mucho rigor: bastaría ponerse en el error máximo calculado en función del tamaño de la muestra, eso da un orden de magnitud y es suficiente... Es verdad que hay otros factores que influyen pero quedan fuera de nuestro control.

Mi objeción a los spaghetti es sobre todo que inducen a pensar que son variaciones temporales lo que seguramente sólo es “ruido”. Por eso una indicación de intervalo de confianza sería muy útil: si las fluctuaciones son del orden del intervalo está claro que son ruido.

Mi criterio para interpretar datos tan diversos no será seguramente muy estándar, porque lo que se me ocurre es tratar los datos con el enfoque de un físico: considerarlos como medidas con ruido de una magnitud que tiene cierta deriva temporal, que es la que queremos determinar. Como te decía en el post anterior, usaría una función de ajuste, no lineal, y aplicaría mínimos cuadrados con todos los datos. No quitaría los extremos porque no me parece que sean auténticos “outliers”...

De todos modos, esto es por jugar con los datos: no creo que sirva para hacer mejores predicciones. Pero para mucho menos sirven las encuestas con las que nos aburren todos los días...
Ah, y enhorabuena por el post, como siempre, está a años luz de lo que leemos en los periódicos...

By Anónimo, at 2/22/2008 11:43 p. m.
Pseudópodo,

Yo también creo que, al final, buena parte de las variaciones son ruido, y que podría mostrarse, grosso modo, aplicando los errores máximos que se obtienen con el conjunto de la muestra. Lo más probable es que el error sea mayor todavía, por lo que el ruido se vería más claramente. Mi única duda es que ni siquiera es una serie homogénea. Es decir, no creo que todas las encuestas midan lo mismo, salvo que la "cocina" de la estimación sea la misma, algo que no es evidente.

Como puedes imaginar, yo ya he intentado esos ajustes, aunque de manera "pedestre", con el Excel. Un polinomio de grado 6 no se ajusta mal (r2 de 0,3, más o menos), pero no sé si es significativo ni si nos dice mucho de lo que está pasando. En cualquier caso, la curva que se obtiene refleja, más o menos, el comentario de los datos que he hecho.

Un saludo, y, por supuesto, gracias por el inmerecido elogio. Esto no tiene más mérito que el poner juntos los datos. Un saludo.

By Wonka, at 2/23/2008 9:48 a. m.
parece el electrocardiograma de una persona a punto de sufrir un síncope!

saludos querido Wonka!

By Anónimo, at 2/24/2008 10:47 a. m.
Pues yo creo que solo hay 2 encuestas de verdad y el resto son todo mentiras y falsedades cocinadas. Estas 2 encuestas serían las elecciones europeas y las autonómicas/municipales. En las primeras hubo un empate con un psoe por encima (no sé si ganó por 1 escaño aunque creo que luego lo perdió no recuerdo ahora el motivo -el voto por correo, me parece- y empataron a 25-25) y una segunda encuesta en la que esta vez ganó el pp por 120.000 votos o 200mil que extrapolados a las generales pues les darían como vencedores. En fin, que cocinadas salen auténticas barbaridades y chapuzas pero la realidad es tozuda como ella misma y apuntan otra cosa bien distinta. La única conclusión que saco yo de las encuestas: es asco, nos tratan como si fuéramos gilis manipulables y nos conducen por donde quieren -a la gran masa, me refiero-.

By Anónimo, at 2/27/2008 4:35 p. m.
¿Y hay algún estudio sobre predicciones y resultados reales? Por ejemplo, en las autonómicas y municipales del 2007 se daba vencedor en todas las encuestas al PSOE, y resultó que sacó el PP más votos.
Yo me entretuve en comparar estimaciones de voto para las autonómicas de la última encuesta del CIS en mayo del 2007 con los resultados reales. En casi todos los casos la estimación para el PP, después de la "cocina", era dos o tres puntos inferior a la realmente obtenida, mientras que al PSOE se le sobreestimaba en una proporción similar. Las excepciones eran Extremadura, que el CIS clavó, y Canarias, donde ocurrió todo lo contrario: al PP se le pronosticaba un porcentaje mucho mayor que el que obtuvo, y al PSOE se le subestimó.
Creo que con el resto de encuestas 2007 pasó algo parecido. ¿Existe alguna explicación? ¿Se habrá modificado la "cocina" para 2008?

By Anónimo, at 3/04/2008 11:22 a. m.

Publicar un comentario

<< Home

WonkaPistas

22.2.08

El galimatías de las encuestas electorales (gráficos curiosos LVIII)

10 Comments:

WonkaPistas

Anteriores

Enlaces