viernes, febrero 28 de 2020

Datasketch

Octubre 01, 2016

Los datos ocultos de la Registraduría

Es lamentable que algunas páginas de las instituciones más serias de Colombia no permitan la reutilización y el fácil acceso de los datos públicos y pongan trabas técnicas en la consecución de los mismos.

Es por eso que ponemos a disposición de la ciudadanía los datos completos de las votaciones por departamentos, municipios, consulados y un consolidado nacional e internacional.

Diego Trujillo

Diego Trujillo

El pasado domingo 2 de octubre, el pueblo colombiano tenía la oportunidad de elegir si estaba o no de acuerdo con la terminación del conflicto con las FARC-EP y la construcción de una paz estable y duradera. El 50, 2% decidió votar ‘NO’ al Acuerdo de Paz entre el Gobierno y este grupo armado,  mientras que el 49,7% optó por el ‘SÍ’. El porcentaje de abstención fue de más del 60%. Al ver los resultados de estas inusuales votaciones muchos colombianos quieren conocer los datos para llegar a sus propias conclusiones sobre tendencias o patrones.

 

Al entrar a la Página de la Registraduría y tratar de acceder a los datos de la jornada de votación, los usuarios encuentran una página principal del Plebiscito, la cual muestra algunos datos relevantes para el usuario. Sin embargo, la ruta para llegar a los datos de la votación no es evidente.

 

Se puede explorar la pestaña Resultados de preconteo, la cual tiene los datos de votación para cada departamento y municipio del país, además de la información de los consulados. El problema de esta representación es que no permite tener un visión global ni comparar fácilmente diferentes regiones.

 

Para acceder a los datos de cada región se debe buscar la región específica y acceder a una url propia, es decir, existen 35 accesos diferentes dependiendo de la región seleccionada (departamentos y consulados). En el caso de los municipios, existen 1186 accesos diferentes para ver la información de cada uno.

 

Ahora, ¿qué pasaría si se quisiera hacer un análisis más detallado?. Por ejemplo, ver todos los municipios de un departamento, comparar dos departamentos o ver múltiples municipios al tiempo. En ese caso, tendríamos que visitar cada URL y extraer la información de cada uno.

 

 

Dada la complejidad de acceso a la información desagregada, organizamos esta información para cada municipio, departamento y consulado. La descarga de información se realizó a través de un scraper.

 

Un scraper permite extraer información que guarda alguna estructura en una página web.

En general, se debe considerar esto al implementar un scraper:

 

  1. Identificar las estructuras de las urls para ver cuáles son las relevantes.

  2. Analizar la estructura de las páginas y encontrar marcadores en el código html o css que permitan extraer partes relevantes de la página.

  3. Organizar las extracciones puntuales en una misma estructura, por ejemplo, una sola tabla.

 

En el caso particular de la Registraduría, estas son algunas indicaciones para que puedas construir tu propio scraper.

 

  1. Identificar estructura de URLs: En primer lugar, el usuario debe elegir un departamento, inmediatamente se escoge una opción que actualiza la URL. Esta nueva URL es oscura en el sentido en que no nos permite identificar claramente el departamento en el que estamos, por ejemplo, si se selecciona Antioquia la URL es /99PL/DPL01ZZZZZZZZZZZZZZZ_L1.htm. Sólo sabemos que al cambiar a otro departamento se cambia la URL, pero no tenemos manera de saber cómo es la secuencia lógica. Esto pasa, de igual manera, para todos los municipios por cada departamento.

  1. Identificar la estructura de las páginas: En segundo lugar, se analizó un poco la estructura de la página web para saber cómo se podía extraer la información relevante de cada URL. Para los más técnicos, se logró extraer la información utilizando selectores de CSS '#combo2 > option' para departamentos, y  '#combo3 > option', además de extraer los atributos de html llamados value.

  2. Organizar los datos: Finalmente, se separó la información de municipios y departamentos. Contamos con diferentes variables como el porcentaje de abstención, el porcentaje de participación, número de mesas escrutadas, porcentaje votación, personas hábiles para votar, etc.

 

Es lamentable que algunas páginas de las instituciones más serias de Colombia no permitan la reutilización y el fácil acceso de los datos públicos y pongan trabas técnicas en la consecución de los mismos. Datos públicos en formatos PDF, WORD o simplemente visualizados, como en el caso de la Registraduría, son buenos ejemplos de barreras que se crean para el acceso a la información pública. Como ciudadanos siempre podremos contar con los derechos de petición, sin embargo, estos suelen tomar mucho tiempo para ser atendidos.

 

Este tipo de información no solo debe ser pública, sino también abierta para Colombia, o para cualquier persona que quiera consultarla. Es por eso que ponemos a disposición de la ciudadanía los datos completos de las votaciones por departamentos, municipios, consulados y un consolidado nacional e internacional en formato CSV.

 

Descargar archivos:

 

Consolidados

 

Consulados

 

Departamentos

 

Municipios



Variables de los archivos

 

DEPARTAMENTO / MUNICIPIO / CONSULADO

URL

PORCENTAJE ESCRUTADO

NÚMERO DE MESAS INSTALADAS

TOTAL MESAS

PORCENTAJE VOTACIÓN

NÚMERO DE VOTOS

NÚMERO PERSONAS HÁBILES PARA VOTAR

PORCENTAJE SÍ

VOTOS SÍ

PORCENTAJE NO

VOTOS NO

VOTOS VÁLIDOS

VOTOS NO MARCADOS

VOTOS NULOS

PORCENTAJE MESAS INSCRITAS

PORCENTAJE ABSTENCIONISMO




compartir

Diego Trujillo

Diego Trujillo

Matemático y científico de datos