Análisis exploratorio de la calidad del aire en Madrid para el año 2015


Nota previa: el texto que figura a continuación no es más que un extracto del R Notebook donde he llevado a cabo el análisis exploratorio de datos, que recomiendo visualizar utilizando el siguiente enlace:

Se puede descargar el código fuente en R Markdown que lo ha generado visitando mi repositorio en GitHub y accediendo a la carpeta “CalidadAireMadrid2015“.


Introducción

Revisando la semana pasada el hashtag #rstats, encontré un tipo de gráfico que me resultó bastante atractivo y, como viene siendo habitual, despertó enormemente mi curiosidad. Por describirlo de manera sencilla, era una especie de heat map, pero organizado en torno a un calendario (avanza hasta el propio análisis exploratorio de datos si mi explicación te ha resultado un tanto confusa y quieres hacerte una idea visual acerca de a qué me estoy refiriendo).

Por desgracia, no recuerdo exactamente el tuit en cuestión, pero ilustraba la temperatura media diaria de cierto país, y de un rápido vistazo te permitía explorar el comportamiento anual de la serie temporal. Una pregunta acudió enseguida a mi mente de manera natural: ¿cómo puedo generar este tipo de visualizaciones en R?

La respuesta rápida al interrogante anterior es sencilla: utilizando la función calendarPlot() incluida en la librería openair. No obstante, contestar a la cuestión no me satisfizo apenas, tenía que experimentar su uso con mis propias manos, aunque fuese con un mínimo y sencillo ejemplo. Siguiente duda natural que surgió al instante: ¿sobre qué conjunto de datos puedo aplicar esta nueva información obtenida?

Tenía en otra pestaña del navegador abierto el periódico y, curiosamente, a la altura de una noticia relacionada con los niveles de contaminación o polución en Madrid. ¿Se podría ahondar en ese tema y llevar a cabo un breve análisis de datos? Efectivamente, aunque, al final, como viene siendo costumbre en estos casos, preparar el conjunto de datos para utilizar la función calendarPlot() se llevó como diez o doce veces más tiempo que el dedicado a experimentar propiamente su uso.

Además, de paso voy a aprovechar también para introducirme al uso (y abuso, por supuesto) de los nuevos R Notebooks, el reciente juguete que los desarrolladores de Rstudio nos acaban de obsequiar. En mi repositorio de GitHub podréis encontrar el código fuente completo de este análisis exploratorio sobre la calidad del aire en Madrid (dentro de la carpeta CalidadAireMadrid2015).

¿Dónde conseguir los datos de interés?

El Ayuntamiento de Madrid tiene implementada una interesante iniciativa sobre datos abiertos, a los que podemos acceder a través de este enlace. A la hora de escribir estas líneas, el catálogo cuenta con 235 conjuntos de datos, que, en realidad, son muchos más, porque la estructura está jerarquizada y cada uno de los mencionados conjuntos de datos puede incluir subconjuntos.

Merece bastante la pena que dediquemos unos minutos a navegar por el catálogo, puesto que raro sería no encontrar alguna tabla que nos despierte la curiosidad y provoque que decidamos explorarla con mayor detalle. En mi caso, hallé precisamente aquello que andaba buscando: un conjunto de datos relacionado con la calidad del aire en Madrid (enlace), que registra las mediciones de diversas estaciones de control de calidad del aire, esparcidas por la ciudad, para los años comprendidos entre 2001 y 2016.

Como el objetivo de este documento no es tanto estudiar la calidad del aire como experimentar el uso de la función calendarPlot(), he decidido restringir el análisis a los datos del año completo más reciente: 2015. El archivo que recoge las mediciones, además de poder obtenerse por la vía que acabo de describir, está disponible también en el repositorio, dentro de la carpeta data.


El resto del artículo contiene el código necesario para importar el conjunto de datos, y proceder a su limpieza y preparación para generar visualizaciones como la siguiente:

01

 

Os invito a continuar leyéndolo: Análisis exploratorio de la calidad del aire en Madrid para el año 2015.


 

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s