Lectura: Limpieza y estructuración de bases de datos

Realiza la lectura sobre limpieza y estructuración de bases de datos.

Si tienes dudas o comentarios, no dudes en agregarlos en la sección de comentarios.

Limpieza y estructuración de bases de datos

Cuando se tiene disponible una base de datos o se quiere crear una nueva, es necesario tomar en consideración la limpieza y estructuración más adecuada. Inicialmente deben tenerse en cuenta los formatos en los que se tiene dicha información, es ideal que se encuentren en excel o csv, no en formatos de imágen y que no se puedan reutilizar fácilmente. Esto porque aquellas cosas que entienden los computadores son muy distintas a aquellas cosas que entienden los humanos, por eso son necesarios por un lado los formatos amigables con los computadores y por otro lado los datos limpios y ordenados, a esto le llamamos “tidy”.

Los datos “tidy” consisten en que cada atributo (variable) de la base de datos sea una columna, y cada observación (registro) sea una fila. Por ejemplo, si estamos realizando una base de datos de grupos insurgentes en un país, podríamos tener distintos atributos como el nombre del grupo, su líder, su ideología, si realiza o no ataques terroristas, en qué territorios opera, entre otros, estas serían las columnas. Las filas serían cada uno de los grupos insurgentes que se identifican para crear la base de datos.

Pero si tenemos en una misma columna el nombre del grupo y el nombre del (la) líder, la base de datos podría tener errores, porque estamos hablando de distintas variables, que pueden llegar a ser un problema al momento de analizar la información. Veamos esta tabla con el nombre del grupo, su posición ideológica y líder.

Allí vemos que la base de datos puede estar mejor ordenada cuando una sola variable hace parte de una sola columna y las filas son los registros de la información. Así quedamos con las variables nombre, ideología y líder en columnas distintas y ordenadas.

Las variables de las bases de datos pueden no estar limpias en casos tan sencillos como el género de algunas personas, que puede registrarse como F-M o Femenino-Masculino o Mujer-Hombre, que aunque sabemos que significan lo mismo, para los computadores significan cosas distintas. Por eso es necesario tener una consistencia en los formatos de las categorías en los que se usa la información.

Es por eso que nuestras recomendaciones para tener cada vez datos más limpios y organizados son:

Los títulos de las columnas deben ocupar una sola fila.
Cada variable debe estar en una sola columna: que todas las categorías o variables de un registro de información (filas) se encuentren en cada una de las columnas, tales como registrar en una columna el nombre, en la otra el apellido, en la otra la edad de una persona.
Cada columna debe tener un mismo tipo de dato: si se está hablando de nombres, fechas, edades cada uno de ellos tienen tipos de datos diferentes, el primero es un tipo de dato alfabético, el segundo tiene formato de fecha, y el tercero es un dato numérico. Y por eso es fundamental tener estos datos consistentes en toda la tabla.
Cada observación es una fila: por ejemplo si se tiene el precio de determinado producto en un registro, es ideal que en una columna se encuentre el número y en la otra el tipo de moneda. Así cada observación debe hacer crecer la tabla como nuevas filas y no como nuevas columnas.
No debe haber variables ocultas en las celdas.

Algunas de las tareas fundamentales en el momento de procesar información consiste en identificar algunos problemas con la información disponible, que incluyen información incompleta y faltante en el análisis, registros errados de la información (que pueden ser errores de digitacion humana), y datos que pueden resultar incoherentes con la realidad de cada tema. Estas problemáticas se resuelven fundamentalmente entendiendo el contexto de los datos y su estructuración.

Igualmente, es posible estructurar bases de datos a partir de información que no son bases de datos, en particular podríamos a partir de un artículo periodístico en el que se encuentran muchos detalles de información importante, como nombres de personas, conexiones o fechas. Y así crear tablas de tal manera que se respondan preguntas sobre el contexto o se puedan extraer hallazgos de textos de manera mucho más fácil, por ejemplo sobre cuántas personas aparecen en la historia o en cuántos casos aparece el nombre de una persona.

Una vez se tienen los datos de manera limpia y ordenada, se pueden interrogar y hacer preguntas con los mismos. Para hacer esto es fundamental realizar una lista extensiva de preguntas para las bases de datos que ya tenemos disponibles y para las fuentes de información existentes, lo que permitirá determinar las mejores maneras de organizar la información y en dado caso conseguir más. Finalmente se pueden priorizar preguntas y fuentes de datos, para pasar a seleccionar la pregunta o preguntas principales para contar nuestra historia.

Para generar una estructura de la investigación con datos, sugerimos que las tareas y las actividades que se van a realizar en torno al proyecto también puedan estar como tablas, donde existan formas de reconocer las tareas, las personas responsables, las fechas de entrega, entre otros. Y a partir de estas actividades ir seleccionando las historias con datos que se quieren contar en nuestros proyectos.

Recursos recomendados

BSG Institute. 10 de enero de 2020. Video: ¿Qué es el Tidy Data? En https://www.youtube.com/watch?v=kt8qwxVOvTo
Denys07M. 9 de noviembre de 2017. Video: Principles of tidy data. En https://www.youtube.com/watch?v=oQuupzfX9OQ
Hadley Wickham. Tidy Data. Journal of Statistical Software. En https://vita.had.co.nz/papers/tidy-data.pdf
Knight Center Courses. 15 de octubre de 2019. Video: Preparación de los datos – Limpiando datos con Google Sheets. En https://www.youtube.com/watch?v=YnN2kUWIr48

Complete and Continue

Discussion

Datos abiertos para la toma de decisiones públicas

Lectura: Limpieza y estructuración de bases de datos

Limpieza y estructuración de bases de datos

Recursos recomendados

0 comments