Siempre he creído que los datos deben ser abiertos, es decir que la generación de contenidos de diversos tipos de datos nos ayudarían a poder estudiar mejor diversos fenómenos cruzados a partir de la observación y datos de otras personas, pero más aún, contar con la información base, nos puede permitir mejorar los contenidos y la gestión que realizamos en determinadas áreas del conocimiento humano. Suena muy hermoso, y en efecto, así puede llegar a ser.

Para ejemplificar, una fuente de información muy buena para hacer investigaciones y políticas públicas proviene desde data.police.uk, portal que disponibiliza la información de los procedimientos policiales y a partir de esta página se pueden obtener estadísticas agrupadas por el lugar, el hecho o suceso, la fecha, etc., lo que podría ayudar a la autoridad nacional a disponer de mayor dotación según la frecuencia de crímenes. Este tipo de liberación de datos es muy útil para la ciudadanía, investigadores y curiosos de los datos, ya que nos ayuda a entender un poco mejor el mundo.

Sin embargo, el hecho de liberar datos en un formato compatible no es suficiente, ya que se necesita entregar un contexto, un valor claro, un atributo que nos permita identificar la importancia de los datos, y transformar los simples datos en información útil y entendible para las personas. Un antiejemplo que encontré hace algunos días fue un dataset (conjunto de datos) en el portal de gobierno en el cual se específica a las autoridades de la comuna de Rauco, lo cual es un archivo csv que contiene el nombre del alcalde, los concejales y…. eso. Este tipo de datos no aporta calidad ni contenidos a la información que podría usarse. No es una crítica, pero al hacer datos abiertos se agradecen algunas cuestiones básicas que seguir:

  • Un diccionario de datos: dime que tipo de datos es, si son enteros o dicen miles de millones, si el largo de cadena es 120 o 100 (si no usas CSV)
  • Tabular, por favor: si vas a subir información, que sea de manera tabular, ya que si mezclas información en una tabla cruzada, todo se entorpece para procesar el conjunto de datos.
  • Solo filas, sin pie o más de un encabezado: no añadas el “total registros” a final del volcado de la bases datos, solo entorpeces la importación de datos.