La importancia de saber interpretar los datos

Como decía Stephen Hawking en el año 2002 (‘El Universo en una cáscara de nuez’), “Si se pusieran en fila todos los nuevos libros publicados, nos deberíamos desplazar a 150 kilómetros por hora para mantenernos al frente de la hilera”. Han transcurrido ya casi 20 años desde entonces y, seguramente, ahora deberíamos desplazarnos a velocidades superiores a los 500 kilómetros por hora para seguir al frente de la hilera.

Los volúmenes de datos a nivel mundial se están multiplicando a ritmos vertiginosos, y los sistemas para analizarlos, gestionarlos y generar conocimiento a partir de ellos también. Sin embargo, a los problemas derivados de la calidad del dato, se añade ahora el problema de la interpretación de los mismos.

Tengo un cliente que, durante años, ha estado almacenando datos históricos de valores bursátiles en una base de datos de tipo estructurado (SQL). Él graba de forma diaria los valores de cotización de la empresa de manera que, posteriormente, con su aplicación estadística, determina si las tendencias de dichos valores son al alza o a la baja, y en función de esta información decide si es el momento adecuado para comprar o vender. Hace poco tuvo un importante descalabro y no entendía el motivo por el que su algoritmo estadístico le había recomendado la opción contraria a la correcta, hecho que le supuso importantes pérdidas. Me pidió que le ayudara a averiguar el motivo y encontré que casi se arruina por una incorrecta interpretación de los datos. Resulta que, en su sistema de base de datos, los días que no había podido obtener la información del valor bursátil, grababa la fecha y un valor de NULL (ausencia de dato en los sistemas de bases de datos) para el valor de inversión. Hasta ese punto todo funcionaba correctamente. Sin embargo, su sistema estadístico no interpretaba de forma correcta esos NULL, ya que, por comodidad para sus cálculos, los sustituía por 0 (ceros). Al tener varios días seguidos con valores NULL, que su sistema había reinterpretado como ceros, le indicó que el valor de sus acciones estaba cayendo y lo que realmente se desplomó fue su propia inversión.

Los datos son elementos primarios de información que carecen de valor por sí mismos. Solo adquieren valor cuando somos capaces de contextualizarlos, dándoles un propósito, utilidad o interpretación, y es en ese momento cuando los datos pasan a considerarse información. Si esta información la comparamos o conectamos con otra y entendemos la forma en la que va a evolucionar, la convertimos en conocimiento.

A los problemas derivados de la calidad del dato, se añade ahora el problema de la interpretación de los mismos

En el momento en que partimos de la mala interpretación de un dato, obtenemos una información errónea que nos lleva a un conocimiento que podríamos considerar como ficticio, ya que no se corresponde con la realidad. La correcta interpretación del dato en cada una de sus fases de evolución (tanto del dato unitario y atómico, como de las interpretaciones en las diferentes fases) es básica para que tomemos decisiones basadas en conocimiento e información cierta y veraz y, por lo tanto, con mayor posibilidad de ser las decisiones correctas.

De esta manera, en la primera etapa de captura y almacenamiento de cualquier dato aislado y en bruto (lo que conocemos como “raw data”), debemos conocer cuál es la interpretación correcta tanto del dato como de su ausencia, que significa que no exista el dato (podría ser un simple problema de transmisión de datos, un error en la captura o que en ese periodo no se ha generado dato porque, por ejemplo, nuestro negocio estaba cerrado). También debemos conocer los posibles valores que puede adoptar el dato y cuáles son los valores “anómalos” o que no tienen ningún sentido y deberían interpretarse como erróneos (temperaturas en la ciudad de Valencia de – 50 º C, p.e.).

Por supuesto, tanto en el proceso de transformación de nuestros datos en información como en el proceso de transformación de la información en conocimiento, hemos de volver a interpretar los diferentes resultados que vamos obteniendo y los motivos por los que hemos llegado a ellos.

Si nos fijamos en las series temporales de ventas en los supermercados españoles durante el año 2020, todos tendrán un pico de ventas muy exagerado para la semana del 9 de marzo para los productos relacionados con el papel higiénico (recordemos que, ante la posible declaración del estado de alarma, los españoles reaccionamos comprando papel de forma compulsiva). Si no interpretamos de forma correcta esa serie temporal, y no le dotamos de un contexto adecuado, cualquier sistema para generar predicciones de compra de papel higiénico para marzo de 2021 (incluidos los más simples sistemas estadísticos), habrían interpretado que en marzo de este año hemos multiplicado por 10 nuestras ventas de papel y, por supuesto, nos habría generado un gran problema de stock.

Como he mencionado anteriormente, la interpretación de los datos (en todas sus fases) es tan importante o más que disponer de un volumen grande de los mismos. Si no podemos interpretarlos de forma correcta sería como disponer de todos esos libros de los que hablaba Stephen Hawking, pero en un idioma que desconocemos, no nos servirían absolutamente para nada.

La importancia de saber interpretar los datos

Nacho Davó

Artículos relacionados

La importancia de saber interpretar los datos

Nacho Davó

Artículos relacionados

El 64% de las empresas utiliza Data Lakes y Data Warehouses como tecnologías de datos base

Código Rss

Código Rss