jueves, 15 de enero de 2015

"Perceptualización" de datos

Hay actividades que generan montones de datos, grandes cantidades de números que se suelen ordenar en tablas, hojas de cálculo, bases de datos. Pero en esas acumulaciones de números es muy difícil entresacar información, cosas que tengan sentido para las personas; tendiendo a imposible a medida que aumenta la cantidad de datos.

 Desde el siglo XVIII disponemos de representaciones gráficas de datos, transformaciones de los números en características de un dibujo que se perciben a través de la vista. Estas visualizaciones facilitan una percepción globalizada de muchos datos y la identificación de características informativamente valiosas: tendencias, discontinuidades, singularidades, valores medios...

En el siglo XX se creó la sonificación, una analogía con la visualización en la que la información se hace perceptible a través del oído. Esto resultaba especialmente importante para los ciegos, claro, y también para las personas que necesitan más información de la que pueden atender con la vista, como el caso de cirujanos en mitad de una operación. El sonido de los pajaritos coincidente con el semáforo rojo sería un ejemplo del primer caso, y paradigma del segundo el clásico pitido del electrocardiograma que hemos visto tantas veces en películas y series de televisión. Aparte de estos ejemplos más evidentes, hay proyectos de investigación intentando encontrar buenas metáforas auditivas que permitan explotar el canal perceptivo del oído al máximo. Porque no se puede obviar que la cantidad de datos que se pueden transmitir a través del oído, y las características que se pueden extraer de ellos son más escasas que en el caso de la visualización.

Hoy he descubierto (vía) una tercera forma de extracción automática de información humanamente relevante a partir de un gran volumen de datos; se trata de la creación de un informe, una narrativa. Es una especie de cuentacuentos que inventa el cuento basándose en los datos que hay. Se trata de la empresa Narrative Science, y parece que lo que hace es disponer de una serie de plantillas sobre tipos de información que pueden resultar útiles, y métricas con las que medir valores de esas informaciones. Con eso y un sistema de redacción se prepara un informe automático. Para muestra, el perfil que generan a partir de los datos de una cuenta de Twitter, que he probado con la mía y me ha dejado gratamente sorprendido (ver). Ahora solo falta que preparen plantillas para artículos científicos y que te escriban el artículo directamente a partir de los datos experimentales... que lo decía de broma, pero seguro que en alguna disciplina no estamos tan lejos.

Diferentes estrategias para facilitar la percepción de la información que está en los datos. Algo muy importante y que cada vez se hace mejor, más automáticamente y de formas más originales.
Publicar un comentario en la entrada