
¿Cuál es la diferencia entre datos e información? Mi domicilio, ¿es un simple dato o es información? La respuesta a la primera pregunta puede ser materia de acalorados debates entre semiólogos, las personas dedicadas a estudiar los fenómenos de la comunicación, el lenguaje y las palabras. La de la segunda, en cambio, depende de quién conoce mi domicilio y el uso que le da.
Digamos que un dato describe una realidad y nada más. Información, en cambio, implica una conclusión acerca de un dato. Una empresa cuyos clientes tienen su domicilio en su mayoría en una cierta zona de la ciudad puede usarse como trozo de información, cuando la empresa desea abrir una nueva sucursal. ¿Lo hace para mejorar su atención o para ingresar a nuevos mercados?
De acuerdo a una investigación publicada años atrás por dos gigantes a nivel mundial de la consultoría empresarial y los servicios de gestión de datos, la gran mayoría de las empresas ya cuentan con enormes cúmulos de datos. Pero las saca escaso provecho. Les podrían revelar información de negocio acerca de sus clientes, sus preferencias, hábitos de compra o ubicación, lo mismo que indicios sobre el desempeño o la eficiencia de la empresa misma, sus áreas de mejora o la confiabilidad de sus proveedores.
Para que los datos sean valiosos es necesario primero tenerlos reunidos. El primer desafío está en extraerlos de donde se encuentran, en repositorios y formatos diversos. También es necesario organizarlos y por último, almacenarlos en un repositorio central. Los procesos que logran esas tres operaciones se conocen como ETL, del inglés extract, transform, load.
¿De qué se trata?
Extraer. Obviamente, los datos crudos se extraen del medio en el que se encuentran. Estos pueden ser bases de datos que pertenecen a una cierta empresa, pero también las bitácoras de actividad en la red, las que registran rendimiento, incidencias y anomalías de aplicaciones o servicios vía internet, más toda la documentación de negocio heredada de tiempos “pre-internet” (si es el caso). De acuerdo con la situación, esta parte supone que los datos extraídos se colocan en un data warehouse (bodega o almacén de datos), o en un data lake (literalmente, lago de datos). Uno y otro término implican por sí mismos explicaciones más amplias, que no están al alcance de este texto.
Transformar. Esta etapa consiste en aplicar las reglas y normas que cada organización tiene en relación a los datos. La meta es que todos los datos estén expresados de forma estandarizada, que no haya duplicidades, que estén verificados y clasificados. ¿Ejemplo sencillo? Que todos los teléfonos estén expresados de la misma manera, sea (55) 1415 02 19 ó 55-1502-19 o la que sea.
Cargar. Este paso consiste en depositar los datos ya transformados en un repositorio seguro. La cuestión más importante a tener en cuenta es que en principio, todo repositorio irá creciendo. La marcha de los acontecimientos, además, puede exigir el almacenamiento de datos de nueva naturaleza. Usar datos biométricos como forma de identificar personas se generalizará y el su almacenamiento se convertirá en una necesidad para muchas empresas que hoy no lo hace. Lo anterior exige que el repositorio se gestione correctamente, lo que para todas las empresas significa asignar los recursos de operación suficientes.
La contribución de las tecnologías digitales
En principio, un proceso ETL se podría confiar a personas con papel, lápiz y una terminal de cómputo. Es laborioso, puede ser caro y requiere revisión, dado que la gente se equivoca. Las tecnologías digitales son un instrumento más adecuado. Después de todo, lo que ha permitido durante las últimas décadas el auge de esta tecnología es su capacidad de ejecutar procesos repetitivos a velocidades prodigiosas y sin cometer ningún error. Procesos de esa especie son, a final de cuentas, lo que se necesita.
La cuestión es que desarrollar programas que puedan ejecutar un proceso de ETL resulta poco práctico. Cada proceso extractivo tiene sus propias características y en principio, es como un traje a la medida. Resuelve una situación muy particular, por ejemplo, extraer los nombres de los remitentes de un acervo de correos electrónicos, pero no sirve para otro tanto de un repositorio de mensajes SMS recibidos por teléfono celular.
Por esa razón, en el mercado han aparecido un rosario de herramientas expresamente desarrolladas con el propósito de resolver procesos ETL. Fueron diseñadas para facilitar la creación de aplicaciones de extracción y manipulación que de otra forma requerirían programadores extremadamente capaces, que dominen numerosas técnicas distintas.
Creada con estas herramientas, una aplicación que en un momento sirvió para resolver una cierta necesidad extractiva de una cierta área del negocio puede usarse para que el departamento de TI resuelva la necesidad de otra área, cuya fuente de datos es distinta de la anterior, sin necesidad de empezar desde cero. Además, escribir código de programación no es una tarea exacta; cada programador tiene su propio estilo, al modo como cada escritor usa el mismo lenguaje a su manera, distinta de la de sus colegas. Las aplicaciones desarrolladas con estas herramientas emplean un “estilo estándar”, por así decirlo. Volviendo al ejemplo anterior, si la empresa que procesa datos de sus correos electrónicos cambia su servidor de correos y necesita ajustar el código de su solución ETL, no es necesario que acuda al programador que hizo el desarrollo inicial.
Como en el caso de otros sistemas que son cada vez más y más un requerimiento de negocio ineludible —como lo era hace medio siglo un conmutador telefónico o hace no tanto tiempo, un aparato de fax, como lo son cada vez más los sistemas CRM o ERP— ejecutar procesos ETL será necesario para más y más empresas. Implica tomar decisiones de negocio, la disyuntiva entre un proveedor externo o la procuración de recursos internos, la herramienta en sí más las personas que sepan usarla.
Cuando se opte por lo segundo, significa también la decisión de elegir entre las varias opciones que el mercado ya ofrece. Algunas de las cuestiones a considerar al evaluar una opción son:
Big data, omnicanalidad, inteligencia artificial y operación basada en datos (data driven) son cuatro conceptos que entrañan una vasta promesa para las empresas. En el fondo está la perspectiva de que los responsables de conducir un negocio tomen sus decisiones con un mayor grado de certeza, puesto que se fundamentan sobre datos que describen la realidad. Que esa promesa se haga realidad necesita de un modo u otro la materia prima, datos confiables. Los procesos ETL se ejecutan para asegurar esa confiabilidad.