Data Lake, qué son, cómo se relacionan con el Big Data y para qué sirven.
La generación de datos constante por nuestra parte ha ido generando nuevos desafíos. Uno de ellos es dónde y cómo se almacenan esos datos. Quédate con nosotros en esta nota para comprender mejor qué es un lago de datos.
Sabemos que cada persona produce (en promedio) 1.7 Mb de información por segundo, y que además ésta es heterogénea: texto, imágenes, Gif’s, posiciones GPS, mensajes de texto (sms), videos, tweets, audio, etc.
Para enfrentar este problema, los Científicos de Datos acuñaron el los “Data Lakes”. Pero ¿qué son?
La definición más simple nos dice que se trata de un repositorio que posibilita almacenar grandes volúmenes de datos brutos en el formato nativo en forma indefinida. Es decir, datos en su formato original, en forma permanente. Pero esto también tiene consecuencias: algunos han empezado a plantear la situación en la que a estos lagos los llaman Data Swamps o pantanos de datos, puesto que al almacenarse los datos en su formato original, muchos de ellos son irrelevantes.
Aparecen en los años 2000 como una forma más rentable para el almacenamiento de datos no estructurados, y por consiguiente, más flexibles.
Lo que sí tenemos claro es que los Data Lakes permiten que los datos sean almacenados de forma tal que facilite su explotación. Están diseñados para retener todos los atributos, especialmente cuando aún se desconoce el ámbito de los datos o su uso.
En un ‘data lake’ a cada dato se le asigna un identificador único, junto con un conjunto de etiquetas de metadatos extendidos. Esto se hace para que, cuando se plantea una pregunta comercial, se pueden rescatar los datos relevantes del Data Lake para poder analizarlos y aportar respuestas a la pregunta.
Como ya hemos mencionado en artículos anteriores, ocurre lo mismo que sucede siempre con el Big Data: el volumen y características de los datos ya no pueden ser procesados con los métodos tradicionales. Se necesita de tecnologías y profesionales para ello. Con los lagos de datos, las empresas necesitan científicos de datos capaces de extraer conclusiones a partir del análisis de los datos en bruto. Se los requiere para detectar correlaciones entre datos y extraer conclusiones a medida que profundizan en ellos.
Esperamos te haya resultado interesante este artículo, y que puedas reflexionar sobre los datos, su almacenamiento y su posterior utilización. ¡Te esperamos en la próxima nota!