Solve Graphic Data Bodies of Water 1600x680_PNG

Una guía de campo para los cuerpos de agua de datos

Desde los lagos de datos hasta los flujos de datos, el mundo del big data está inundado de metáforas relacionadas con el agua.

Colaborador: Traey Hatch

Desde los lagos de datos hasta los flujos de datos, el mundo del big data está inundado de metáforas relacionadas con el agua. En gran parte, la comparación tiene sentido. Como el agua, los datos son un recurso que se puede almacenar en depósitos estáticos o que pueden fluir desde un lugar a otro. Los datos pueden generar acción, como un río hace girar la rueda de un molino o una turbina en una represa. Y los datos no explorados pueden esconder secretos, como un océano esconde antiguos naufragios en sus profundidades.

Sin embargo, al igual que cualquier otra metáfora, esta puede alcanzar otros niveles. En los últimos años, la cantidad de términos de datos relacionados con el agua se volvió abrumadora. Muchos de nosotros ya hemos escuchado hablar acerca de los lagos de datos, pero ¿qué pasa con las "casas de los lagos de datos" o con los "estanques de datos"? Es difícil saber cuáles de estos términos hacen referencia a algo sustancial y cuáles son irrealidades.

Yo tampoco estaba seguro, por lo que me sumergí (valga la ironía) en ocho "cuerpos de agua" de datos comunes. Esta es mi opinión sobre qué términos vale la pena que conserve en su léxico personal y cuáles debe dejar de lado.

Esta es mi opinión sobre qué términos vale la pena que conserve en su léxico personal y cuáles debe dejar de lado

Lago de datos

Todo comenzó con este término. Como componente central de la infraestructura de datos en la mayoría de las organizaciones, un lago de datos es un amplio repositorio de datos sin procesar o ligeramente procesados. El lago puede existir netamente para almacenamiento o puede incluir una capa computacional capaz de realizar análisis en los datos que contiene (vea el punto sobre la "casa del lago de datos" a continuación).

De cualquier manera, la metáfora del lago es apropiada. La capacidad de almacenamiento casi infinita de un lago de datos significa que puede absorber un flujo constante de datos sin llenarse ni desbordarse, como un verdadero lago que es alimentado por un río. (Sí, ya sé, a veces los lagos reales se desbordan, pero no debemos tomarnos la metáfora tan en serio).

VEREDICTO: Recuérdelo

Casa del lago de datos

Cuando los lagos de datos eran relativamente nuevos, se usaban solo como almacenamiento. Para realizar un análisis, tenía que copiar los datos relevantes en una estructura separada que normalmente funcionaba con un hardware especializado, y se llamaba almacén de datos. En el último tiempo, la tecnología ha evolucionado hasta el punto en que se ha vuelto posible buscar y agregar datos para análisis directamente en el lago, con un servicio administrado o una disposición temporaria en vez de un hardware dedicado. Esta "casa del lago de datos" ejecuta las mismas cargas de trabajo de análisis que se solían ejecutar en un almacén, pero está justo por encima de su lago de datos y elimina la necesidad de copiar y de transferir datos.

Si bien esto no refleja un cambio en la metodología, en última instancia, la "casa del lago de datos" es un término de marketing. En verdad, agregar un ambiente computacional distribuido no cambia qué es un lago de datos, solo significa que hay nuevos estándares y software para acceder a esos conjuntos de datos.

VEREDICTO: Olvídelo

Pantano de datos

Esto es lo que ocurre cuando un lago de datos falla: se produce un control inadecuado de los datos, hay una falta de compromiso con los procesos para limpiar de forma regular/consistente los datos. Los datos en un pantano de datos pueden carecer de metadatos, lo que dificulta la organización y la búsqueda. O pueden contener grandes almacenes de datos completamente irrelevantes que alguien recopiló sin tener un plan real para hacer algo con ellos. Se puede limpiar un pantano y se puede convertir en un lago habitable, pero demanda cierta inversión.

VEREDICTO: ¡Recuérdelo y trate de evitarlo!

Flujo de datos

Hoy en día usamos mucho el término "flujo" (del inglés, streaming) y, fácilmente, nos olvidamos de que es una metáfora relacionada con el agua. Un flujo de datos es un caudal continuo de datos sin principio ni fin. Si bien, en general, el término se usa para describir flujos de datos sin procesar, como los datos del tráfico de una propiedad digital o con los datos de sensores de los dispositivos IoT, también se pueden transmitir datos limpios y procesados en un flujo. A diferencia de los datos estáticos en su lago de datos, los datos del flujo de datos deben procesarse o almacenarse en secuencia, registro por registro a medida que llegan.

VEREDICTO: Recuérdelo

Río de datos

Este no es un término muy común, todavía, pero algunos expertos en datos argumentan que un río es una mejor metáfora para el almacenamiento de datos moderno que un lago. Un lago, en general, es estático, mientras que el flujo de datos en tiempo real a través de una empresa modera es dinámico, y desencadena diversas acciones a medida que fluye. Pero, debido a que ya tenemos el término flujo de datos para describir datos en movimiento, este término nuevo es muy necesario.

VEREDICTO: Olvídelo

Charcos y estanques de datos

Existe cierto desacuerdo sobre cómo llama usted a un conjunto de datos que es más pequeño o más especializado que su lago de datos de uso general. Según O'Reilly, los charcos de datos se construyen con tecnología de big data, pero están destinados a un caso de uso especializado o a un equipo, mientras que un estanque de datos es, en esencia, un lago de datos desorganizados, que se crea al reunir varios charcos de datos o al transferir datos de un almacén de datos a una nueva plataforma. Pero algunos usan el término "estanque de datos" de manera menos peyorativa para referirse a un conjunto de datos más pequeño y manejable o a un conjunto de datos que se separa del resto del lago debido a cuestiones de privacidad, control u otras inquietudes.

Después de ciertos momentos, se agotan los intentos de mantener la metáfora relacionada con el agua. Este es uno de esos momentos. No hay necesidad de llamar estanque, charco o de cualquier otra manera a una planilla de cálculo de Excel que no esté integrada con su lago de datos, en especial, cuando nadie está de acuerdo con la terminología exacta.

VEREDICTO: Olvídelo

Delta Lake

Sin limitarse a los términos generales de las estructuras de datos, la metáfora de que los datos son como el agua se filtra también en los nombres propios de las herramientas y soluciones de datos. Delta Lake, creado por Databricks y que se donó a la Fundación Linux, es un proyecto de código abierto creado para rediseñar cómo funciona un lago de datos. En vez de escribir datos de manera inmutable, Delta Lake le permite actualizar y eliminar registros individuales en su lago, como también ofrecer algunos beneficios adicionales.

VEREDICTO: Recuérdelo

Glaciares, icebergs de datos y otros fragmentos de agua congelada

Muchas empresas de tecnología pusieron su toque personal en las metáforas relacionadas con el agua al darle a sus productos nombres asociados con el hielo. Por ejemplo, Snowflake es un almacén de datos en la nube, Apache Iceberg es un formato de tabla abierta para conjuntos de datos de análisis grande (piense de forma similar a Delta Lake) y Amazon S3 Glacier es una clase de almacenamiento para un almacenamiento en frío de datos a largo plazo (¿se entiende?). A diferencia de otros términos de esta lista, estos nombres son bastante ingeniosos, y, además, los productos que describen son realmente útiles.

VEREDICTO: Recuérdelo

La vida útil de una metáfora

En la medida en que ya hemos amoldado la metáfora de que los datos son como el agua, es posible que todavía pueda seguir avanzando.  En realidad, hay algunas que dejé de lado adrede, como "gotas de agua" y varias más. Existen muchas palabras relacionadas con el agua que todavía no tienen un lugar en el léxico tecnológico y hay muchos fenómenos relacionados con los datos que todavía necesitan un nombre. En algunos años, todos podríamos estar hablando acerca de las "cascadas de datos" o de alguna otra nueva palabra de moda.

Pero eso será más adelante. Por ahora, la lista anterior es una explicación integral de todos los cuerpos de agua de datos que necesita conocer, y algunos que no conoce, para navegar por las complicadas aguas de las conversaciones relacionadas con los datos.

 

Join the Conversation: Find Solve on Twitter and LinkedIn, or follow along via RSS.

Stay on top of what's next in technology

Learn about tech trends, innovations and how technologists are working today.

Subscribe
AutoML

Dejemos de lado la discusión entre el AutoML y los científicos de datos

About the Authors

Eric Miller - Senior Director, Technical Strategy, Rackspace Technology

VP, Private Cloud Solutions

Eric Miller

An accomplished tech leader with 20 years of years of proven success in enterprise IT, Eric is a strong advocate of cloud native architectural patterns, passionate about Machine Learning, IoT, Serverless, and all things automation in the cloud. Eric has led several AWS and solutions architecture initiatives, including AWS Well Architected Framework (WAF) Assessment Partner Program, Amazon EC2 for Windows Server AWS Service Delivery Program, and a wide range of AWS rewrites for multi-billion dollar organizations.  Prior to joining Rackspace, Eric was the Vice President of AWS Customer Solutions at Onica, which was acquired by Rackspace in 2019. Before working with Onica, Eric held several technology leadership positions at School Pointe, Inc., Neudesic, m2 Consultants, ARGUS International, Inc., Apex Mortgage Services LLC, and TechSkills. Eric lives in New Albany, Ohio with his wife and family. He holds a Bachelor of Science in Information Technology and Information Systems Security from the University of Phoenix.  

Read more about Eric Miller