Um guia de campo de corpos d'água de dados
De lagos de dados a fluxos de dados, o mundo do big data é inundado de metáforas.
Colaborador: Traey Hatch
De lagos de dados a fluxos de dados, o mundo do big data é inundado de metáforas. Em sua maior parte, a comparação faz sentido. Como a água, os dados são um recurso que pode ser armazenado em reservatórios estáticos ou que podemos permitir que fluam de um lugar para outro. Os dados podem desencadear ações, assim como um rio faz girar um moinho ou uma turbina em uma barragem. E dados inexplorados podem ocultar segredos, assim como o oceano esconde antigos navios naufragados em suas profundezas.
Mas como qualquer metáfora, esta pode ser levada um pouco longe demais. Nos últimos anos, o número de termos de dados relacionados à água se tornou considerável. Muitos de nós já ouviram falar em lagos de dados — mas já ouviram falar de "casas no lago de dados" ou "lagoas de dados"? É difícil dizer quais desses termos se referem a algo substancial, e quais são miragens.
Eu também não tinha certeza, por isso mergulhei (com o perdão do trocadilho) em oito "corpos d'água" de dados comuns. Aqui está a minha visão sobre quais termos vale a pena manter no seu léxico pessoal e quais você deve jogar fora.
Aqui está a minha visão sobre quais termos vale a pena manter no seu léxico pessoal e quais você deve jogar fora
Lago de dados
Este termo foi o início de tudo. O lago de dados é um vasto repositório de dados brutos ou levemente processados que é um componente central da infraestrutura de dados da maior parte das organizações. O lago pode existir apenas para armazenagem, ou pode incluir uma camada computacional capaz de analisar os dados que ela contém (veja o item "casa no lago de dados", abaixo).
De qualquer forma, a metáfora do lago é boa. A capacidade de armazenamento quase infinita de um lago de dados significa que ele pode absorver um fluxo constante de dados sem encher nem transbordar, assim como um lago de verdade alimentado por um rio. (Ok, os lagos de verdade às vezes transbordam, mas não precisamos levar a metáfora tão a sério.)
VEREDITO: lembrar
Casa no lago de dados
Quando os lagos de dados eram relativamente novos, eles eram usados exclusivamente para armazenamento. Para fazer a análise, você tinha que copiar os dados relevantes para uma estrutura separada que normalmente era executada em hardware especializado, chamada armazém de dados. Mais recentemente, a tecnologia se desenvolveu ao ponto de tornar possível pesquisar e agregar dados para análise diretamente no lago, usando um serviço gerenciado ou um arranjo temporário em vez de um hardware dedicado. Essa "casa no lago de dados" executa as mesmas cargas de trabalho de análise que você executava em um armazém, mas fica sobre o seu lago de dados, eliminando a necessidade de copiar e transferir dados.
Uma vez que isso não reflete uma mudança de metodologia, em última análise "casa no lago de dados" é um termo de marketing. Adicionar um ambiente computacional distribuído não muda de fato o que o lago de dados é. Significa apenas que há novos padrões e software para acessar esses conjuntos de dados.
VEREDITO: esquecer
Pântano de dados
Isso é o que acontece quando um lago de dados dá errado – governança de dados inadequada, falta de compromisso com processos de limpeza regular/consistente de dados. Os dados de um pântano de dados podem não ter metadados, dificultando sua organização e pesquisa. Ou ele pode conter grandes depósitos de dados completamente irrelevantes que alguém coletou sem ter um plano real do que fazer com eles. Um pântano pode ser limpo e transformado em um lago com vida, mas demanda algum investimento.
VEREDITO: lembrar e tentar evitá-lo!
Fluxo de dados
Atualmente, nós usamos tanto o termo "streaming" (literalmente, fluxo), que é fácil esquecer que ele também é uma metáfora relacionada à água. Um fluxo de dados é um fluxo contínuo de dados sem começo nem fim. Embora o termo seja mais frequentemente usado para descrever fluxos de dados brutos, como dados de sequência de cliques de uma propriedade digital ou dados de sensores de dispositivos IoT, dados limpos e processados também podem ser transmitidos em um fluxo. Diferentemente dos dados estáticos que ficam no seu lago de dados, os dados em fluxo devem ser processados ou armazenados de forma sequencial, registro por registro conforme eles chegam.
VEREDITO: lembrar
Rio de dados
Esse termo não é muito comum – ainda –, mas alguns especialistas em dados argumentam que o rio é uma metáfora melhor para o armazenamento de dados moderno do que o lago. Um lago geralmente é estático, enquanto o fluxo de dados em tempo real em uma empresa moderna é dinâmico, desencadeando várias ações durante seu fluxo. Mas como já temos o termo fluxo de dados para descrever dados em movimento, esse novo termo é basicamente desnecessário.
VEREDITO: esquecer
Poças e lagoas de dados
Não há concordância quanto a que nome dar a um conjunto de dados que é menor ou mais especializado do que o lago de dados de uso geral. Segundo O’Reilly, poças de dados são construídas com tecnologia de big data, mas para um caso de uso especializado ou para uma equipe, enquanto uma lagoa de dados é essencialmente um lago de dados desorganizado, criado a partir da reunião de diversas poças de dados ou da descarga de dados de um armazém de dados em uma nova plataforma. Mas algumas pessoas usam o termo "lagoa de dados" de forma menos pejorativa, para se referir a um conjunto de dados menor e mais gerenciável ou um grupo de dados que é apartado do resto do lago devido a questões de privacidade, governança ou outras.
Depois de determinados pontos, as tentativas de manter a metáfora da água secam. Este é um desses pontos. Não há necessidade de chamar uma planilha de Excel que não está integrada ao seu lago de dados de lagoa, poça ou qualquer outra coisa – especialmente se ninguém concorda em relação à terminologia.
VEREDITO: esquecer
Delta Lake
Não se limitando a termos gerais para estruturas de dados, a metáfora de dados como água chega também aos nomes próprios de ferramentas e soluções de dados. Criado pela Databricks e doado à Linux Foundation, o Delta Lake é um projeto de código aberto criado para remodelar a forma como um lago de dados funciona. Em vez de escrever os dados de uma forma imutável, o Delta Lake permite que você atualize e exclua registros individuais do seu lago, e ainda oferece alguns benefícios adicionais.
VEREDITO: lembrar
Geleiras de dados, icebergs e outros pedaços de água congelada
Muitas empresas de tecnologia emprestam seu próprio toque à metáfora da água nomeando seus produtos com base em tipos de gelo. Por exemplo, o Snowflake é um armazém de dados na nuvem, o Apache Iceberg é um formato de tabela aberta para grandes conjuntos de dados analíticos (semelhante ao Delta Lake) e o Amazon S3 Glacier é uma categoria de armazenamento frio de dados de longo prazo (entendeu?). Diferente de alguns termos desta lista, esses nomes são bastante inteligentes, e os produtos que eles descrevem são realmente úteis.
VEREDITO: lembrar
A vida útil de uma metáfora
Por mais que já tenhamos estendido a metáfora dos dados como água, ela ainda pode ir mais longe. Na verdade, alguns foram intencionalmente deixados de fora, como "gotas de dados" e outros! Existem muitas palavras relacionadas à água que ainda não foram absorvidas pelo léxico da tecnologia, e muitos fenômenos relacionados aos dados que ainda precisam ser nomeados. Em alguns anos, poderemos estar falando sobre "cachoeiras de dados" ou alguma nova palavra da moda.
Mas isso está no futuro. Por ora, a lista acima é uma descrição abrangente de todos os corpos d'água de dados que você precisa conhecer – e alguns que você não precisa – para navegar pelas águas traiçoeiras das conversas sobre dados.
Deixemos de lado a discussão "AutoML x cientista de dados"
About the Authors
VP, Private Cloud Solutions
Eric Miller
An accomplished tech leader with 20 years of years of proven success in enterprise IT, Eric is a strong advocate of cloud native architectural patterns, passionate about Machine Learning, IoT, Serverless, and all things automation in the cloud. Eric has led several AWS and solutions architecture initiatives, including AWS Well Architected Framework (WAF) Assessment Partner Program, Amazon EC2 for Windows Server AWS Service Delivery Program, and a wide range of AWS rewrites for multi-billion dollar organizations. Prior to joining Rackspace, Eric was the Vice President of AWS Customer Solutions at Onica, which was acquired by Rackspace in 2019. Before working with Onica, Eric held several technology leadership positions at School Pointe, Inc., Neudesic, m2 Consultants, ARGUS International, Inc., Apex Mortgage Services LLC, and TechSkills. Eric lives in New Albany, Ohio with his wife and family. He holds a Bachelor of Science in Information Technology and Information Systems Security from the University of Phoenix.
Read more about Eric MillerRelated Topics