Quatro maneiras como os dados evoluirão em 2021
O que o ano de 2021 trará para o cenário de dados?
Nota do Editor: em 2021, as organizações continuarão a se adaptar ao "novo normal". Entre mecanismos de recomendação e análises de vendas e marketing, gerenciamento de registros de saúde e pesquisa de vacinas em saúde, além da 4ª revolução industrial e logística na fabricação, os dados estão no centro de tudo. As práticas de dados e os casos de uso estão em constante evolução, levando a avanços nas operações de TI.
O que o ano de 2021 trará para o cenário de dados? Pedimos a Juan Riojas, nosso diretor de dados, e a Narendra Chennamsetty, arquiteto principal, para ponderar as cinco principais tendências de dados e previsões para o próximo ano.
Os dados se tornam o principal facilitador para a experiência do cliente
Os dados se tornarão o condutor da experiência do cliente. As organizações já estão usando IA, testes e otimização e personalização em tempo real para impulsionar a experiência do cliente. Para vencer no quesito experiência do cliente, você precisa ter informações prontamente disponíveis. O caso de negócios pode ser a personalização para uma melhor experiência do cliente, mas o facilitador real são os dados, o machine learning e a ciência de dados que os suportam. Para oferecer as experiências altamente personalizadas que os consumidores desejam, as organizações precisam estar no lugar certo e com os pontos de dados certos para impulsionar a experiência naquele momento. E isso só pode ser realizado com as tecnologias, estruturas de injeção e recursos de IA/machine learning certos.
Previsão
A captura, análise e resposta de dados em tempo real, também referidas como inteligência contínua, será a regra. Os mecanismos de recomendação do tipo Netflix se tornarão mais mainstream. Especialmente após a Covid-19, as organizações entendem melhor os benefícios de reagir rapidamente às mudanças nos comportamentos dos usuários. À medida que mais usuários adotam recursos on-line, todo o perfil demográfico mudou do lazer (compras, notícias, mídias sociais) para as necessidades (trabalho, saúde, escola). Essa mudança resultará em mais ferramentas que vão além da análise de dados para gerar uma melhor compreensão do que os dados significam para a empresa, como agir em relação a eles e quais insights fornecem.
Avanços na engenharia de dados impulsionam a adoção
Habilidades e lacunas de recursos não são mais uma barreira para a entrada em insights avançados de dados. Provedores de nuvem, como a Amazon, desenvolveram soluções pré-construídas de IA/machine learning para que você não precise descobrir como juntar todas as peças do quebra-cabeça sozinho. As ferramentas de automação de produção estão fazendo o mesmo para o processo manual e dependente de engenharia de modelos de dados operacionalizantes. O KubeFlow foi projetado para automatizar processos de entrega de software orquestrando fluxos de trabalho de machine learning no Kubernetes. Em camadas com ferramentas de AIOps, as organizações podem adicionar inteligência operacional em machine learning e pipelines de ciência de dados para mudar mais rapidamente do modelo à produção.
A necessidade de velocidade também está mudando o armazém de dados tradicional, de dados orientados a lotes para fluxos de dados. Não há mais trabalhos em lotes, apenas arquitetura de fluxo. O processamento de dados em grande escala, centrado no processamento em lote, evoluiu desde os anos iniciais dos algoritmos de MapReduce, passando pelas tecnologias Hadoop até o surgimento da estrutura de computação distribuída Apache Spark amplamente adotada. Não só a Spark alcançou enormes ganhos de desempenho devido às computações de pipeline na memória, mas também veio empacotada com recursos de machine learning e streaming. Com os provedores de nuvem aumentando as ofertas de Spark com recursos como execução sem servidor e escalonamento automático, ela se tornou uma ferramenta indispensável na cadeia de ferramentas dos engenheiros de dados.
No entanto, agora parece haver mais uma mudança no cenário, particularmente na análise de fluxo. Em contraste com a abordagem de streaming da Spark, em que os fluxos (conjuntos de dados ilimitados) são processados como uma série de microlotes, os mecanismos de processamento de fluxo mais recentes, como o Cloud Dataflow, o Beam e o Flink, usam uma verdadeira abordagem de streaming, na qual os dados são processados registro a registro ao longo dos percursos em uma série de operadores em pipelines de dados distribuídos. Não só esses mecanismos de processo têm despesas operacionais menores, como também liberam recursos empolgantes.
Ao contrário dos aplicativos Spark em que os dados são processados na ordem em que chegam, os novos mecanismos permitem recursos avançados e flexíveis de janelas nos atributos de carimbo de data/hora no registro.
Por exemplo, no contexto da análise de dados de fluxo de cliques em tempo real, um usuário pode ter intermitências curtas de atividade de eventos de cliques durante um período indeterminado em uma página da web. Usando uma janela de sessão, você pode capturar toda essa atividade em um grande bloco e depois executar análises precisas em vez de cortar a atividade em janelas fixas de tamanho arbitrário como a Spark faria.
Recentemente, a Google Cloud Platform (GCP) anunciou o Cloud Dataflow e o Apache Beam para fornecer uma abordagem unificada de lote e streaming. A combinação fornece consistência mais robusta e melhor semântica sobre como processamos os dados. Se, por exemplo, você tiver dados de registro de servidores entrando em um cluster do Kafka, e você só deseja processar um evento que tenha ocorrido no aplicativo uma vez, ele é chamado de semântica "exatamente uma". Em um ambiente orientado a lotes, isso exigiria codificação ad-hoc e software adicional. Com o Dataflow e o Beam, esse recurso é integrado à estrutura. O armazém de dados moderno, em geral, baseia-se em tecnologias totalmente diferentes das antigas. Vemos as organizações mudando do servidor MS SQL para Redshift e Snowflake para aproveitar as estruturas de dados colunares.
Previsão:
Prevemos um crescimento na adoção desses mecanismos de processamento de fluxo em 2021. Para que as empresas apliquem melhorias, como PNL, análise de gráficos ou de séries temporais, o armazém de dados moderno começará a aproveitar a IA e outras tecnologias avançadas de análise. Não teremos mais um monólito que você possa consultar e obter relatórios e análises. O armazém de dados evoluirá para um conjunto de ferramentas com recursos muito diferentes, como processamento de linguagem natural, pesquisa, análise de gráficos ou até mesmo recursos de sobreposição.
Se você for um cientista de dados, não precisará correr para aprender um monte de novas tecnologias. Em vez disso, concentre-se apenas no que o seu modelo faz e tudo o mais será abstraído para você. A arquitetura de streaming reduzirá em muito a latência (relacionada à parte técnica e ao processo) entre a produção de dados e os dados acionáveis, permitindo uma disponibilidade mais rápida das informações para tomada de decisões.
A segurança dos dados mantém o ritmo – em uma nova corrida
Devido ao aumento dos ataques maliciosos relacionados à pandemia, as organizações estão apertando os cintos de segurança. Com tantas pessoas trabalhando em casa, a segurança, o acesso e a privacidade em mais pontos de extremidade exigem uma abordagem diferente. As equipes de TI e os profissionais de dados estão trabalhando juntos para gerenciar o aumento da exposição e do risco do crescente número de pontos de extremidade em dispositivos BYOD e IoT.
As abordagens tradicionais em silos, limitando apenas o acesso ao armazém de dados, não são mais suficientes. Os dados não são mais recebidos em apenas um sistema; são distribuídos entre vários. Uma equipe quer usá-los para operações, outra para relatórios e outra para ciência de dados. As organizações precisam de uma arquitetura de ação de segurança separada que possa funcionar em todos os sistemas e centralizar atividades típicas, como autenticação, gerenciamento de chaves e gerenciamento de acesso.
A auditoria unificada oferece um sistema centralizado e convergente orientado a serviços para governança de dados. Os usuários podem consumir dados de ou para qualquer tipo de sistema, não importa onde os dados estejam sendo processados, porque os serviços são mais abstratos e não estão limitados a um sistema específico. Por exemplo, um servidor SQL tem usuários, autenticação e modos. Mas se ele está sendo consumido em 50 lugares diferentes por cientistas de dados e equipes de operações, rapidamente se torna incontrolável.
Previsão:
Em vez de ter uma política de segurança em vigor, a responsabilidade da segurança mudará para um modelo de responsabilidade compartilhado para todos.
Em vez de as equipes de dados adicionarem recursos de segurança dedicados, elas optarão por contratar mais profissionais de dados voltados à segurança, para que essa segurança seja incorporada em cada nível de desenvolvimento. Padrões como SOX, PCI DSS e HIPAA passarão de padrões exclusivos do setor para diferenciadores de negócios. Você pode não ser um provedor de cuidados de saúde, mas demonstrar que sua política de privacidade atende aos padrões HIPAA pode adicionar credibilidade.
A confiança será o mantra para 2021
À medida que os dados se tornam mais diferenciadores, as organizações estão começando a vê-los como ativos corporativos valiosos. Mas esses dados são ativos valiosos somente se forem limpos e confiáveis. Para estabelecer confiança, você precisa estabelecer compliance, políticas de privacidade de dados e protocolos de segurança, depois infundir tudo com inteligência e automação em todo o ambiente.
Para criar experiências inovadoras para o cliente, as empresas precisam primeiro ganhar a confiança desse cliente. O uso indevido ou o manuseio incorreto dos dados do cliente quebra uma confiança que pode ser difícil, se não impossível, de recuperar. Uma personalização de bom gosto e não invasiva o ajudará, mas se os usuários não tiverem transparência na cadeia de valor digital, é improvável que compartilharão os dados de que você precisa para criar as experiências certas para eles. As organizações precisam de mais transparência em como coletam, usam, armazenam e descartam dados, além de formas claras de os consumidores controlarem seus próprios dados.
Internamente, para estabelecer a confiança organizacional, as equipes de dados precisam se tornar facilitadores confiáveis. Isso significa estabelecer uma parceria estreita com as equipes de negócios para entender melhor o que precisam e, em seguida, usar esse ciclo de feedback para produzir insights rápidos e precisos que permitam tomada de decisão, inovação de produtos e ganhos de compartilhamento de mercado. À medida que a IA e o machine learning ganham força, a forma como ajudamos a adoção e a habilitamos para serviços está, em última análise, vinculada à confiança dos dados. Dados sujos geram resultados com falhas. Os líderes de dados podem ajudar a garantir que os proprietários de dados entendam como oferecer suporte a dados limpos em que a organização pode confiar para tomar grandes decisões.
Previsão
Os consumidores que acabaram de ficar conscientes quanto a questões de privacidade por meio de documentários como O Dilema das Redes e Privacidade Hackeada estão focados na privacidade e no uso de dados. Os governos estão atuando com mais regulamentos de privacidade que serão lançados nos próximos anos. Quando a política pública falhar, os consumidores esperarão que as empresas assumam a liderança diferenciando-se com privacidade e confiança nos dados. Imagine um tipo de selo de práticas de comércio justo para seus dados que estabeleça e certifique protocolos rigorosos para o manuseio ao longo do ciclo de vida em sua organização.
Analise agora as tendências tecnológicas que realmente importam
About the Authors
Chief Information Officer
Juan Riojas
As Chief Information Officer at Rackspace Technology, Juan Riojas is responsible for enterprise-wide data strategy, management, and analytics to meet the need of the business to answer critical questions through time to insight. He has more than 20 years of industry experience successfully migrating data ecosystem across all public clouds, leading to significant business transformation outcomes. Prior to Rackspace, Juan worked for Informatica building their inaugural Data Office and has held various executive leadership roles at Gogo, Dell, Accenture, and Expeditors. A native of Texas, Juan attended Texas A&M International University, where he studied business administration and holds a post graduate degree from Said Business School, Oxford University
Read more about Juan RiojasRelated Topics