A análise de dados requer uma nova mentalidade. Saiba como chegar lá.
O fator de sucesso número um para qualquer projeto de dados é a vontade política sustentável.
A infraestrutura, as habilidades e os processos necessários para a análise de dados são muito diferentes daqueles necessários para simplesmente coletá-los e organizá-los. Veja o que os líderes corporativos de TI precisam saber sobre como criar as bases da tomada de decisão orientada por dados.
As empresas têm uma quantidade gigantesca de dados. A maior parte deles é conhecida como dados transacionais, consumidos por aplicativos como aplicativos web, ERPs ou sistemas de CRM. A coleta desses dados ajuda a automatizar os processos diários e torná‑los mais rastreáveis ou auditáveis. Ajuda as empresas a capturar vendas incrementais ou fazer melhorias incrementais em seus sistemas. E ajuda a preservar um registro histórico de ações e serviços entregues.
Porém, à medida que o volume desses dados transacionais tem crescido em proporções gigantescas, muitas empresas perceberam que essa proporção gigantesca também contém insights sobre tendências e padrões que podem orientar a tomada de decisões e a inovação. Se, no caso, puderem fazer duas coisas: garantir que os dados sejam de qualidade suficiente e levá-los ao lugar certo para uma análise mais profunda.
Fazer isso exige que passemos de uma mentalidade de coleta de dados e organização dos dados transacionais — uma área em que a maioria das empresas que encontro já são altamente experientes — para uma mentalidade analítica. No processo, precisamos garantir que as pessoas que estão usando os dados se sintam confiantes com eles e confortáveis para tomar decisões com base neles.
Essa jornada pode ser difícil. As competências, os processos e as infraestruturas relacionadas à análise dos dados são muito diferentes daqueles relacionados à coleta e à organização de dados. E a arquitetura normalmente precisa ser desenvolvida para fins específicos.
Então, se a sua empresa sabe que poderia estar usando melhor os dados, antes de entrar de cabeça, vamos dar uma olhada em algumas das decisões que você precisará tomar na jornada para se tornar orientado por dados.
Decisão 1: Identificando seus dados
Para começar, você precisa identificar os dados que possui atualmente.
Isso não é tão óbvio quanto parece. Envolve entender não só o que são esses dados, mas também onde estão e como você pode chegar melhor a eles. Também é preciso entender a origem desses dados: como chegaram lá e quais decisões e processos poderiam ter impactado a qualidade deles ao longo do tempo.
A qualidade pode ser um desafio em particular com os sistemas transacionais, porque erros humanos, atalhos e omissões no ponto de entrada podem se acumular ao longo dos anos e ter impactos significativos. E, à medida que os lagos de dados criados por diferentes equipes são adicionados a esses fluxos transacionais, as melhores suposições sobre as intenções dos construtores originais também podem introduzir problemas de qualidade.
Você também precisa descobrir se pode ou não realizar sua análise no sistema no qual os dados residem atualmente. Normalmente, devido aos riscos impostos pelas operações diárias de executar esses cálculos em sistemas de bancos de dados que atendem aplicativos de front-end, você não poderia, ou não deveria.
Então, algumas das primeiras decisões que você precisa tomar serão baseadas nas respostas a estas duas perguntas: onde você precisa ou quer que esses dados estejam? E quais são os fatores operacionais e as condições regulatórias que podem influenciar isso?
Decisão 2: Identificando a oportunidade
As empresas têm, provavelmente, pelo menos uma dúzia de casos de uso em que suspeitam que os dados possam ser melhor aproveitados. Mas é muito caro e difícil, em termos de organização, assumir muitos projetos ao mesmo tempo.
A primeira decisão importante a tomar é identificar o caso de uso mais fácil de alcançar. As perguntas-chave a fazer incluem: com o que você quer que o resultado final desejado se pareça? É melhor ter painéis e visualizações, automatizando a geração de relatórios para registros financeiros de fim de mês, ou aproveitar a análise preditiva para dar suporte ao gerenciamento e à tomada de decisões executivas?
Seja qual for o seu caso de uso específico, ele provavelmente se enquadra em uma das três categorias amplas com um perfil de usuário associado, o que também influenciará algumas das decisões que você tomará mais tarde sobre infraestrutura. Essas categorias são:
- BI/visualização: este caso de uso está focado em permitir melhores relatórios e tomadas de decisões, e os usuários tenderão a não ser técnicos. Eles não criarão recursos no lago de dados nem os adicionarão à sua infraestrutura de TI.
- Automação e machine learning: nesse caso de uso, talvez você já tenha seus dados operacionais e de relatórios em outro lugar, mas deseja disponibilizá-los para processos de machine learning para gerar insights prescritivos e preditivos. Isso requer a disponibilização rápida de conjuntos de dados grandes, históricos e muitas vezes muito específicos aos cientistas de dados.
- Alimentando outros sistemas transacionais: este caso de uso final está centralizado na disponibilização de dados do sistema A para o sistema B, para impulsionar processos e resultados comerciais adicionais. Um sistema como esse empacotará e preparará pequenos pedaços de dados do lago e os compartilhará com o sistema de destino.
Decisão 3: Identificando as necessidades atuais e futuras de infraestrutura
O caso de uso que você busca resolver influenciará suas decisões tecnológicas imediatas sobre o acesso aos dados do lago e criará os pipelines para entregar esses dados aos sistemas e usuários relevantes.
Mas, ao tomar essas decisões de infraestrutura, é importante ter em mente a necessidade de adaptabilidade. É altamente provável que no futuro você queira atender a um dos outros casos de uso. As organizações que começam a ter ganhos com a análise de dados tendem a desenvolver rapidamente um grande apetite por aplicativos cada vez maiores. Por exemplo, ajudamos um cliente no setor de petróleo e gás a obter dados de um sistema de previsão financeira existente e disponibilizá-los para um público mais amplo através do lago de dados. O sucesso desse caso de uso logo levou a empresa a querer pegar os mesmos dados e colocá-los em um sistema de modelagem financeira específico para planejamento executivo.
Portanto, sua próxima decisão principal é criar uma infraestrutura em torno do seu lago de dados, que seja usada apenas para seu sistema ou caso de uso específico, (o que é improvável) ou criar uma base que também acomode casos de uso futuros. As principais perguntas iniciais a fazer, que ajudam a estabelecer essa mentalidade de adaptação incluem: esses mesmos dados também podem ajudar a criar modelos preditivos ou impulsionar a automação em outros lugares do negócio? Em caso afirmativo, quais são os sistemas adicionais a considerar?
O que você resolver construir no final será baseado nas sutilezas do que quer realizar agora e em suas melhores tentativas de antecipar futuros usos desses dados.
Erros comuns a evitar
Um dos erros mais comuns é garantir que seus dados sejam de boa qualidade e tenham um caso de uso claro, antes de começar a criar os pipelines de dados. Além disso, certifique-se de que, quando os pipelines forem criados, estejam de acordo com as melhores práticas de engenharia de software.
A avaliação da qualidade dos dados é complicada, porque pode ser uma medida subjetiva, mas o benchmark mínimo é que os usuários podem confiar nela o suficiente para tomar decisões com confiança com base nos insights gerados. Enquanto isso, transportar as melhores práticas da engenharia de software está se tornando mais urgente à medida que as disciplinas de analista de dados e desenvolvedor começam a convergir. Por exemplo, muitas vezes os analistas transformados em desenvolvedores ignoram processos básicos de CI/CD, executam código em sistemas de produção manualmente ou arquitetam os projetos de maneiras que os tornam difíceis de manter e evoluir.
Mas a regra de ouro que me foi passada por um dos nossos Diretores de Contas Estratégicas é a seguinte: o fator de sucesso número um para qualquer projeto de dados é a vontade política sustentável.
O fator de sucesso número um para qualquer projeto de dados é a vontade política sustentável.
Esses são projetos de longo prazo. Para gerar e sustentar a vontade política necessária no longo prazo, você precisa mostrar valor rapidamente para seus usuários e manter o engajamento de alguém no nível de liderança que esteja disposto a fazer o investimento funcionar.
Um guia de campo de corpos d'água de dados
About the Authors
Related Topics