Para obter resultados com análise de dados, além de gente dedicada, é importante que ferramentas e técnicas certas sejam empregadas, reduzindo investimentos e acelerando a geração de resultados. Uma excelente ferramenta, que destaca-se por sua facilidade e rapidez, é o Azure Data Explorer: serviço que viabiliza a realização de análises em dados estruturados, semiestruturados e não estruturados.
Veja também
- Benefícios tangíveis para o negócio na migração para a Nuvem
- Quando adotar técnicas de aprendizagem computacional?
O serviço da Microsoft integra com outras soluções de storage do Azure, como o Azure Data Lake Gen2, de maneira ágil, já no setup inicial. Sua configuração pode ser feita usando o portal do Azure, começando com a criação de um cluster onde serão vinculadas bases de dados de outros serviços ou pelo upload de arquivos locais.
Veja também
Combinando velocidade, eficiência e a expressividade da linguagem KQL, que conta com várias funcionalidades integradas para realizar operações da área de data science, é possível consultar TBs de dados em instantes, via browser. Também é possível realizar consultas usando o SDK disponível para a linguagem Python.
KQL (Kusto Query Language)
Uma consulta Kusto é uma requisição somente leitura para processamento de dados e retorno de resultados. A consulta é feita em texto puro, usando um modelo de fluxo de dados projetado para fazer a sintaxe fácil de ler, produzir e automatizar. A consulta utiliza entidades do esquema que estão organizadas em uma hierarquia semelhante a SQL, com bancos de dados, tabelas e colunas.
Nos exemplos que seguem, exploramos dados de uma base de dados de repositórios do Github, contendo registros dos eventos que ocorrem em repositórios e seu detalhamento – como pull requests, a abertura de issues e comentários em pull requests, tipo de evento, payload, etc. Essa base de dados contém por volta de um bilhão de registros, totalizando 3 TBs.
Mesmo consultas complexas são completadas em pouco tempo (a consulta do exemplo tomou menos de dois segundos para ser concluída). Esta boa performance, em grande parte, é dada pela organização – compressão e indexação – dos dados que o serviço realiza em seu cluster de processamento.
O serviço também facilita a geração de visualizações gráficas. É possível criar o gráficos complexos, envovlendo agrupamentos e intervalos de tempo (muito comuns em bases contendo informações provenientes de dispositivos IoT).
Na próxima figura, uma consulta simples para detectar anomalias na base de dados.
O processo de exploração de dados para obtenção de valor pode custar caro se não for realizado de forma adequada. Com o Azure Data Explorer é possível analisar dados de maneira rápida, eficiente e com baixo custo, além integrar facilmente com o ecossistema de Big Data do Azure.