A Microsoft atualiza sua plataforma de dados na nuvem com novas ferramentas de análise de dados e torna os conjuntos de dados do Power BI acessíveis para Python, R e SparkSQL.

A empresa atual depende de dados, coletando informações de toda a organização e empregando ferramentas de análise de negócios para responder a questões importantes. Essas ferramentas permitem acesso a dados em tempo real e utilizam informações do passado para fazer previsões sobre futuras tendências com base na situação atual da empresa.
O elemento fundamental para disponibilizar essa ferramenta é possuir uma plataforma de dados unificada em toda a empresa, que integre diversas fontes e ofereça um local para acessar esses dados. Essa plataforma, conhecida como “tecido de dados”, fornece à organização uma base de verdade que pode orientar tanto as decisões imediatas quanto as estratégias de longo prazo, suportando tanto análises instantâneas por painéis quanto modelos de machine learning que auxiliam na identificação de padrões e questões.
Construindo com base nas informações disponíveis.
Não foi uma surpresa ver a Microsoft unir várias de suas ferramentas de análise de dados sob a marca Microsoft Fabric, incluindo uma combinação de dados relacionais e não relacionais armazenados em lagos de dados na nuvem e gerenciados com lagoas. Utilizando o formato de tabela Delta de código aberto e o motor Apache Spark, a Fabric simplifica conceitos complexos de dados para torná-los mais acessíveis a linguagens de programação comuns e a ferramentas analíticas especializadas, como a visualização de dados e o motor de consulta avançado oferecido pela Power BI.
Os primeiros lançamentos do Microsoft Fabric se concentraram em desenvolver as estruturas de dados necessárias para construir aplicações em grande escala baseadas em dados. Será preciso muito trabalho intenso para preparar seus dados da maneira adequada para este tipo de projeto. É fundamental que a engenharia de dados esteja pronta antes de desenvolver aplicações mais avançadas com base nos seus dados.
Incorporar análise de dados à engenharia de dados.
Enquanto a Microsoft continua aprimorando o serviço de tecido, novos recursos e ferramentas foram adicionados. As atualizações mais recentes focam no aspecto de desenvolvimento, incluindo integração com ferramentas e serviços familiares aos desenvolvedores, com funcionalidades que vão além do básico de um conjunto de APIs REST. Essas novas ferramentas permitem que a Fabric seja acessível aos cientistas de dados, conectando conjuntos de dados do Power BI à plataforma de ciência de dados do Azure.
O Power Query no Power BI é uma ferramenta essencial na plataforma de análise de dados da Microsoft. É comparável a uma extensão das ferramentas de tabela dinâmica no Excel e permite manipular grandes volumes de dados de várias fontes de maneira eficiente. Sua principal força está na linguagem de consulta DAX, que oferece recursos para filtrar e aprimorar os dados rapidamente.
O novo recurso de ligação semântica da Microsoft Fabric oferece uma conexão entre o ambiente centrado em dados e as ferramentas de ciência de dados disponíveis em idiomas como Python. Isso é feito por meio de APIs conhecidas, como Pandas e Apache Spark. Ao integrar essas bibliotecas ao código Python, é possível utilizar a ligação semântica de notebooks internos para criar modelos de aprendizado de máquina em ferramentas de inteligência artificial como PyTorch. Além disso, é viável utilizar os dados do Power BI com diversas ferramentas de análise numérica do Python, o que possibilita a aplicação de análises complexas em conjuntos de dados.
Essa evolução é significativa, integrando a ciência de dados em ferramentas e estruturas de desenvolvimento familiar de ambas as partes. A utilização do link semântico possibilita uma colaboração mais eficaz entre as equipes. A equipe de Business Intelligence pode empregar recursos como a DAX para criar seus conjuntos de dados de relatório, os quais são então conectados aos notebooks e modelos utilizados pela equipe de ciência de dados, assegurando que ambos os times estejam sempre trabalhando com os mesmos dados e modelos.
Utilizando conexão de significado em ambientes de trabalho de tecido.
O Python API do link semântico utiliza métodos do Pandas que são reconhecidos. Com esses métodos, é possível identificar e mostrar os conjuntos de dados e tabelas gerados pelo Power BI, além de acessar o conteúdo das tabelas. Caso existam medidas associadas, é viável escrever código para analisá-las e, posteriormente, executar DAX a partir do seu código em Python.
Você pode utilizar as ferramentas padrão do Python para instalar a biblioteca de links semânticos disponível no repositório do módulo Pip. Ao carregar a biblioteca em seu ambiente Python, basta importar o sempy para acessar os dados hospedados em tecido e extrair informações para utilizar em seu código Python. Dentro do ambiente de Tecido, não é necessário autenticação adicional, apenas seu login no Azure. Com isso, você pode criar notebooks e carregar dados em seu workspace.
O conjunto de links semânticos é um agrupamento de pacotes variados que podem ser instalados separadamente, caso prefira. Uma funcionalidade interessante desse conjunto é um conjunto de funções que possibilita a utilização de dados de tecido como geodados, facilitando a adição rápida de informações geográficas aos seus quadros de tecido e o uso das ferramentas geográficas do Power BI em relatórios.
Uma funcionalidade útil para quem trabalha com links semânticos em um caderno interativo é a capacidade de executar o código DAX de forma direta, utilizando a sintaxe interativa iPython. Similar à escrita de código Python, é necessário instalar a biblioteca em seu ambiente antes de carregar sempy como um módulo externo. A partir daí, é possível utilizar o comando %%dax para executar os comandos DAX e visualizar os resultados. Essa abordagem é ideal para realizar experimentos com dados armazenados em tecido, especialmente quando analistas de dados e cientistas trabalham em conjunto no mesmo caderno.
As consultas DAX podem ser realizadas por meio da função evaluation_dax do sempy diretamente no Python. Basta chamar a função com o nome do conjunto de dados e uma string com a consulta desejada. Após isso, o objeto de dados resultante pode ser analisado e utilizado nas demais partes da aplicação.
Outras ferramentas disponíveis no conjunto de links semânticos auxiliam os pesquisadores na verificação de dados. Por exemplo, é possível utilizar algumas linhas de código para visualizar de forma rápida as relações presentes em um conjunto de dados. Essa funcionalidade é especialmente útil para o trabalho em equipe, já que permite refinar as escolhas feitas no Power BI, assegurando a utilização das consultas adequadas para a construção do conjunto de dados desejado. Além disso, outras opções incluem a capacidade de visualizar as interdependências entre as entidades presentes nos dados, auxiliando no aprimoramento dos resultados das consultas e na compreensão das estruturas dos conjuntos de dados.
Um fundamento para a aplicação de dados em larga escala.
Por fim, não há restrição de uso exclusivo de notebooks Python. Se desejar trabalhar com ferramentas para lidar com grandes volumes de dados, é possível realizar consultas simultâneas em conjuntos de dados do Power BI e da Spark, pois as tabelas do Power BI são consideradas tabelas da Spark pela Fabric. Isso possibilita a consulta dos dados do Power BI e das tabelas Spark hospedadas na Fabric utilizando o PySpark. Além disso, é viável utilizar as ferramentas R e SQL da Spark conforme a preferência.
Muitas novidades estão surgindo no Microsoft Fabric, com a inclusão regular de novas funcionalidades na visualização de serviços. A introdução da biblioteca de links semânticos é apenas o primeiro passo para unir a análise de dados e a ciência de dados, facilitando a construção de aplicativos e serviços focados em dados pelos usuários. Será interessante acompanhar os próximos passos da Microsoft nesse sentido.