Atendimento via WhatsApp Atendimento via WhatsApp

Blog Tecnológico

Utilizando Python com Power BI na era do Data Science

Werikson Rodrigues • 04 mai 2020 • Microsoft Power BI

Utilizando Python com Power BI na era do Data Science

Data Science, nome que é hype no momento, conhecida principalmente pela comunidade de tecnologia. É basicamente um ramo de estudo interdisciplinar de dados estruturados ou não-estruturados na área de tecnologia, finanças, saúde... bem, na verdade qualquer área, afinal, o que não produz dados hoje em dia? Até o simples fato de você ir na padaria comprar pão todos os dias gera informações, sua rotina de caminhos que segue, horários e até a marca do leite que você compra, e digo com toda certeza, sim! Existe alguém que esteja interessado nessa informação, e se você sempre anda com dispositivos eletrônicos conectados a internet, tem uma grande chance que alguma empresa já tenha essa informação de você.

Isso pode até assustar algumas pessoas, porém todo esse processo de colheita de informação está sendo muito útil para mundo. A maioria das tecnologias que temos hoje e que de alguma forma nos ajuda, e é oriunda do processo de obtenção de dados, e como já dizem por aí, (dados é o novo petróleo).

Dentro da Data Science, ou ciência de dados no bom português, existe o Big Data. Não vamos nos estender muito no conceito, mas basicamente é nome dado a área que faz o estudo dos meios de obtenção, tratamento e analise de uma grande quantidade de dados, e pra isso no seu processo, é usado tecnologias como ferramentas e linguagem de programação. Em um artigo feito pela Towards data science no Medium, fizeram uma análise das habilidades e ferramentas mais utilizadas na ciência de dados em 2019 e em destaque está a linguagem Python, logo a frente da linguagem R, que é também bastante utilizada por estatísticos.

Top 5 tecnologias utilizadas no Data Science

 

Para quem não conhece, Python é uma linguagem de alto nível orientada a objeto, que pode ser usada desde o data mining por engenheiros de dados até desenvolvedores web, com uma biblioteca incrível pode se fazer qualquer coisa. Inclusive é utilizado no código da infra de grandes empresas como Google, Facebook, Spotfy, Netflix e muitas outras. Não distante disso em agosto de 2018, a Microsoft atendeu o pedido da comunidade lançou a inclusão do Python no Power BI por meio de scripts.

Artigo da Microsoft no Blog do Power BI sobre o lançamento do Python

 

Bacana né? Então, sem muita enrolação vamos por a mão na massa! Nesse artigo iremos mostrar como fazer a instalação e utilização do Python com o Power BI desktop da Microsoft.

Primeiro passo é ter instalado o Python 3 instalado na sua máquina, e para não ter problemas é sempre bom ter a versão da biblioteca atualizadas, atualmente o Python está na sua versão 3.8.1 e caso você não tenha instalado basta ir em python.org e fazer o download.

Durante o processo de instalação é importante se atentar a dois itens, primeiro é verificar o caminho de instalação do diretório do Python, porque pode acontecer do Power BI não reconhecer o caminho, então você terá que saber onde está, para que possa fazer o direcionamento manual nas configurações do Power Bi, veremos isso mais pra frente.

Na única etapa de instalação podemos visualizar o local onde será instalado, e uma caixa de marcação da opção (Add Python to PATH), essa opção é onde irá adicionar o Python para o caminho do Windows e deve ser marcada.

Pronto, feito isso você já vai ter o Python instalado na sua máquina, para verificar basta abrir o CMD e escrever python, que você irá retornar as informações, como na imagem abaixo.

Feito isso você vai estar no Python e agora vai precisar instalar duas bibliotecas importantes o MATPLOTLIB e o PANDAS

 

PANDAS

Pandas é uma biblioteca de software criada para a linguagem Python bastante utilizada para manipulação e análise de dados. Também dispõe de estruturas e operações para manipular tabelas numéricas e séries temporais e trabalhar com modelos tabulares (colunas e linhas) podendo trabalhar com matrizes.

 

MATPLOTLIB

Matplotlib é uma biblioteca de plotagem para Python e sua extensão matemática numérica NumPy. Fornece uma API orientada a objeto para incorporar gráficos a aplicativos usando os kits de ferramenta da GUI de uso geral.

Para fazer a instalação desses pacotes adicionais de bibliotecas, é necessário usar o PIP, o pip é um gerenciador de pacote do Python e por padrão ele já vem instalado junto com o Python, caso você já tenha instalado o python a algum tempo, talvez o pip não esteja na última versão, para atualizar basta abrir o CMD e digitar: pip3 install --upgrade pip

Pronto, agora com o pip instalado ou atualizado, vamos instalar os pacote adicionais para o Pandas utilize o comando: pip install pandas após instalado uma mensagem deverá retornar “Successfully installed pandas “.

Para o pacote do Matplotlib dever inserir o comando: pip install matplotlib

Todo procedimento para começar a rodar os Scripts já foram realizados, é muito comum as pessoas deixarem de fazer alguns dos procedimentos acima. E vai acabar deparando com um erro ao tentar rodar algum script.



Nesse exemplo acima estava faltando a biblioteca do Pandas.


Para poder habilitar o Python no Power BI, iremos até o Power BI desktop e seguir o seguinte caminho:

Arquivo > Opções e Configurações > Opções > Script do Python.

 


Na janela de opções de Script Python iremos direcionar o Power BI para o diretório raiz onde o Python está instalado no Windows, se você se atentou as etapas de instalação como no começo do tutorial saberá fazer o direcionamento manual, mas a priori o Power BI vai fazer a detecção automática do Python.



Esse processo é feito apenas se o Power BI não detectar o diretório raiz do Python, mas provavelmente a detecção vai ser automática se a instalação foi feita corretamente.

 

Obtendo dados através de Script

Para iniciar nosso teste com Python nada melhor do que usar seus scripts para obter dados e iniciar a modelagem.

 

Na área de Script do Python em obter dados coloque o seguinte código: 

 

import pandas as pd

data = [['Eric',10],['Maria',42],['Marcelo',30]]

df = pd.DataFrame(data,columns=['Nome','Age'],dtype=float)

print (df)


Com esse script, ele nos retorna uma tabela pronta.


O Python pode ser usado em todo processo ETL, que se resume no método de obtenção de dados, modelagem no Power Query e na criação de visuais dinâmicos ou estáticos.

Para inserir os scripts no Editor de consulta, basta ir na aba transformar na área Scripts.

Já para utilizar os scripts visuais, bastas ir na área de dashboard no Power BI desktop



O processo é o mesmo que os de outros visuais, você escolher o ícone desejado e irá abrir a janela vazia, e no caso do Python ele irá liberar apenas um campo de Valores, onde você irá rodar os scripts, você pode colocar mais de um valor no mesmo campo e o script irá rodar todos juntos.


Área de seleção vazia e após selecionar os valores. Abaixo tem o exemplo de onde colocar o script e o botão que o faz rodar.

Script utilizado para rodar o heatmap:

 

import matplotlib.pyplot as plt

import seaborn as sns

sns.heatmap(dataset.corr(),cmap='coolwarm', annot = True,

linewidth =0.7)

plt.show()

 
Como podemos observar, nesse script foi utilizado a biblioteca do seaborn. Ela é bastante utilizada para gerar os visuais em Python, mas não é obrigatório. Para adicionar o seaborn é o mesmo processo feito para adicionar os pacotes do MATPLOTLIB e o PANDAS através do PIP pelo cmd.

Existe uma infinidade de visuais que pode ser utilizado através do Python, muito além dos que encontramos no Marketplace da Microsoft.

Esses são alguns exemplos de visuais utilizando Python:



Vimos que não é tão difícil habilitar o Python no Power BI desktop, e muito menos a utilização dos scripts, agora com tudo funcionando você pode utilizá-lo para importar dados, modelar e criar visuais. Para quem já tem domínio com a linguagem sabe o poder que tem em mãos com essa união de tecnologias.


Alguns exemplos específicos de script de funções que se pode ser usado são: Machine learning com regressão linear, aprendizado supervisionado e não supervisionado, cross-validation, Cost function, teste de hipótese, modelos preditivos. Operações matemáticas usando TensorFlow com vetores N-dimensionais, muito utilizado no Deep Learning. Com Python pode se fazer muitas coisas, muitas MESMO!


Acompanhe o Blog tecnológico da ENG, teremos muitos novos artigos com novidades e bastantes dicas para vocês! Futuramente iremos nos aprofundar nos Scripts de Python rodando no Power BI Desktop e falar sobre Machine Leaning, então fiquem ligados e até a próxima!

Gostou deste conteúdo?




 

 

Werikson Rodrigues

Werikson Rodrigues

Programador Python especializado em de Big Data e Inteligência Analítica com ênfase em Machine Learning e Inteligência Artificial.

ENG DTP & Multimídia - Logo

 

 

ENVIE SEU CONTATO e SEUS COMENTÁRIOS


LinkedIn da ENG DTP Multimídia
     Facebook da ENG DTP Multimídia     Instagram da ENG DTP Multimídia

 Jornad Graphic Design