Pandas na análise de dados

Panda em floresta de bambús

Biblioteca Pandas 

A biblioteca Pandas nos ajuda a ler diversos tipos de arquivos, trata-los, tirar redundâncias, resumi-los e visualiza-los em disversas formas.

No primeiro momento é possível que os dados do seu dataset venham com incompletos, registros nulos ou registros mal formatados.

  1. Utilize df.info() para entender onde temos valores nulos e valores não válidos. Exemplo de ‘valor não válido’ seria em uma informação na coluna altura de um funcionário onde encontramos o valor de 9.5 metros.  Fica claro neste caso que não temos uma pessoa de 9 metros e meio, portanto temos uma informação incorreta que deve ser descartada ou alterada.
  2. Utilize dropna() quando os valores de linhas com dados ausentes são irrelevantes. Ex.: Não impacta apagarmos 30 linhas de um dataset de 100.000 linhas.
  3. Utilize df.fillna(valor) quando você quer preservar agumas das linhas/colunas que tem valores nulos. Ex:. Vamos dizer que o dataset tenha 1% de registros com valores nulos na coluna salário, poderíamos subistituir por um valor de salário médio a fim de preservar as demais informações nestas linhas (registros). É importante sempre comentar e documentar esses tipos de abordagem.

Sintetizar as informações relevantes

  • Para visualizarmos melhor é importante aplicar filtros e agregar os dados. Exemplo de Filtro: Se o dataset se refere a um histórico de preço de combustível de todo o Brasil e nosso interesse de pesquisa é apenas no Rio de Janeiro podemos filtrar pelo RJ.
  • Quando trabalhamos com dados numéricos em escalas diferentes, é importante aplicar um processo conhecido como normalização. Basicamente é pegar dados que podem ser organizados em uma escala e transforma-los em números. Exemplo: Escala de urgência “urgente”,”media” e “baixa” pode ser normalizado pois existe uma ordem intrínseca, já no caso de cor “branca”, “vermelha” e “azul” não podemos fazer uma normalização pois não existe uma ordem intrínseca .

Os Dados ainda podem ser classificados como:

 

Dados primários

  • São aqueles coletados de primeira mão, ou seja, dados que ainda não foram publicados, autênticos, sem interferência humana.
  • Entre as fontes de dados primários, temos questionários e entrevistas.

Dados secundários

  • São aqueles dados que já foram publicados de alguma forma, ou seja, sofreram alguma interferência humana.
  • Entre as fontes de dados secundários, temos: livros e jornais.

 

Dados qualitativos

  • São dados não numéricos, em sua maioria, normalmente descritivos ou nominais. Apresentam-se, em geral, em formato de textos, sentenças ou rótulos.

Dados quantitativos

  • São os dados numéricos, que podem ser matematicamente computados. Essa categoria de dado mede diferentes escalas que podem ser nominais, ordinais, intervalares e proporcionais. Na maioria dos casos, esses dados resultam da medição de algum aspecto ou fenômeno.

 

Método de coleta dos dados:

  • Podemos coletar dados qualitativos por perguntas abertas e os métodos envolvidos para seu tratamento são grupos de foco, de discussão e entrevistas.
  • Podemos coletar dados quantitativos por surveys (Pesquisas/Questionários), as queries(Consultas a Bancos de Dados), o consumo de relatórios (Reports) e os scrapers (mineração de dados com bibliotecas BeautifulSoup e Scrapy)
  • As categorias de dados não são mutuamente exclusivas, pois é muito comum encontrar relatórios ou fazer entrevistas cujo resultado contenha tanto dados quantitativos e qualitativos.

 

Regulação de dados

Ainda podemos encontrar pontos fora da curva (outliers – muito maiores). Podemos remover os dados destoantes do conjunto ou fazermos uma regularização que é trazer um valor proporcional pela fórmula valor_observado/(valor_maximo – valor_mínimo) chegando a um valor entre 0 e 1.

Ambiente Virtual

Ambiente Virtual

Antes de criarmos um ambiente virtual desative todos os outros ambientes virtuais :

  1. no terminal

Criar o Ambiente Virtual

No terminal execute um dos comandos abaixo, dependendo do seu sistema operacional:

  • Windows (PowerShell):

  • Linux/MacOS:

Ativar o Ambiente Virtual

  • Windows (PowerShell):

  • Linux/MacOS:

Agora você deve ver no terminal a linha iniciada por (venv) o que significa que seu ambiente virtual está ativo, permitindo agora instalar as bibliotecas nescessárias ao projeto.

Exemplo:

Para que serve o ambiente virtual:

Cada projeto tem bibliotecas específicas, por isso devemos usar uma biblioteca adequada ao projeto.

 

Um ambiente virtual pode atender vários projetos.

Por exemplo se trabalhamos com “Análise de Dados” iremos instalar “Pandas” e “Numpy” em nosso ambiente virtual que chamaremos de venv_analise_dados e poderemos utiliza-lo em outros projetos de análise de dados.

Caso não saiba em qual ambiente virtual usar “pip install” você estará instalando em um ambiente virtual desconhecido ou estará criando um projeto com ambiente virtual gigantesco.

Evite criar um ambientes virtuais pesados, para evitar sofrer lentidão em seus projetos e evitar compartilhar um requeriments.txt que oriente sua equipe a instalar uma infinidade de bibliotecas desnescessárias ao projeto.

Então planeje seus ambientes virtuais, dê nomes relevantes e instale apenas o nescessário.