Classe dos Eventos Aleatórios

dados

Em probabilidade, a classe de eventos aleatórios é o conjunto formado por todos os eventos possíveis (todos os subconjuntos) de um espaço amostral \(\Omega\).

\(\mathcal{F} = \{ A \mid A \subseteq \Omega \}\)

Características Principais

  • Também chamada de conjunto das partes do espaço amostral
  • Notação: \(\mathcal{P}(\Omega)\) ou \(2^\Omega\)
  • Inclui todos os subconjuntos possíveis, desde o vazio até o próprio \(\Omega\)

Exemplos

Exemplo 1: Moeda

Espaço amostral:
\(\Omega = \{Cara, Coroa\}\)
Classe de eventos:

\(\mathcal{F} = \{\emptyset, \{Cara\}, \{Coroa\}, \{Cara, Coroa\}\}\)

Exemplo 2: Dado

Espaço amostral:
\(\Omega = \{1, 2, 3, 4, 5, 6\}\)

A classe de eventos contém:

  • Evento “número par”: \(\{2, 4, 6\}\)
  • Evento “número primo”: \(\{2, 3, 5\}\)
  • Todos os 64 subconjuntos possíveis (2⁶)

 

Emulando lançamento de dados na linguagem R

 

Propriedades

Propriedade Descrição
Contém o espaço amostral \(\Omega \in \mathcal{F}\)
Contém o conjunto vazio \(\emptyset \in \mathcal{F}\)
Fechada sob complementação Se \(A \in \mathcal{F}\), então \(A^c \in \mathcal{F}\)
Fechada sob uniões Se \(A, B \in \mathcal{F}\), então \(A \cup B \in \mathcal{F}\)

Importância

A classe de eventos aleatórios é fundamental porque:

  1. Define exatamente quais subconjuntos podem ter probabilidade associada
  2. Permite operações lógicas entre eventos (e, ou, negação)
  3. Forma a base para a definição de uma medida de probabilidade

Pandas na análise de dados

Panda em floresta de bambús

Biblioteca Pandas 

A biblioteca Pandas nos ajuda a ler diversos tipos de arquivos, trata-los, tirar redundâncias, resumi-los e visualiza-los em disversas formas.

No primeiro momento é possível que os dados do seu dataset venham com incompletos, registros nulos ou registros mal formatados.

  1. Utilize df.info() para entender onde temos valores nulos e valores não válidos. Exemplo de ‘valor não válido’ seria em uma informação na coluna altura de um funcionário onde encontramos o valor de 9.5 metros.  Fica claro neste caso que não temos uma pessoa de 9 metros e meio, portanto temos uma informação incorreta que deve ser descartada ou alterada.
  2. Utilize dropna() quando os valores de linhas com dados ausentes são irrelevantes. Ex.: Não impacta apagarmos 30 linhas de um dataset de 100.000 linhas.
  3. Utilize df.fillna(valor) quando você quer preservar agumas das linhas/colunas que tem valores nulos. Ex:. Vamos dizer que o dataset tenha 1% de registros com valores nulos na coluna salário, poderíamos subistituir por um valor de salário médio a fim de preservar as demais informações nestas linhas (registros). É importante sempre comentar e documentar esses tipos de abordagem.

Sintetizar as informações relevantes

  • Para visualizarmos melhor é importante aplicar filtros e agregar os dados. Exemplo de Filtro: Se o dataset se refere a um histórico de preço de combustível de todo o Brasil e nosso interesse de pesquisa é apenas no Rio de Janeiro podemos filtrar pelo RJ.
  • Quando trabalhamos com dados numéricos em escalas diferentes, é importante aplicar um processo conhecido como normalização. Basicamente é pegar dados que podem ser organizados em uma escala e transforma-los em números. Exemplo: Escala de urgência “urgente”,”media” e “baixa” pode ser normalizado pois existe uma ordem intrínseca, já no caso de cor “branca”, “vermelha” e “azul” não podemos fazer uma normalização pois não existe uma ordem intrínseca .

Os Dados ainda podem ser classificados como:

 

Dados primários

  • São aqueles coletados de primeira mão, ou seja, dados que ainda não foram publicados, autênticos, sem interferência humana.
  • Entre as fontes de dados primários, temos questionários e entrevistas.

Dados secundários

  • São aqueles dados que já foram publicados de alguma forma, ou seja, sofreram alguma interferência humana.
  • Entre as fontes de dados secundários, temos: livros e jornais.

 

Dados qualitativos

  • São dados não numéricos, em sua maioria, normalmente descritivos ou nominais. Apresentam-se, em geral, em formato de textos, sentenças ou rótulos.

Dados quantitativos

  • São os dados numéricos, que podem ser matematicamente computados. Essa categoria de dado mede diferentes escalas que podem ser nominais, ordinais, intervalares e proporcionais. Na maioria dos casos, esses dados resultam da medição de algum aspecto ou fenômeno.

 

Método de coleta dos dados:

  • Podemos coletar dados qualitativos por perguntas abertas e os métodos envolvidos para seu tratamento são grupos de foco, de discussão e entrevistas.
  • Podemos coletar dados quantitativos por surveys (Pesquisas/Questionários), as queries(Consultas a Bancos de Dados), o consumo de relatórios (Reports) e os scrapers (mineração de dados com bibliotecas BeautifulSoup e Scrapy)
  • As categorias de dados não são mutuamente exclusivas, pois é muito comum encontrar relatórios ou fazer entrevistas cujo resultado contenha tanto dados quantitativos e qualitativos.

 

Regulação de dados

Ainda podemos encontrar pontos fora da curva (outliers – muito maiores). Podemos remover os dados destoantes do conjunto ou fazermos uma regularização que é trazer um valor proporcional pela fórmula valor_observado/(valor_maximo – valor_mínimo) chegando a um valor entre 0 e 1.