Arquivo de python - Página 4 de 9

Em probabilidade, a classe de eventos aleatórios é o conjunto formado por todos os eventos possíveis (todos os subconjuntos) de um espaço amostral \(\Omega\).

\(\mathcal{F} = \{ A \mid A \subseteq \Omega \}\)

Características Principais

Também chamada de conjunto das partes do espaço amostral
Notação: \(\mathcal{P}(\Omega)\) ou \(2^\Omega\)
Inclui todos os subconjuntos possíveis, desde o vazio até o próprio \(\Omega\)

Exemplos

Exemplo 1: Moeda

Espaço amostral:
\(\Omega = \{Cara, Coroa\}\)
Classe de eventos:

\(\mathcal{F} = \{\emptyset, \{Cara\}, \{Coroa\}, \{Cara, Coroa\}\}\)

Exemplo 2: Dado

Espaço amostral:
\(\Omega = \{1, 2, 3, 4, 5, 6\}\)

A classe de eventos contém:

Evento “número par”: \(\{2, 4, 6\}\)
Evento “número primo”: \(\{2, 3, 5\}\)
Todos os 64 subconjuntos possíveis (2⁶)

Emulando lançamento de dados na linguagem R

```{r}
# Resultados COM repetição
resultados <- sample(1:6, 6, replace=TRUE)
print("Com repetições:")
print(resultados)
# Resultados SEM repetição
resultados <- sample(1:6, 6, replace=FALSE)
print("Sem repetições:")
print(resultados)
```
[1] "Com repetições:"
[1] 4 3 2 5 2 5
[1] "Sem repetições:"
[1] 6 4 5 2 3 1

```{r}

# Resultados COM repetição

resultados <- sample(1:6, 6, replace=TRUE)

print("Com repetições:")

print(resultados)

# Resultados SEM repetição

resultados <- sample(1:6, 6, replace=FALSE)

print("Sem repetições:")

print(resultados)

```

[1] "Com repetições:"

[1] 4 3 2 5 2 5

[1] "Sem repetições:"

[1] 6 4 5 2 3 1

Propriedades

Propriedade	Descrição
Contém o espaço amostral	\(\Omega \in \mathcal{F}\)
Contém o conjunto vazio	\(\emptyset \in \mathcal{F}\)
Fechada sob complementação	Se \(A \in \mathcal{F}\), então \(A^c \in \mathcal{F}\)
Fechada sob uniões	Se \(A, B \in \mathcal{F}\), então \(A \cup B \in \mathcal{F}\)

Importância

A classe de eventos aleatórios é fundamental porque:

Define exatamente quais subconjuntos podem ter probabilidade associada
Permite operações lógicas entre eventos (e, ou, negação)
Forma a base para a definição de uma medida de probabilidade

Biblioteca Pandas

A biblioteca Pandas nos ajuda a ler diversos tipos de arquivos, trata-los, tirar redundâncias, resumi-los e visualiza-los em disversas formas.

No primeiro momento é possível que os dados do seu dataset venham com incompletos, registros nulos ou registros mal formatados.

Utilize df.info() para entender onde temos valores nulos e valores não válidos. Exemplo de ‘valor não válido’ seria em uma informação na coluna altura de um funcionário onde encontramos o valor de 9.5 metros. Fica claro neste caso que não temos uma pessoa de 9 metros e meio, portanto temos uma informação incorreta que deve ser descartada ou alterada.
Utilize dropna() quando os valores de linhas com dados ausentes são irrelevantes. Ex.: Não impacta apagarmos 30 linhas de um dataset de 100.000 linhas.
Utilize df.fillna(valor) quando você quer preservar agumas das linhas/colunas que tem valores nulos. Ex:. Vamos dizer que o dataset tenha 1% de registros com valores nulos na coluna salário, poderíamos subistituir por um valor de salário médio a fim de preservar as demais informações nestas linhas (registros). É importante sempre comentar e documentar esses tipos de abordagem.

Sintetizar as informações relevantes

Para visualizarmos melhor é importante aplicar filtros e agregar os dados. Exemplo de Filtro: Se o dataset se refere a um histórico de preço de combustível de todo o Brasil e nosso interesse de pesquisa é apenas no Rio de Janeiro podemos filtrar pelo RJ.
Quando trabalhamos com dados numéricos em escalas diferentes, é importante aplicar um processo conhecido como normalização. Basicamente é pegar dados que podem ser organizados em uma escala e transforma-los em números. Exemplo: Escala de urgência “urgente”,”media” e “baixa” pode ser normalizado pois existe uma ordem intrínseca, já no caso de cor “branca”, “vermelha” e “azul” não podemos fazer uma normalização pois não existe uma ordem intrínseca .

Os Dados ainda podem ser classificados como:

Dados primários

São aqueles coletados de primeira mão, ou seja, dados que ainda não foram publicados, autênticos, sem interferência humana.
Entre as fontes de dados primários, temos questionários e entrevistas.

Dados secundários

São aqueles dados que já foram publicados de alguma forma, ou seja, sofreram alguma interferência humana.
Entre as fontes de dados secundários, temos: livros e jornais.

Dados qualitativos

São dados não numéricos, em sua maioria, normalmente descritivos ou nominais. Apresentam-se, em geral, em formato de textos, sentenças ou rótulos.

Dados quantitativos

São os dados numéricos, que podem ser matematicamente computados. Essa categoria de dado mede diferentes escalas que podem ser nominais, ordinais, intervalares e proporcionais. Na maioria dos casos, esses dados resultam da medição de algum aspecto ou fenômeno.

Método de coleta dos dados:

Podemos coletar dados qualitativos por perguntas abertas e os métodos envolvidos para seu tratamento são grupos de foco, de discussão e entrevistas.
Podemos coletar dados quantitativos por surveys (Pesquisas/Questionários), as queries(Consultas a Bancos de Dados), o consumo de relatórios (Reports) e os scrapers (mineração de dados com bibliotecas BeautifulSoup e Scrapy)
As categorias de dados não são mutuamente exclusivas, pois é muito comum encontrar relatórios ou fazer entrevistas cujo resultado contenha tanto dados quantitativos e qualitativos.

Regulação de dados

Ainda podemos encontrar pontos fora da curva (outliers – muito maiores). Podemos remover os dados destoantes do conjunto ou fazermos uma regularização que é trazer um valor proporcional pela fórmula valor_observado/(valor_maximo – valor_mínimo) chegando a um valor entre 0 e 1.

Classe dos Eventos Aleatórios