ANÁLISE E VISUALIZAÇÃO DE DADOS COM PYTHON

Python é amplamente usado como linguagem de análise de dados devido às suas bibliotecas e ferramentas robustas para gerenciar dados. Entre essas bibliotecas está o Pandas, que torna a manipulação e análise da exploração de dados mais fáceis. nós usaremos Pandas para analisar um conjunto de dados chamado Dados do país.csv de Kaggle. Ao trabalhar com esses dados, também introduzimos alguns conceitos importantes no Pandas.

1. Instalação

A maneira mais fácil de instalar o pandas é usar pip:

Python pip install pandas

ou baixe-o em aqui .

2. Criando um DataFrame no Pandas

UM Quadro de dados é uma estrutura de dados semelhante a uma tabela no Pandas que possui dados armazenados em linhas e colunas. Um DataFrame pode ser criado passando vários objetos da série python para o DataFrame aula ( pd.DataFrame() ) usando o pd.Series método. Neste exemplo, dois objetos Series são usados: s1 como a primeira linha e s2 como a segunda linha.

Exemplo 1: Criando DataFrame de Série:

Python

import pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe)

Saída:

Análise e visualização de dados com Python' title=

Exemplo 2: DataFrame de uma lista com índices personalizados e nomes de colunas:

Python dataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1)

Saída:

Análise e visualização de dados com Python' loading='lazy' title=

Exemplo 3: DataFrame de um dicionário:

Python dataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2)

Saída:

3. Importando dados com Pandas

O primeiro passo é ler os dados. No nosso caso, os dados são armazenados como um arquivo CSV (valores separados por vírgula), onde cada linha é separada por uma nova linha e cada coluna por uma vírgula. Para poder trabalhar com os dados em Python é necessário ler o csv arquivo em um DataFrame do Pandas.

Python

import pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape

Saída:

(167 10)

4. Indexando DataFrames com Pandas

Pandas oferece recursos de indexação poderosos. Você pode indexar DataFrames usando ambos baseado em posição e baseado em rótulo métodos.

Indexação baseada em posição (usando iloc ):

Python

# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5]

Saída:

Indexação baseada em rótulo (usando loc ):

A indexação pode ser trabalhada com rótulos usando o pandas.DataFrame.loc método que permite indexar usando rótulos em vez de posições.

Exemplos:

Python

# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::]

Saída:

Na verdade, o texto acima não parece muito diferente de df.iloc[0:5:]. Isso ocorre porque, embora os rótulos de linha possam assumir qualquer valor, nossos rótulos de linha correspondem exatamente às posições. Mas os rótulos das colunas podem facilitar muito as coisas ao trabalhar com dados.

Exemplo:

Python # Prints the first 5 rows of Time period # value df.loc[:5'child_mort']

Saída:

5. Matemática DataFrame com Pandas

O Pandas facilita a execução de operações matemáticas nos dados armazenados em dataframes. As operações que podem ser realizadas nos pandas são vetorizadas, o que significa que são rápidas e se aplicam automaticamente a todos os elementos sem usar loops.

Exemplo - matemática em colunas:

Python

# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df

Saída:

Funções estatísticas em Pandas:

barra de ferramentas de acesso rápido do ms word

O cálculo de frames de dados pode ser feito usando funções estatísticas das ferramentas pandas. Podemos usar funções como:

df.sum() → soma dos valores
df.mean() → média
df.max() / df.min() → valores máximo e mínimo
df.describe() → resumo rápido de estatísticas

Python

# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum()

Saída:

6. Visualização de dados com Pandas e Matplotlib

Pandas é muito fácil de usar com Matplotlib uma biblioteca poderosa usada para criar gráficos e gráficos básicos. Com apenas algumas linhas de código podemos visualizar nossos dados e entendê-los melhor. Abaixo estão alguns exemplos simples para ajudá-lo a começar a plotar usando Pandas e Matplotlib:

Python # Import the library first import matplotlib.pyplot as plt

Histograma

Um histograma mostra a distribuição dos valores em uma coluna.

Python

df['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show()

Saída:

Gráfico de caixa

UM gráfico de caixa é útil para detectar valores discrepantes e compreender a propagação de dados.

Python

df = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show()

Saída:

Gráfico de dispersão

UM gráfico de dispersão mostra a relação entre duas variáveis.

Python

x = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show()

Saída:

Artigo relacionado:

Introdução aos pandas
Plotagem de gráfico em Python
Trabalhando com arquivos csv em Python
Quadro de dados do Pandas
Introdução ao Matplotlib
Histograma - Gráfico de Tipos de Definição e Exemplos
Gráfico de caixa
Gráfico de dispersão

Criar questionário

Análise e visualização de dados com Python

1. Instalação

2. Criando um DataFrame no Pandas

3. Importando dados com Pandas

4. Indexando DataFrames com Pandas

5. Matemática DataFrame com Pandas

6. Visualização de dados com Pandas e Matplotlib