logo

Análise e visualização de dados com Python

Python é amplamente usado como linguagem de análise de dados devido às suas bibliotecas e ferramentas robustas para gerenciar dados. Entre essas bibliotecas está o Pandas, que torna a manipulação e análise da exploração de dados mais fáceis. nós usaremos  Pandas  para analisar um conjunto de dados chamado  Dados do país.csv  de Kaggle. Ao trabalhar com esses dados, também introduzimos alguns conceitos importantes no Pandas.

1. Instalação

A maneira mais fácil de instalar o pandas é usar pip:

Python
pip install pandas 


ou baixe-o em  aqui .



2. Criando um DataFrame no Pandas

UM  Quadro de dados  é uma estrutura de dados semelhante a uma tabela no Pandas que possui dados armazenados em linhas e colunas. Um DataFrame pode ser criado passando vários objetos da série python para o DataFrame aula ( pd.DataFrame() ) usando o  pd.Series  método. Neste exemplo, dois objetos Series são usados: s1 como a primeira linha e s2 como a segunda linha.

Exemplo 1: Criando DataFrame de Série:

Python
import pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe) 

Saída:

Análise e visualização de dados com Python' title=

Exemplo 2: DataFrame de uma lista com índices personalizados e nomes de colunas:

Python
dataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1) 

Saída:

Análise e visualização de dados com Python' loading='lazy' title=

Exemplo 3: DataFrame de um dicionário:

Python
dataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2) 

Saída:

Análise e visualização de dados com Python' loading='lazy' title=

3. Importando dados com Pandas

O primeiro passo é ler os dados. No nosso caso, os dados são armazenados como um arquivo CSV (valores separados por vírgula), onde cada linha é separada por uma nova linha e cada coluna por uma vírgula. Para poder trabalhar com os dados em Python é necessário ler o csv  arquivo  em um DataFrame do Pandas.

Python
import pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape 

Saída:

cabeça' loading='lazy' title=
(167 10)

4. Indexando DataFrames com Pandas

Pandas oferece recursos de indexação poderosos. Você pode indexar DataFrames usando ambos baseado em posição e baseado em rótulo métodos.

Indexação baseada em posição (usando iloc ):

Python
# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5] 

Saída:

Análise e visualização de dados com Python' loading='lazy' title= Análise e visualização de dados com Python' loading='lazy' title= Análise e visualização de dados com Python' loading='lazy' title=

Indexação baseada em rótulo (usando loc ):

A indexação pode ser trabalhada com rótulos usando o  pandas.DataFrame.loc  método que permite indexar usando rótulos em vez de posições.

Exemplos:

Python
# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::] 

Saída:

Análise e visualização de dados com Python' loading='lazy' title= Análise e visualização de dados com Python' loading='lazy' title=


Na verdade, o texto acima não parece muito diferente de df.iloc[0:5:]. Isso ocorre porque, embora os rótulos de linha possam assumir qualquer valor, nossos rótulos de linha correspondem exatamente às posições. Mas os rótulos das colunas podem facilitar muito as coisas ao trabalhar com dados.

Exemplo:

Python
# Prints the first 5 rows of Time period # value  df.loc[:5'child_mort'] 

Saída:

Análise e visualização de dados com Python' loading='lazy' title=

5. Matemática DataFrame com Pandas

O Pandas facilita a execução de operações matemáticas nos dados armazenados em dataframes. As operações que podem ser realizadas nos pandas são vetorizadas, o que significa que são rápidas e se aplicam automaticamente a todos os elementos sem usar loops.

Exemplo - matemática em colunas:

Python
# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df 

Saída:

Análise e visualização de dados com Python' loading='lazy' title=

Funções estatísticas em Pandas:

barra de ferramentas de acesso rápido do ms word

O cálculo de frames de dados pode ser feito usando funções estatísticas das ferramentas pandas. Podemos usar funções como:

  • df.sum() → soma dos valores
  • df.mean() → média
  • df.max() / df.min() → valores máximo e mínimo
  • df.describe() → resumo rápido de estatísticas
Python
# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum() 

Saída:

Análise e visualização de dados com Python' loading='lazy' title= Análise e visualização de dados com Python' loading='lazy' title=

6. Visualização de dados com Pandas e Matplotlib

Pandas é muito fácil de usar com  Matplotlib uma biblioteca poderosa usada para criar gráficos e gráficos básicos. Com apenas algumas linhas de código podemos visualizar nossos dados e entendê-los melhor. Abaixo estão alguns exemplos simples para ajudá-lo a começar a plotar usando Pandas e Matplotlib:

Python
# Import the library first import matplotlib.pyplot as plt 

Histograma

Um histograma mostra a distribuição dos valores em uma coluna.

Python
df['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show() 

Saída:

Análise e visualização de dados com Python' loading='lazy' title=

Gráfico de caixa

UM  gráfico de caixa  é útil para detectar valores discrepantes e compreender a propagação de dados.

Python
df = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show() 

Saída:

Análise e visualização de dados com Python' loading='lazy' title=

Gráfico de dispersão

UM  gráfico de dispersão  mostra a relação entre duas variáveis.

Python
x = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show() 

Saída:

Análise e visualização de dados com Python' loading='lazy' title=

Artigo relacionado:

  • Introdução aos pandas
  • Plotagem de gráfico em Python
  • Trabalhando com arquivos csv em Python
  • Quadro de dados do Pandas
  • Introdução ao Matplotlib
  • Histograma - Gráfico de Tipos de Definição e Exemplos
  • Gráfico de caixa
  • Gráfico de dispersão


Criar questionário