Python é amplamente usado como linguagem de análise de dados devido às suas bibliotecas e ferramentas robustas para gerenciar dados. Entre essas bibliotecas está o Pandas, que torna a manipulação e análise da exploração de dados mais fáceis. nós usaremos Pandas para analisar um conjunto de dados chamado Dados do país.csv de Kaggle. Ao trabalhar com esses dados, também introduzimos alguns conceitos importantes no Pandas.
1. Instalação
A maneira mais fácil de instalar o pandas é usar pip:
Pythonpip install pandas
ou baixe-o em aqui .
2. Criando um DataFrame no Pandas
UM Quadro de dados é uma estrutura de dados semelhante a uma tabela no Pandas que possui dados armazenados em linhas e colunas. Um DataFrame pode ser criado passando vários objetos da série python para o DataFrame aula ( pd.DataFrame() ) usando o pd.Series método. Neste exemplo, dois objetos Series são usados: s1 como a primeira linha e s2 como a segunda linha.
Exemplo 1: Criando DataFrame de Série:
Pythonimport pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe)
Saída:
Exemplo 2: DataFrame de uma lista com índices personalizados e nomes de colunas:
Pythondataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1)
Saída:
Exemplo 3: DataFrame de um dicionário:
Pythondataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2)
Saída:
3. Importando dados com Pandas
O primeiro passo é ler os dados. No nosso caso, os dados são armazenados como um arquivo CSV (valores separados por vírgula), onde cada linha é separada por uma nova linha e cada coluna por uma vírgula. Para poder trabalhar com os dados em Python é necessário ler o csv arquivo em um DataFrame do Pandas.
Pythonimport pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape
Saída:
(167 10)4. Indexando DataFrames com Pandas
Pandas oferece recursos de indexação poderosos. Você pode indexar DataFrames usando ambos baseado em posição e baseado em rótulo métodos.
Indexação baseada em posição (usando iloc ):
# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5]
Saída:
Indexação baseada em rótulo (usando loc ):
A indexação pode ser trabalhada com rótulos usando o pandas.DataFrame.loc método que permite indexar usando rótulos em vez de posições.
Exemplos:
Python# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::]
Saída:
Na verdade, o texto acima não parece muito diferente de df.iloc[0:5:]. Isso ocorre porque, embora os rótulos de linha possam assumir qualquer valor, nossos rótulos de linha correspondem exatamente às posições. Mas os rótulos das colunas podem facilitar muito as coisas ao trabalhar com dados.
Exemplo:
Python# Prints the first 5 rows of Time period # value df.loc[:5'child_mort']
Saída:
5. Matemática DataFrame com Pandas
O Pandas facilita a execução de operações matemáticas nos dados armazenados em dataframes. As operações que podem ser realizadas nos pandas são vetorizadas, o que significa que são rápidas e se aplicam automaticamente a todos os elementos sem usar loops.
Exemplo - matemática em colunas:
Python# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df
Saída:
Funções estatísticas em Pandas:
barra de ferramentas de acesso rápido do ms word
O cálculo de frames de dados pode ser feito usando funções estatísticas das ferramentas pandas. Podemos usar funções como:
df.sum()→ soma dos valoresdf.mean()→ médiadf.max()/df.min()→ valores máximo e mínimodf.describe()→ resumo rápido de estatísticas
# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum()
Saída:
6. Visualização de dados com Pandas e Matplotlib
Pandas é muito fácil de usar com Matplotlib uma biblioteca poderosa usada para criar gráficos e gráficos básicos. Com apenas algumas linhas de código podemos visualizar nossos dados e entendê-los melhor. Abaixo estão alguns exemplos simples para ajudá-lo a começar a plotar usando Pandas e Matplotlib:
Python# Import the library first import matplotlib.pyplot as plt
Histograma
Um histograma mostra a distribuição dos valores em uma coluna.
Pythondf['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show()
Saída:
Gráfico de caixa
UM gráfico de caixa é útil para detectar valores discrepantes e compreender a propagação de dados.
Pythondf = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show()
Saída:
Gráfico de dispersão
UM gráfico de dispersão mostra a relação entre duas variáveis.
Pythonx = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show()
Saída:
Artigo relacionado:
- Introdução aos pandas
- Plotagem de gráfico em Python
- Trabalhando com arquivos csv em Python
- Quadro de dados do Pandas
- Introdução ao Matplotlib
- Histograma - Gráfico de Tipos de Definição e Exemplos
- Gráfico de caixa
- Gráfico de dispersão