Manipulación de Datos con Pandas en Python

Pandas es una biblioteca de Python para el análisis y manipulación de datos. Proporciona estructuras de datos eficientes y herramientas avanzadas para explorar, limpiar y transformar datos.

1. Importación de Pandas

Para comenzar a usar Pandas, primero necesitamos importarlo.

pip install pandas //instala pandas
import pandas as pd  //importa pandas
            

2. Creación de Estructuras de Datos

Pandas tiene dos estructuras de datos principales: Series y DataFrames.

# Crear una Serie
serie = pd.Series([1, 2, 3, 4, 5])

# Crear un DataFrame
datos = {"Nombre": ["Ana", "Juan", "Pedro"], "Edad": [25, 30, 35]}
df = pd.DataFrame(datos)
            

3. Lectura y Escritura de Archivos

Pandas permite leer y escribir datos en varios formatos, como CSV, Excel y SQL.

# Leer un archivo CSV
df = pd.read_csv("archivo.csv")

# Escribir en un archivo CSV
df.to_csv("salida.csv", index=False)
            

4. Exploración de Datos

Algunas funciones útiles para explorar y entender los datos en un DataFrame.

df.head()       # Primeras 5 filas
df.tail()       # Últimas 5 filas
df.info()       # Información general
df.describe()   # Estadísticas descriptivas
            

5. Selección y Filtrado de Datos

Podemos seleccionar y filtrar datos de un DataFrame utilizando etiquetas, índices o condiciones.

# Selección de columna
df["Nombre"]

# Selección de varias columnas
df[["Nombre", "Edad"]]

# Filtrado de datos
df[df["Edad"] > 30]
            

6. Modificación de Datos

Pandas permite modificar y actualizar datos en un DataFrame de varias formas.

# Agregar una nueva columna
df["Salario"] = [3000, 4000, 5000]

# Modificar valores
df["Edad"] = df["Edad"] + 1

# Eliminar una columna
df = df.drop("Salario", axis=1)
            

7. Agrupación y Agregación de Datos

La agrupación es útil para realizar análisis de datos basados en categorías.

# Agrupar por una columna y calcular la media
df.groupby("Edad").mean()

# Agregar múltiples funciones
df.groupby("Edad").agg(["mean", "sum", "count"])
            

8. Manejo de Valores Nulos

Pandas ofrece varias formas de gestionar valores nulos en los datos.

# Identificar valores nulos
df.isnull().sum()

# Eliminar filas con valores nulos
df = df.dropna()

# Rellenar valores nulos
df = df.fillna(0)
            

9. Operaciones Avanzadas con Pandas

Pandas ofrece funciones avanzadas como operaciones de fusión, combinación y ordenamiento de datos.

# Combinar DataFrames
df1 = pd.DataFrame({"A": [1, 2, 3]})
df2 = pd.DataFrame({"A": [4, 5, 6]})
df_concat = pd.concat([df1, df2])

# Fusionar DataFrames
df_merge = pd.merge(df1, df2, on="A", how="inner")

# Ordenar datos
df.sort_values(by="Edad", ascending=False)
            

10. Cálculo de Media, Mediana y Desviación Estándar

Pandas incluye métodos para calcular estadísticas descriptivas fácilmente:

Ejemplo práctico:

import pandas as pd

# Crear un DataFrame
datos = {"Edades": [25, 30, 35, 40, 45]}
df = pd.DataFrame(datos)

# Calcular estadísticas
media = df["Edades"].mean()
mediana = df["Edades"].median()
desviacion = df["Edades"].std()

print("Media:", media)
print("Mediana:", mediana)
print("Desviación estándar:", desviacion)
            

Conclusión

Pandas es una herramienta poderosa para manipular y analizar datos. Practicar sus funciones y métodos te permitirá realizar análisis de datos de manera más eficiente.