Pandas es una biblioteca de Python para el análisis y manipulación de datos. Proporciona estructuras de datos eficientes y herramientas avanzadas para explorar, limpiar y transformar datos.
Para comenzar a usar Pandas, primero necesitamos importarlo.
pip install pandas //instala pandas
import pandas as pd //importa pandas
Pandas tiene dos estructuras de datos principales: Series y DataFrames.
# Crear una Serie
serie = pd.Series([1, 2, 3, 4, 5])
# Crear un DataFrame
datos = {"Nombre": ["Ana", "Juan", "Pedro"], "Edad": [25, 30, 35]}
df = pd.DataFrame(datos)
Pandas permite leer y escribir datos en varios formatos, como CSV, Excel y SQL.
# Leer un archivo CSV
df = pd.read_csv("archivo.csv")
# Escribir en un archivo CSV
df.to_csv("salida.csv", index=False)
Algunas funciones útiles para explorar y entender los datos en un DataFrame.
df.head() # Primeras 5 filas
df.tail() # Últimas 5 filas
df.info() # Información general
df.describe() # Estadísticas descriptivas
Podemos seleccionar y filtrar datos de un DataFrame utilizando etiquetas, índices o condiciones.
# Selección de columna
df["Nombre"]
# Selección de varias columnas
df[["Nombre", "Edad"]]
# Filtrado de datos
df[df["Edad"] > 30]
Pandas permite modificar y actualizar datos en un DataFrame de varias formas.
# Agregar una nueva columna
df["Salario"] = [3000, 4000, 5000]
# Modificar valores
df["Edad"] = df["Edad"] + 1
# Eliminar una columna
df = df.drop("Salario", axis=1)
La agrupación es útil para realizar análisis de datos basados en categorías.
# Agrupar por una columna y calcular la media
df.groupby("Edad").mean()
# Agregar múltiples funciones
df.groupby("Edad").agg(["mean", "sum", "count"])
Pandas ofrece varias formas de gestionar valores nulos en los datos.
# Identificar valores nulos
df.isnull().sum()
# Eliminar filas con valores nulos
df = df.dropna()
# Rellenar valores nulos
df = df.fillna(0)
Pandas ofrece funciones avanzadas como operaciones de fusión, combinación y ordenamiento de datos.
# Combinar DataFrames
df1 = pd.DataFrame({"A": [1, 2, 3]})
df2 = pd.DataFrame({"A": [4, 5, 6]})
df_concat = pd.concat([df1, df2])
# Fusionar DataFrames
df_merge = pd.merge(df1, df2, on="A", how="inner")
# Ordenar datos
df.sort_values(by="Edad", ascending=False)
Pandas incluye métodos para calcular estadísticas descriptivas fácilmente:
Ejemplo práctico:
import pandas as pd
# Crear un DataFrame
datos = {"Edades": [25, 30, 35, 40, 45]}
df = pd.DataFrame(datos)
# Calcular estadísticas
media = df["Edades"].mean()
mediana = df["Edades"].median()
desviacion = df["Edades"].std()
print("Media:", media)
print("Mediana:", mediana)
print("Desviación estándar:", desviacion)
Pandas es una herramienta poderosa para manipular y analizar datos. Practicar sus funciones y métodos te permitirá realizar análisis de datos de manera más eficiente.