MISIÓN 2 · Lección 4

Integración y Configuración del Entorno Big Data

En esta lección aprenderemos cómo integrar distintas tecnologías de Big Data (Hadoop, Spark y NoSQL) en un mismo ecosistema, configurando un entorno de trabajo eficiente y escalable.

Arquitectura típica de Big Data

HDFS: almacenamiento distribuido de datos.
Spark: procesamiento en memoria para consultas y ML.
NoSQL: persistencia y consultas rápidas.
Orquestación: Airflow, Oozie o Luigi para programar flujos de trabajo.

Configuración básica de Spark con Hadoop

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("IntegracionHDFS") \
    .config("spark.hadoop.fs.defaultFS", "hdfs://localhost:9000") \
    .getOrCreate()

# Leer archivo desde HDFS
df = spark.read.csv("hdfs:///data/ventas.csv", header=True)
df.show(5)

Integración Spark con NoSQL (MongoDB)

# Conector de Spark con MongoDB
spark = SparkSession.builder \
    .appName("SparkMongo") \
    .config("spark.mongodb.input.uri", "mongodb://localhost:27017/tienda.ventas") \
    .config("spark.mongodb.output.uri", "mongodb://localhost:27017/tienda.resultados") \
    .getOrCreate()

# Leer desde MongoDB
df = spark.read.format("mongo").load()
df.printSchema()

Formatos de datos en Big Data

CSV: simple pero poco eficiente para grandes volúmenes.
JSON: flexible pero pesado.
Parquet: formato columnar, altamente eficiente para análisis.
Avro: ideal para transmisión de datos entre sistemas.

# Lectura en formato Parquet
df = spark.read.parquet("/datalake/ventas.parquet")
df.createOrReplaceTempView("ventas")

spark.sql("SELECT pais, SUM(monto) FROM ventas GROUP BY pais").show()

Orquestación de flujos de datos

Para coordinar tareas en un entorno Big Data se usan orquestadores:

Apache Airflow: define DAGs (Directed Acyclic Graphs) para flujos de trabajo.
Oozie: especializado en Hadoop.
Luigi: enfocado en ETL y pipelines.

# Ejemplo de DAG en Airflow
from airflow import DAG
from airflow.operators.bash import BashOperator
from datetime import datetime

dag = DAG("ejemplo_bigdata", start_date=datetime(2025,1,1), schedule_interval="@daily")

step1 = BashOperator(task_id="cargar_datos", bash_command="spark-submit job.py", dag=dag)

Buenas prácticas

Usar formatos columnar (Parquet/ORC) para análisis eficiente.
Particionar datos por fecha o categorías para consultas rápidas.
Implementar monitoreo con herramientas como Prometheus y Grafana.
Automatizar cargas y procesos con orquestadores.

Ejemplo de integración completa

Pipeline típico:

Datos crudos llegan a HDFS en CSV.
Spark los procesa y convierte en Parquet.
Resultados se almacenan en MongoDB para consultas rápidas.
Airflow agenda el pipeline diariamente.

Reflexión final

La integración de Hadoop, Spark y NoSQL permite crear ecosistemas de Big Data robustos y escalables. Una correcta configuración y orquestación asegura eficiencia, resiliencia y valor en la explotación de datos.