MISIÓN 2 · Lección 8

Procesamiento de Datos en Tiempo Real con Spark Streaming

En esta lección aprenderemos a usar Spark Streaming para procesar flujos de datos en tiempo real, como logs, redes sociales o sensores IoT.

¿Qué es Spark Streaming?

Extensión de Spark para procesar datos en tiempo real.
Divide los flujos en micro-batches para procesarlos con el motor de Spark.
Compatible con fuentes como Kafka, sockets, HDFS y AWS Kinesis.

Ejemplo básico: flujo desde un socket

from pyspark.streaming import StreamingContext

# Crear StreamingContext con batch de 5 segundos
ssc = StreamingContext(spark.sparkContext, 5)

# Leer flujo desde socket en el puerto 9999
lines = ssc.socketTextStream("localhost", 9999)

# Contar palabras
words = lines.flatMap(lambda line: line.split(" "))
pairs = words.map(lambda word: (word, 1))
counts = pairs.reduceByKey(lambda a, b: a + b)

counts.pprint()

ssc.start()
ssc.awaitTermination()

Ejemplo con Kafka

from pyspark.sql import SparkSession
from pyspark.sql.functions import *

spark = SparkSession.builder.appName("SparkKafka").getOrCreate()

# Leer desde Kafka
df = spark.readStream.format("kafka") \
    .option("kafka.bootstrap.servers", "localhost:9092") \
    .option("subscribe", "topic_test") \
    .load()

# Procesar mensajes
mensajes = df.selectExpr("CAST(value AS STRING)")

consulta = mensajes.writeStream \
    .outputMode("append") \
    .format("console") \
    .start()

consulta.awaitTermination()

Ventajas de Spark Streaming

Integración nativa con Spark SQL y MLlib.
Tolerancia a fallos y procesamiento distribuido.
Escalabilidad para manejar millones de eventos por segundo.

Comparación con otras tecnologías

Kafka Streams: más ligero, específico para Kafka.
Flink: mejor para latencia ultra baja.
Spark Streaming: ideal para integración con pipelines Spark.

Aplicaciones reales

Monitoreo de redes sociales en tiempo real.
Detección de fraudes en transacciones bancarias.
Procesamiento de logs de servidores.
Análisis de datos de sensores en IoT.

Buenas prácticas

Usar Kafka como fuente confiable de mensajes.
Definir ventanas de tiempo según la necesidad del negocio.
Persistir resultados en HDFS, Cassandra o MongoDB.
Monitorear el streaming con herramientas como Prometheus + Grafana.

Reflexión final

Spark Streaming permite procesar datos en movimiento y reaccionar en tiempo real a eventos del mundo real. Es una herramienta poderosa para construir aplicaciones inteligentes y escalables en Big Data.