MISIÓN 2 · Lección 2

Introducción a Apache Spark

Apache Spark es un motor de procesamiento distribuido que permite trabajar con grandes volúmenes de datos de forma rápida y eficiente. Es ampliamente usado en Big Data y Machine Learning.

¿Qué es Apache Spark?

Componentes principales de Spark

Arquitectura de Spark

Ejemplo: creación de sesión Spark

from pyspark.sql import SparkSession

# Crear sesión de Spark
spark = SparkSession.builder \
    .appName("EjemploSpark") \
    .getOrCreate()

print(spark.version)

Ejemplo: lectura y consulta de datos

# Cargar un archivo JSON en un DataFrame
df = spark.read.json("reviews.json")

# Mostrar el esquema del DataFrame
df.printSchema()

# Consultar con SQL
df.createOrReplaceTempView("reviews")
result = spark.sql("SELECT stars, COUNT(*) as total FROM reviews GROUP BY stars")
result.show()

Ejemplo: procesamiento de datos

# Filtrar reseñas positivas
df.filter(df["stars"] > 3).select("text", "stars").show(5)

# Calcular promedio de estrellas
df.groupBy().avg("stars").show()

Spark vs Hadoop

Aplicaciones comunes de Spark

Reflexión final

Apache Spark es una herramienta clave en el Big Data moderno. Su velocidad, flexibilidad y ecosistema lo convierten en un estándar de la industria para análisis de datos masivos y Machine Learning distribuido.