MISIÓN 2 · Lección 9

Proyecto Práctico en Equipos (Big Data + IA)

En esta lección los equipos aplicarán lo aprendido en Big Data e Inteligencia Artificial para construir un proyecto colaborativo. El objetivo es integrar Hadoop, Spark, bases NoSQL y modelos de Machine Learning en un caso real.

Objetivos del proyecto

Etapas del proyecto

  1. Ingesta: cargar datos en HDFS o un data lake.
  2. Procesamiento: limpiar y transformar datos con Spark.
  3. Análisis: aplicar Spark SQL y MLlib.
  4. Almacenamiento: guardar resultados en MongoDB o Cassandra.
  5. Visualización: generar dashboards o reportes.

Ejemplo de caso práctico

Tema: Análisis de reseñas de productos de e-commerce.

Roles en el equipo

Checklist de entregables

Ejemplo de integración en Spark

# Leer datos en Spark
df = spark.read.json("hdfs:///data/reviews.json")

# Análisis de sentimientos (ejemplo simplificado)
from pyspark.ml.feature import Tokenizer, HashingTF, IDF
from pyspark.ml.classification import LogisticRegression
from pyspark.ml import Pipeline

tokenizer = Tokenizer(inputCol="text", outputCol="words")
hashingTF = HashingTF(inputCol="words", outputCol="features")
lr = LogisticRegression(featuresCol="features", labelCol="label")

pipeline = Pipeline(stages=[tokenizer, hashingTF, lr])
model = pipeline.fit(df)
predictions = model.transform(df)
predictions.show(5)

Criterios de evaluación

Reflexión final

El proyecto integrador permite poner en práctica todo lo aprendido: procesamiento distribuido, almacenamiento NoSQL y Machine Learning. La colaboración en equipo refleja la realidad de proyectos de Big Data en la industria.