En esta lección los equipos aplicarán lo aprendido en Big Data e Inteligencia Artificial para construir un proyecto colaborativo. El objetivo es integrar Hadoop, Spark, bases NoSQL y modelos de Machine Learning en un caso real.
Objetivos del proyecto
Procesar un dataset masivo con Hadoop o Spark.
Aplicar técnicas de análisis o Machine Learning.
Almacenar resultados en una base de datos NoSQL.
Visualizar los hallazgos de manera clara e interactiva.
Etapas del proyecto
Ingesta: cargar datos en HDFS o un data lake.
Procesamiento: limpiar y transformar datos con Spark.
Análisis: aplicar Spark SQL y MLlib.
Almacenamiento: guardar resultados en MongoDB o Cassandra.
Visualización: generar dashboards o reportes.
Ejemplo de caso práctico
Tema: Análisis de reseñas de productos de e-commerce.
Dataset con millones de reseñas en formato JSON.
Procesamiento de sentimientos con Spark MLlib.
Almacenamiento de resultados agregados en Cassandra.
Visualización de distribución de reseñas por país con Grafana.
Roles en el equipo
Data Engineer: responsable de ingesta y pipelines de datos.
Data Scientist: encargado del análisis y modelos de ML.
DevOps: automatización y despliegue del proyecto.
Data Analyst: creación de dashboards y reportes.
Checklist de entregables
Repositorio con código (Spark, Hadoop, NoSQL).
Dataset de prueba documentado.
Informe con metodología y resultados.
Dashboard o presentación final.
Ejemplo de integración en Spark
# Leer datos en Spark
df = spark.read.json("hdfs:///data/reviews.json")
# Análisis de sentimientos (ejemplo simplificado)
from pyspark.ml.feature import Tokenizer, HashingTF, IDF
from pyspark.ml.classification import LogisticRegression
from pyspark.ml import Pipeline
tokenizer = Tokenizer(inputCol="text", outputCol="words")
hashingTF = HashingTF(inputCol="words", outputCol="features")
lr = LogisticRegression(featuresCol="features", labelCol="label")
pipeline = Pipeline(stages=[tokenizer, hashingTF, lr])
model = pipeline.fit(df)
predictions = model.transform(df)
predictions.show(5)
Criterios de evaluación
Funcionamiento técnico del pipeline.
Escalabilidad y eficiencia del procesamiento.
Calidad del modelo de análisis.
Claridad y creatividad en la presentación final.
Reflexión final
El proyecto integrador permite poner en práctica todo lo aprendido: procesamiento distribuido, almacenamiento NoSQL y Machine Learning. La colaboración en equipo refleja la realidad de proyectos de Big Data en la industria.