Explore

Hadoop y almacenamiento distribuido

Clase impartida por

Jorge Pérez Colín⁠

Business Data Scientists⁠

⁠

Hadoop fue una de las tecnologías que ayudó a popularizar la idea de almacenamiento distribuido. Su propuesta básica era simple y poderosa: dividir grandes volúmenes de datos en bloques y distribuirlos en múltiples nodos.

Además, en lugar de mover enormes cantidades de datos hacia un servidor central para procesarlas, Hadoop acercaba el procesamiento al lugar donde los datos estaban almacenados.

⁠

Qué resolvió Hadoop

Problema

Respuesta de Hadoop

Datos demasiado grandes

Distribuirlos en múltiples nodos

Almacenamiento costoso

Usar hardware relativamente barato

Fallas inevitables

Replicar datos

Procesamiento pesado

Dividir tareas

Históricos masivos

Conservar datos a gran escala

There are no rows in this table

⁠

El temario oficial incluye explícitamente almacenamiento distribuido con Hadoop como parte del primer bloque de la sesión.

⁠

Ejemplo financiero

Un banco necesita conservar años de transacciones, logs de acceso, eventos de canales digitales, archivos regulatorios y registros operativos.

En una arquitectura tradicional, conservar todo podría ser caro y difícil de escalar. Con almacenamiento distribuido, la institución puede preservar grandes volúmenes históricos y habilitar análisis posteriores: patrones de fraude, comportamiento de cliente, pruebas de estrés, auditoría y trazabilidad.

⁠

Limitación importante

Hadoop fue fundamental, pero no resolvía todo.

Su procesamiento original estaba muy orientado a batch. Es decir, era poderoso para grandes procesos históricos, pero no necesariamente ideal para casos que requerían baja latencia o respuesta inmediata.

Por eso aparecieron nuevas tecnologías de procesamiento más rápidas y flexibles, como Spark y Flink, que veremos después del descanso.

Want to print your doc?
This is not the way.

Try clicking the ··· in the right corner or using a keyboard shortcut (

CtrlP

) instead.