Skip to content

Hadoop y almacenamiento distribuido

Clase impartida por de

Hadoop fue una de las tecnologías que ayudó a popularizar la idea de almacenamiento distribuido. Su propuesta básica era simple y poderosa: dividir grandes volúmenes de datos en bloques y distribuirlos en múltiples nodos.
Además, en lugar de mover enormes cantidades de datos hacia un servidor central para procesarlas, Hadoop acercaba el procesamiento al lugar donde los datos estaban almacenados.

Qué resolvió Hadoop

Problema
Respuesta de Hadoop
Datos demasiado grandes
Distribuirlos en múltiples nodos
Almacenamiento costoso
Usar hardware relativamente barato
Fallas inevitables
Replicar datos
Procesamiento pesado
Dividir tareas
Históricos masivos
Conservar datos a gran escala
There are no rows in this table
El temario oficial incluye explícitamente almacenamiento distribuido con Hadoop como parte del primer bloque de la sesión.

Ejemplo financiero

Un banco necesita conservar años de transacciones, logs de acceso, eventos de canales digitales, archivos regulatorios y registros operativos.
En una arquitectura tradicional, conservar todo podría ser caro y difícil de escalar. Con almacenamiento distribuido, la institución puede preservar grandes volúmenes históricos y habilitar análisis posteriores: patrones de fraude, comportamiento de cliente, pruebas de estrés, auditoría y trazabilidad.

Limitación importante

Hadoop fue fundamental, pero no resolvía todo.
Su procesamiento original estaba muy orientado a batch. Es decir, era poderoso para grandes procesos históricos, pero no necesariamente ideal para casos que requerían baja latencia o respuesta inmediata.
Por eso aparecieron nuevas tecnologías de procesamiento más rápidas y flexibles, como Spark y Flink, que veremos después del descanso.
Want to print your doc?
This is not the way.
Try clicking the ··· in the right corner or using a keyboard shortcut (
CtrlP
) instead.