Hadoop fue una de las tecnologías que ayudó a popularizar la idea de almacenamiento distribuido. Su propuesta básica era simple y poderosa: dividir grandes volúmenes de datos en bloques y distribuirlos en múltiples nodos.
Además, en lugar de mover enormes cantidades de datos hacia un servidor central para procesarlas, Hadoop acercaba el procesamiento al lugar donde los datos estaban almacenados.
Qué resolvió Hadoop
El temario oficial incluye explícitamente almacenamiento distribuido con Hadoop como parte del primer bloque de la sesión.
Ejemplo financiero
Un banco necesita conservar años de transacciones, logs de acceso, eventos de canales digitales, archivos regulatorios y registros operativos.
En una arquitectura tradicional, conservar todo podría ser caro y difícil de escalar. Con almacenamiento distribuido, la institución puede preservar grandes volúmenes históricos y habilitar análisis posteriores: patrones de fraude, comportamiento de cliente, pruebas de estrés, auditoría y trazabilidad.
Limitación importante
Hadoop fue fundamental, pero no resolvía todo.
Su procesamiento original estaba muy orientado a batch. Es decir, era poderoso para grandes procesos históricos, pero no necesariamente ideal para casos que requerían baja latencia o respuesta inmediata.
Por eso aparecieron nuevas tecnologías de procesamiento más rápidas y flexibles, como Spark y Flink, que veremos después del descanso.