2.1 Del almacenamiento al procesamiento
Después de resolver dónde viven los datos, aparece la siguiente pregunta:
¿Cómo procesarlos suficientemente rápido?
Guardar datos masivos no genera valor por sí mismo. El valor aparece cuando esos datos se transforman en señales, alertas, modelos, decisiones o acciones.
2.2 Apache Spark
Spark surge como una respuesta a la necesidad de procesar grandes volúmenes de datos de manera más rápida y flexible.
Su fortaleza está en el procesamiento distribuido y en memoria. En términos simples, divide el trabajo entre muchos nodos y evita depender excesivamente de escribir y leer del disco en cada paso.
Casos financieros donde Spark es útil
El programa oficial incluye Apache Spark como herramienta de procesamiento paralelo para cálculos en memoria sobre grandes datasets.
Narrativa para el instructor
Spark permite pasar de una lógica donde el procesamiento masivo era lento y pesado a una lógica donde se pueden ejecutar análisis complejos de forma distribuida.
Para un ejecutivo financiero, la pregunta no es cuántos nodos tiene Spark. La pregunta es qué decisiones se vuelven posibles cuando puedo procesar años de historia transaccional, señales digitales y variables de riesgo en tiempos mucho menores.
2.3 Batch vs streaming
Aquí aparece una de las decisiones arquitectónicas más importantes.
Batch
Procesa datos acumulados en bloques. Es útil cuando la decisión no necesita ser inmediata.
Streaming
Procesa eventos conforme ocurren. Es útil cuando la velocidad cambia el resultado económico.
Comparación ejecutiva
2.4 Apache Flink
Flink está diseñado para procesamiento streaming. Su lógica es trabajar con flujos continuos de eventos y analizarlos en tiempo real o casi real.
En finanzas, Flink es especialmente relevante cuando la decisión debe ocurrir mientras el evento sigue vivo.
Casos financieros donde Flink es útil
El programa oficial menciona Spark y Flink como herramientas de procesamiento paralelo dentro de la sesión de tecnologías clave.
Regla práctica
No todo debe ser streaming.
Streaming cuesta más, exige mayor sofisticación operativa y puede incrementar complejidad. Debe reservarse para casos donde la latencia tiene impacto económico claro.
La pregunta correcta es:
¿Qué valor se pierde si esta decisión se toma tarde?
2.5 Nube aplicada a Big Data
La nube cambió la economía de la infraestructura.
Antes, una institución tenía que comprar capacidad anticipadamente. Eso implicaba inversiones grandes, tiempos largos y riesgo de sobredimensionar o quedarse corto.
Con la nube, la capacidad puede consumirse bajo demanda.
AWS EMR y BigQuery
El temario oficial menciona AWS EMR y Google BigQuery como ejemplos de computación en la nube aplicada a Big Data.
Cambio económico de la nube
Narrativa ejecutiva
La nube no debe venderse solamente como ahorro. En Big Data, la nube es principalmente opcionalidad.
Permite probar modelos, escalar experimentos, procesar cierres intensivos, entrenar modelos y desplegar soluciones sin esperar meses por infraestructura física.
Pero esa opcionalidad requiere gobierno. Sin control, la nube también puede generar costos impredecibles, dependencia de proveedor y dispersión arquitectónica.