Skip to content

Procesamiento paralelo, streaming y nube

2.1 Del almacenamiento al procesamiento

Después de resolver dónde viven los datos, aparece la siguiente pregunta:
¿Cómo procesarlos suficientemente rápido?
Guardar datos masivos no genera valor por sí mismo. El valor aparece cuando esos datos se transforman en señales, alertas, modelos, decisiones o acciones.

2.2 Apache Spark

Spark surge como una respuesta a la necesidad de procesar grandes volúmenes de datos de manera más rápida y flexible.
Su fortaleza está en el procesamiento distribuido y en memoria. En términos simples, divide el trabajo entre muchos nodos y evita depender excesivamente de escribir y leer del disco en cada paso.

Casos financieros donde Spark es útil

Caso
Por qué Spark ayuda
Scoring crediticio
Procesa millones de registros históricos
Segmentación de clientes
Analiza grandes bases transaccionales
Backtesting
Ejecuta múltiples simulaciones
Riesgo
Agrega grandes datasets
Modelos de propensión
Entrena modelos sobre muchos atributos
There are no rows in this table
El programa oficial incluye Apache Spark como herramienta de procesamiento paralelo para cálculos en memoria sobre grandes datasets.

Narrativa para el instructor

Spark permite pasar de una lógica donde el procesamiento masivo era lento y pesado a una lógica donde se pueden ejecutar análisis complejos de forma distribuida.
Para un ejecutivo financiero, la pregunta no es cuántos nodos tiene Spark. La pregunta es qué decisiones se vuelven posibles cuando puedo procesar años de historia transaccional, señales digitales y variables de riesgo en tiempos mucho menores.

2.3 Batch vs streaming

Aquí aparece una de las decisiones arquitectónicas más importantes.

Batch

Procesa datos acumulados en bloques. Es útil cuando la decisión no necesita ser inmediata.

Streaming

Procesa eventos conforme ocurren. Es útil cuando la velocidad cambia el resultado económico.

Comparación ejecutiva

Dimensión
Batch
Streaming
Unidad
Lotes de datos
Eventos continuos
Latencia
Media o alta
Baja o muy baja
Uso típico
Reportes, scoring periódico
Fraude, trading, alertas
Complejidad
Menor
Mayor
Pregunta clave
¿Puedo esperar?
¿Decidir tarde destruye valor?
There are no rows in this table

2.4 Apache Flink

Flink está diseñado para procesamiento streaming. Su lógica es trabajar con flujos continuos de eventos y analizarlos en tiempo real o casi real.
En finanzas, Flink es especialmente relevante cuando la decisión debe ocurrir mientras el evento sigue vivo.

Casos financieros donde Flink es útil

Caso
Por qué requiere streaming
Detección de fraude
La transacción debe evaluarse al instante
Trading algorítmico
La señal pierde valor rápidamente
Monitoreo de liquidez
El riesgo puede cambiar intradía
Alertas operativas
La intervención tardía aumenta pérdidas
Ciberseguridad financiera
Los ataques ocurren en tiempo real
There are no rows in this table
El programa oficial menciona Spark y Flink como herramientas de procesamiento paralelo dentro de la sesión de tecnologías clave.

Regla práctica

No todo debe ser streaming.
Streaming cuesta más, exige mayor sofisticación operativa y puede incrementar complejidad. Debe reservarse para casos donde la latencia tiene impacto económico claro.
La pregunta correcta es:
¿Qué valor se pierde si esta decisión se toma tarde?

2.5 Nube aplicada a Big Data

La nube cambió la economía de la infraestructura.
Antes, una institución tenía que comprar capacidad anticipadamente. Eso implicaba inversiones grandes, tiempos largos y riesgo de sobredimensionar o quedarse corto.
Con la nube, la capacidad puede consumirse bajo demanda.

AWS EMR y BigQuery

Plataforma
Lógica general
Uso típico
AWS EMR
Ejecutar frameworks Big Data administrados
Spark, Hadoop, procesamiento escalable
Google BigQuery
Data warehouse analítico en nube
Consultas masivas y analítica escalable
There are no rows in this table
El temario oficial menciona AWS EMR y Google BigQuery como ejemplos de computación en la nube aplicada a Big Data.

Cambio económico de la nube

Antes
Con nube
Capex
Opex
Capacidad fija
Capacidad elástica
Aprovisionamiento lento
Aprovisionamiento rápido
Infraestructura propia
Servicios gestionados
Ciclos largos
Experimentación más ágil
There are no rows in this table

Narrativa ejecutiva

La nube no debe venderse solamente como ahorro. En Big Data, la nube es principalmente opcionalidad.
Permite probar modelos, escalar experimentos, procesar cierres intensivos, entrenar modelos y desplegar soluciones sin esperar meses por infraestructura física.
Pero esa opcionalidad requiere gobierno. Sin control, la nube también puede generar costos impredecibles, dependencia de proveedor y dispersión arquitectónica.
Want to print your doc?
This is not the way.
Try clicking the ··· in the right corner or using a keyboard shortcut (
CtrlP
) instead.