Explore

Procesamiento paralelo, streaming y nube

2.1 Del almacenamiento al procesamiento

Después de resolver dónde viven los datos, aparece la siguiente pregunta:

¿Cómo procesarlos suficientemente rápido?

Guardar datos masivos no genera valor por sí mismo. El valor aparece cuando esos datos se transforman en señales, alertas, modelos, decisiones o acciones.

⁠

2.2 Apache Spark

Spark surge como una respuesta a la necesidad de procesar grandes volúmenes de datos de manera más rápida y flexible.

Su fortaleza está en el procesamiento distribuido y en memoria. En términos simples, divide el trabajo entre muchos nodos y evita depender excesivamente de escribir y leer del disco en cada paso.

⁠

Casos financieros donde Spark es útil

Caso

Por qué Spark ayuda

Scoring crediticio

Procesa millones de registros históricos

Segmentación de clientes

Analiza grandes bases transaccionales

Backtesting

Ejecuta múltiples simulaciones

Riesgo

Agrega grandes datasets

Modelos de propensión

Entrena modelos sobre muchos atributos

There are no rows in this table

⁠

El programa oficial incluye Apache Spark como herramienta de procesamiento paralelo para cálculos en memoria sobre grandes datasets.

⁠

Narrativa para el instructor

Spark permite pasar de una lógica donde el procesamiento masivo era lento y pesado a una lógica donde se pueden ejecutar análisis complejos de forma distribuida.

Para un ejecutivo financiero, la pregunta no es cuántos nodos tiene Spark. La pregunta es qué decisiones se vuelven posibles cuando puedo procesar años de historia transaccional, señales digitales y variables de riesgo en tiempos mucho menores.

⁠

2.3 Batch vs streaming

Aquí aparece una de las decisiones arquitectónicas más importantes.

Batch

Procesa datos acumulados en bloques. Es útil cuando la decisión no necesita ser inmediata.

Streaming

Procesa eventos conforme ocurren. Es útil cuando la velocidad cambia el resultado económico.

⁠

Comparación ejecutiva

Dimensión

Batch

Streaming

Unidad

Lotes de datos

Eventos continuos

Latencia

Media o alta

Baja o muy baja

Uso típico

Reportes, scoring periódico

Fraude, trading, alertas

Complejidad

Menor

Mayor

Pregunta clave

¿Puedo esperar?

¿Decidir tarde destruye valor?

There are no rows in this table

⁠

2.4 Apache Flink

Flink está diseñado para procesamiento streaming. Su lógica es trabajar con flujos continuos de eventos y analizarlos en tiempo real o casi real.

En finanzas, Flink es especialmente relevante cuando la decisión debe ocurrir mientras el evento sigue vivo.

⁠

Casos financieros donde Flink es útil

Caso

Por qué requiere streaming

Detección de fraude

La transacción debe evaluarse al instante

Trading algorítmico

La señal pierde valor rápidamente

Monitoreo de liquidez

El riesgo puede cambiar intradía

Alertas operativas

La intervención tardía aumenta pérdidas

Ciberseguridad financiera

Los ataques ocurren en tiempo real

There are no rows in this table

⁠

El programa oficial menciona Spark y Flink como herramientas de procesamiento paralelo dentro de la sesión de tecnologías clave.

⁠

Regla práctica

No todo debe ser streaming.

Streaming cuesta más, exige mayor sofisticación operativa y puede incrementar complejidad. Debe reservarse para casos donde la latencia tiene impacto económico claro.

La pregunta correcta es:

¿Qué valor se pierde si esta decisión se toma tarde?

⁠

2.5 Nube aplicada a Big Data

La nube cambió la economía de la infraestructura.

Antes, una institución tenía que comprar capacidad anticipadamente. Eso implicaba inversiones grandes, tiempos largos y riesgo de sobredimensionar o quedarse corto.

Con la nube, la capacidad puede consumirse bajo demanda.

⁠

AWS EMR y BigQuery

Plataforma

Lógica general

Uso típico

AWS EMR

Ejecutar frameworks Big Data administrados

Spark, Hadoop, procesamiento escalable

Google BigQuery

Data warehouse analítico en nube

Consultas masivas y analítica escalable

There are no rows in this table

⁠

El temario oficial menciona AWS EMR y Google BigQuery como ejemplos de computación en la nube aplicada a Big Data.

⁠

Cambio económico de la nube

Antes

Con nube

Capex

Opex

Capacidad fija

Capacidad elástica

Aprovisionamiento lento

Aprovisionamiento rápido

Infraestructura propia

Servicios gestionados

Ciclos largos

Experimentación más ágil

There are no rows in this table

⁠

Narrativa ejecutiva

La nube no debe venderse solamente como ahorro. En Big Data, la nube es principalmente opcionalidad.

Permite probar modelos, escalar experimentos, procesar cierres intensivos, entrenar modelos y desplegar soluciones sin esperar meses por infraestructura física.

Pero esa opcionalidad requiere gobierno. Sin control, la nube también puede generar costos impredecibles, dependencia de proveedor y dispersión arquitectónica.

Want to print your doc?
This is not the way.

Try clicking the ··· in the right corner or using a keyboard shortcut (

CtrlP

) instead.