Skip to content
Clase 4 — Analítica, AI y Taller Práctico
MODULO VIII del Diplomado Ejecutivo AI & Quantum Computing in Finance
Clase impartida por de

Duración: 2 horas
Cómo convertir una arquitectura Big Data en soluciones analíticas aplicadas al negocio financiero.

centre-of-gravity

Objetivo de aprendizaje

Al finalizar la clase, el participante será capaz de identificar casos de uso prioritarios de Big Data en instituciones financieras, comprender cómo se integran modelos de machine learning en arquitecturas distribuidas y diseñar una solución conceptual para detección de fraude en pagos móviles considerando fuentes de datos, procesamiento batch/streaming, modelos analíticos, outputs de negocio, escalabilidad y costo-efectividad.

De la arquitectura al valor analítico

En las primeras tres clases se construyó el fundamento: qué es Big Data en finanzas, qué tecnologías lo hacen posible y cómo se organiza una arquitectura institucional con data lakes, data warehouses y gobierno de datos.
La cuarta clase responde la pregunta final:
¿Para qué sirve todo esto en una institución financiera?
La respuesta no está en almacenar más datos ni en adoptar tecnologías sofisticadas por sí mismas. El valor aparece cuando los datos se convierten en decisiones: aprobar o rechazar una transacción, detectar un fraude, ajustar una oferta, anticipar la salida de un cliente, recalibrar un modelo de riesgo o activar una alerta regulatoria.
En finanzas, Big Data se justifica cuando permite tomar decisiones con mayor precisión, mayor velocidad, mayor cobertura o menor costo operativo que los métodos tradicionales.

2. Analítica de Big Data en finanzas

La analítica de Big Data puede entenderse como el conjunto de métodos, modelos y procesos que permiten transformar grandes volúmenes de datos financieros en señales accionables.
No se trata únicamente de hacer reportes más grandes. Se trata de construir sistemas capaces de aprender de millones de eventos, detectar patrones difíciles de observar manualmente y operar con niveles de velocidad compatibles con la realidad financiera moderna.

Tipos de analítica

image.png
Modelo_madurez_analitica_BDS.pdf

Tipo de analítica
Pregunta que responde
Ejemplo financiero
Descriptiva
¿Qué pasó?
Evolución diaria de transacciones rechazadas
Diagnóstica
¿Por qué pasó?
Causas del aumento en fraudes por canal digital
Predictiva
¿Qué puede pasar?
Probabilidad de churn o default
Prescriptiva
¿Qué conviene hacer?
Mejor acción comercial para cada cliente
Automatizada
¿Qué acción debe ejecutarse ahora?
Bloquear o autorizar una transacción en tiempo real
La diferencia clave de Big Data es que estos análisis pueden ejecutarse sobre fuentes múltiples, con datos estructurados y no estructurados, y en algunos casos con latencias de segundos o milisegundos.

3. Casos de uso

Analytics_Value_Framework_BDS_poster.png
Analytics Value Framework – Financial Services.mmap
91.2 KB

3.1 Comportamiento del cliente

Uno de los casos más importantes de Big Data en banca, seguros y fintech es el análisis del comportamiento del cliente.
Las instituciones financieras ya no dependen únicamente de variables demográficas o saldos promedio. Ahora pueden integrar datos de transacciones, navegación digital, uso de app, interacciones con call center, campañas, redes sociales y comportamiento histórico.

Preguntas de negocio

Pregunta
Aplicación analítica
¿Qué clientes están en riesgo de abandono?
Modelos de churn
¿Qué producto es más probable que compre cada cliente?
Next best offer
¿Qué clientes están subatendidos?
Segmentación conductual
¿Qué canal prefiere cada cliente?
Optimización omnicanal
¿Qué señales anticipan insatisfacción?
Análisis de experiencia y texto

Ejemplo

Un banco quiere reducir la cancelación de cuentas. El modelo tradicional usa edad, ingreso estimado, saldo promedio y antigüedad. Un enfoque Big Data incorpora además frecuencia de uso de la app, caída en transacciones, llamadas al call center, reclamos, navegación web, respuestas a campañas y comentarios en canales digitales.
El resultado no es solamente una predicción de churn, sino una recomendación de acción: llamada preventiva, ajuste de comisión, oferta personalizada, cambio de canal o seguimiento por ejecutivo.

3.2 Detección de fraude a gran escala

La detección de fraude es uno de los casos más naturales para Big Data porque combina volumen, velocidad, variedad y costo económico directo.
Cada transacción puede contener señales de riesgo: monto, comercio, ubicación, dispositivo, hora, patrón histórico, comportamiento del cliente, tipo de tarjeta, IP, geolocalización, historial del comercio y relación con eventos previos.

Por qué Big Data es necesario

El fraude financiero no se comporta como un problema estático. Los patrones cambian, los atacantes aprenden y las reglas fijas se vuelven obsoletas. Además, las instituciones deben encontrar un equilibrio delicado: bloquear fraudes sin afectar transacciones legítimas.
Reto
Implicación
Millones de transacciones
Se requiere procesamiento distribuido
Decisiones en segundos
Se requiere streaming
Patrones cambiantes
Se requieren modelos adaptativos
Falsos positivos costosos
Se requiere calibración fina
Ataques coordinados
Se requiere análisis de redes y anomalías

Ejemplo

Una cartera digital procesa pagos móviles. Cada transacción debe evaluarse casi en tiempo real. El sistema combina reglas de negocio, modelos supervisados, detección de anomalías y alertas operativas. Algunas transacciones se aprueban automáticamente, otras se rechazan y otras se envían a revisión.

3.3 Trading e inversiones

En trading e inversiones, Big Data se utiliza para integrar datos de mercado, noticias, reportes, redes sociales, indicadores macroeconómicos y señales alternativas.
El objetivo no es solamente procesar más información, sino encontrar señales que ayuden a tomar decisiones de inversión, cobertura, arbitraje o gestión de portafolio.

Fuentes de datos

Fuente
Uso potencial
Precios y volúmenes intradía
Modelos cuantitativos
Libros de órdenes
Microestructura de mercado
Noticias financieras
Señales de evento
Reportes corporativos
Análisis fundamental automatizado
Redes sociales
Sentiment y señales tempranas
Datos macroeconómicos
Modelos de asignación de activos
megaphone

Advertencia

En inversiones, más datos no necesariamente significan mejores decisiones. El riesgo de sobreajuste es alto. Un modelo puede encontrar patrones estadísticos que funcionaron en el pasado, pero que no tienen poder predictivo real hacia adelante.
Por eso, los modelos de trading requieren backtesting robusto, validación fuera de muestra, control de costos de transacción y evaluación de estabilidad.

3.4 Riesgos y cumplimiento

Big Data también permite mejorar la gestión de riesgos financieros, operativos, de liquidez, mercado, crédito y cumplimiento regulatorio.
La diferencia frente a los enfoques tradicionales es que la institución puede monitorear eventos en tiempo casi real y no solamente producir reportes periódicos.

Aplicaciones

Tipo de riesgo
Aplicación Big Data
Crédito
Scoring alternativo y alertas tempranas
Mercado
Monitoreo intradía de exposiciones
Liquidez
Alertas por salidas inusuales de fondos
Operativo
Detección de fallas, errores y eventos anómalos
Cumplimiento
Monitoreo AML, KYC y transacciones sospechosas

Ejemplo

Una institución puede detectar una caída anómala de liquidez intradía si integra transacciones, retiros, transferencias, pagos programados, saldos, límites y eventos externos. El valor no está sólo en medir el riesgo, sino en activar alertas antes de que el problema escale.

4. Integración de Big Data con Machine Learning

Big Data y Machine Learning se complementan. Big Data provee la infraestructura para capturar, procesar y organizar grandes volúmenes de información. Machine Learning permite extraer patrones, clasificar eventos, predecir comportamientos y recomendar acciones.
La integración ocurre cuando los datos dejan de alimentar únicamente dashboards y comienzan a alimentar modelos que operan en producción.

4.1 Flujo general de un modelo ML en Big Data

Etapa
Descripción
Ingesta
Captura de datos transaccionales, digitales, históricos y externos
Preparación
Limpieza, deduplicación, homologación y enriquecimiento
Feature engineering
Construcción de variables predictivas
Entrenamiento
Uso de datos históricos para aprender patrones
Validación
Pruebas de desempeño, sesgo, estabilidad y generalización
Despliegue
Modelo disponible para scoring batch o en tiempo real
Monitoreo
Seguimiento de desempeño, drift y falsos positivos

4.2 MLlib de Spark

MLlib es la biblioteca de machine learning de Apache Spark. Su ventaja principal es que permite entrenar modelos sobre grandes volúmenes de datos distribuidos.
En lugar de mover toda la información a una sola máquina, Spark distribuye el procesamiento entre múltiples nodos. Esto resulta útil cuando el volumen de datos supera la capacidad de herramientas tradicionales.

Casos típicos

Caso
Uso de MLlib
Scoring crediticio
Entrenar modelos sobre millones de historiales
Segmentación
Agrupar clientes por comportamiento
Propensión de compra
Predecir probabilidad de contratación
Fraude
Clasificación de transacciones sospechosas
Riesgo
Modelos de predicción con grandes datasets

4.3 TensorFlow distribuido

TensorFlow distribuido permite entrenar modelos más complejos, incluyendo redes neuronales profundas, sobre infraestructura escalable.
Puede utilizarse cuando el problema requiere procesar datos de gran tamaño, señales no estructuradas o arquitecturas de modelos más sofisticadas.

Casos posibles

Caso
Aplicación
Texto de reclamos
Clasificación automática de motivos
Imágenes de documentos
Validación y extracción de información
Series temporales
Predicción de comportamiento financiero
Fraude complejo
Redes neuronales para patrones no lineales
Riesgo alternativo
Modelos con fuentes no tradicionales

5. Ejemplo desarrollado: scoring crediticio con Big Data

Un banco desea mejorar su modelo de originación de crédito personal. El modelo actual utiliza variables tradicionales: ingreso, edad, empleo, historial crediticio y deuda actual.
Con Big Data, el banco puede integrar nuevas señales:
Fuente
Variable posible
Transacciones bancarias
Estabilidad de ingresos y gasto recurrente
Comportamiento digital
Frecuencia de uso de app y canales
Historial interno
Pagos, retrasos, productos contratados
Datos externos
Información macro o buró
Interacciones
Reclamos, llamadas y solicitudes previas
El objetivo no es sustituir el criterio financiero, sino enriquecerlo. Un buen modelo de scoring debe mejorar la capacidad predictiva sin introducir sesgos injustificados, sin violar privacidad y sin volverse incomprensible para auditoría o regulación.

6. Riesgos analíticos: sesgos, overfitting y costo computacional

La analítica avanzada en finanzas tiene límites importantes. Un modelo puede ser técnicamente sofisticado y, aun así, ser inadecuado para una institución financiera.

6.1 Sesgos

Los modelos aprenden de datos históricos. Si los datos históricos reflejan decisiones sesgadas, el modelo puede reproducir o amplificar esos sesgos.

Ejemplo

Want to print your doc?
This is not the way.
Try clicking the ··· in the right corner or using a keyboard shortcut (
CtrlP
) instead.