Clase impartidas por de
Propósito del bloque
El objetivo de esta sección es que el participante entienda por qué, en proyectos de Big Data financiero, las bases relacionales no desaparecen, pero dejan de ser suficientes para ciertos tipos de problemas.
El temario de la clase 2 incluye explícitamente la comparación entre bases NoSQL y bases relacionales tradicionales dentro del bloque de tecnologías clave de Big Data.
Idea central
Durante décadas, las bases de datos relacionales fueron la columna vertebral de los sistemas financieros. Funcionan muy bien cuando los datos son estructurados, las reglas son claras y la consistencia transaccional es indispensable.
Pero Big Data introdujo otro tipo de problema: datos que llegan en grandes volúmenes, con estructuras cambiantes, desde múltiples canales y con necesidades analíticas que no siempre encajan bien en tablas rígidas.
Ahí aparece NoSQL.
¿Qué significa NoSQL?
NoSQL no significa “no usar SQL nunca”.
Una mejor forma de entenderlo es:
NoSQL = Not Only SQL
No todo problema de datos debe resolverse con una base relacional tradicional.
NoSQL agrupa distintos tipos de bases de datos diseñadas para manejar datos más flexibles, distribuidos y heterogéneos.
Por qué surge NoSQL
Las bases relacionales parten de una lógica muy ordenada:
Esa lógica es muy poderosa para sistemas como:
Pero en una institución financiera moderna también aparecen datos como:
Estos datos no siempre tienen una estructura estable. Pueden cambiar con frecuencia, crecer rápidamente y no ajustarse bien al modelo de filas y columnas.
Narrativa para explicar en clase
La forma más simple de explicarlo es esta:
Un banco sabe perfectamente cómo guardar una cuenta, un saldo o una transacción. Para eso, una base relacional es extraordinaria.
Pero cuando quiere entender cómo se comporta un cliente antes de abandonar la institución, el problema cambia. Ahora necesita combinar transacciones, frecuencia de uso de la app, llamadas al call center, quejas, respuestas a campañas, navegación web, ubicación, horarios de interacción y quizá señales externas.
Ese perfil ya no se comporta como una simple tabla. Se parece más a un expediente dinámico, cambiante, con muchos tipos de datos.
Ahí NoSQL empieza a tener sentido.
Comparación ejecutiva: SQL vs NoSQL
Tipos principales de bases NoSQL
1. Documentales
Guardan información en documentos, normalmente con estructura tipo JSON.
Ejemplo financiero: perfil de cliente enriquecido.
Un cliente puede tener:
dispositivos registrados, No todos los clientes tienen exactamente los mismos atributos. Una base documental permite esa flexibilidad.
Tecnologías típicas: MongoDB, Couchbase.
2. Clave-valor
Funcionan como grandes diccionarios: una clave apunta a un valor.
Ejemplo financiero: consultas rápidas de sesión, tokens, parámetros de autenticación o respuestas de baja latencia.
Son útiles cuando se necesita velocidad extrema y el acceso es simple.
Tecnologías típicas: Redis, DynamoDB.
3. Columnares distribuidas
Organizan información por columnas y pueden escalar masivamente.
Ejemplo financiero: almacenamiento de eventos transaccionales, logs o series muy grandes que necesitan alto volumen de lectura y escritura.
Son útiles cuando hay grandes volúmenes distribuidos y cargas intensivas.
Tecnologías típicas: Cassandra, HBase.
4. Grafos
Representan entidades y relaciones.
Ejemplo financiero: detección de redes de fraude.
Un grafo permite analizar conexiones entre:
Esto ayuda a detectar patrones que no son evidentes en tablas tradicionales.
Tecnologías típicas: Neo4j, Amazon Neptune.
Caso financiero: perfil 360 del cliente
Problema
Un banco quiere construir una visión integral del cliente para mejorar personalización, prevención de churn y venta cruzada.
Los datos vienen de:
Dificultad
No todos los datos tienen la misma estructura. Algunos son registros formales; otros son eventos digitales; otros son texto; otros son señales de comportamiento.
Forzar todo a una base relacional puede generar rigidez, altos costos de modelado y pérdida de velocidad analítica.
Uso de NoSQL
Una base NoSQL documental puede guardar un perfil flexible del cliente, mientras una base de grafos puede ayudar a entender relaciones entre clientes, dispositivos y cuentas.
Resultado esperado
El banco puede responder preguntas como:
¿qué clientes muestran señales tempranas de abandono? ¿qué canal usa más cada cliente? ¿qué comportamiento es anómalo respecto a su patrón histórico? ¿qué clientes están conectados a redes sospechosas? ¿qué oferta debería recibir cada segmento? Caso financiero: fraude con grafos
En fraude, muchas veces el problema no está en una transacción aislada. Está en la red.
Una operación puede parecer normal si se analiza de forma individual. Pero puede volverse sospechosa si está conectada con:
un dispositivo usado por múltiples cuentas, una dirección IP asociada a fraudes previos, una cuenta beneficiaria compartida, comercios con patrones anómalos, clientes vinculados indirectamente. Una base de grafos permite analizar esas relaciones de manera natural.
La pregunta ya no es solo:
¿Esta transacción es sospechosa?
Sino:
¿A qué red de relaciones pertenece esta transacción?
Qué problema resuelve NoSQL
Qué problema no resuelve NoSQL
NoSQL no es una solución universal.
Puede generar nuevos riesgos si se usa sin criterio:
Mensaje crítico para los participantes
NoSQL debe verse como una herramienta arquitectónica, no como una moda tecnológica.
La decisión correcta no es reemplazar SQL con NoSQL. La decisión correcta es definir qué parte del problema necesita consistencia transaccional y qué parte necesita flexibilidad, escala o velocidad.
En una arquitectura financiera madura, SQL y NoSQL conviven.
Arquitectura típica combinada
Ejercicio para clase
Clasificación rápida
Pedir a los participantes que clasifiquen cada caso como SQL, NoSQL o híbrido:
Frase de cierre del bloque
SQL sigue siendo indispensable para la verdad transaccional.
NoSQL se vuelve poderoso cuando la institución necesita capturar variedad, escalar horizontalmente y analizar comportamientos que no caben bien en tablas rígidas.
Transición al siguiente bloque
Una vez que entendemos dónde y cómo guardar distintos tipos de datos, aparece la siguiente pregunta:
¿Cómo procesarlos suficientemente rápido?
Esa pregunta nos lleva a Spark, Flink y al procesamiento paralelo, temas que el programa ubica en el segundo bloque de la sesión junto con nube, AWS EMR y BigQuery.