1. Qué es arquitectura de datos
Una arquitectura de datos es el diseño que define cómo una organización:
Captura datos desde sus fuentes. Los almacena en estructuras adecuadas. Los transforma para hacerlos confiables. Los protege con controles de acceso. Los documenta con metadatos y linaje. Los expone para análisis, modelos, reportes y decisiones. Los monitorea para asegurar calidad y cumplimiento. En una institución financiera, esta arquitectura debe resolver una tensión permanente: los datos deben estar suficientemente disponibles para generar valor, pero suficientemente controlados para evitar riesgo operativo, reputacional y regulatorio.
2. Data warehouse
El data warehouse es un repositorio estructurado, curado y orientado al análisis. Normalmente almacena datos ya transformados, organizados en modelos dimensionales o relacionales, con definiciones estables y consistentes.
Para qué sirve en finanzas
El data warehouse es especialmente útil cuando la institución necesita reportes consistentes y repetibles. Por ejemplo:
El warehouse no está diseñado para guardar todo. Está diseñado para guardar lo que ya fue entendido, modelado, validado y puesto al servicio de decisiones recurrentes.
3. Data lake
El data lake es un repositorio más flexible que permite almacenar datos estructurados, semiestructurados y no estructurados en su formato original o casi original. Puede incluir tablas, archivos, logs, documentos, imágenes, texto, audio, eventos digitales, feeds de mercado y datos externos.
Para qué sirve en finanzas
El lake permite descubrir valor antes de que la organización sepa exactamente qué estructura necesitará. Su riesgo principal es convertirse en un data swamp: un pantano de datos sin catálogo, calidad, dueño ni reglas de uso.
4. Lakehouse
El lakehouse combina la flexibilidad del data lake con algunas capacidades de gobierno, estructura y desempeño del data warehouse. En la práctica, muchas arquitecturas modernas buscan este enfoque porque permite manejar datos diversos, pero con mayor control transaccional, metadatos, calidad y trazabilidad.
Uso financiero típico
Un banco puede usar un lakehouse para:
Recibir datos crudos de transacciones, app móvil, web, call center y buró. Limpiarlos y estandarizarlos. Crear variables analíticas para modelos de riesgo, propensión o fraude. Publicar datasets certificados para BI, ML y reportes. Mantener linaje desde el dato original hasta el modelo o tablero final.
5. Cuándo usar lake vs. warehouse
La decisión no debe plantearse como una guerra entre data lake y data warehouse. En instituciones financieras maduras, ambos conviven.
Usa lake cuando todavía estás descubriendo el valor del dato. Usa warehouse cuando ya sabes qué significa el dato y necesitas reportarlo de forma consistente.