Skip to content

Variedad — qué tipos de datos existen

Contenido generado por de Business Data Scientists

En Big Data financiero, Variedad se refiere a la diversidad de fuentes, formatos, estructuras y niveles de granularidad de los datos que una institución puede utilizar para tomar decisiones.
Es una de las Vs fácticas porque la variedad no aparece por decisión del área de analítica: ya existe en la operación financiera. Los bancos, aseguradoras, casas de bolsa, fintechs y áreas de riesgo no solo generan tablas transaccionales; también producen documentos, logs, audios, imágenes, mensajes, contratos, tickets, señales externas, datos de mercado y eventos digitales.
En el curso, la Variedad forma parte de las 5 V del Big Data Financiero y se ejemplifica con datos estructurados, semiestructurados y no estructurados, desde registros contables hasta publicaciones en redes sociales. También se mencionan como fuentes financieras las transacciones electrónicas, cotizaciones de alta frecuencia, datos de clientes, redes sociales e IoT/insuretech.

1. Definición técnica

Variedad es la diversidad de tipos de datos disponibles para análisis. Incluye diferencias en formato, origen, estructura, periodicidad, calidad y uso potencial.
Tradicionalmente se clasifica en tres grandes categorías:
Tipo de dato
Definición
Ejemplos financieros
Estructurados
Datos organizados en tablas con campos definidos
Core bancario, saldos, transacciones, pagos, pólizas, contabilidad
Semiestructurados
Datos con estructura parcial o flexible
Logs, JSON, XML, eventos de app, respuestas de APIs, telemetría
No estructurados
Datos sin esquema fijo
Contratos, correos, llamadas, chats, noticias, tweets, imágenes, PDFs
There are no rows in this table
La variedad amplía el campo de observación. Una institución que solo analiza datos estructurados ve la parte más ordenada del negocio, pero no necesariamente la más rica.

2. Por qué la variedad importa en finanzas

En finanzas, muchas decisiones relevantes dependen de información que no siempre está en una tabla tradicional.
Un banco puede tener perfectamente registradas las transacciones de un cliente, pero no capturar en el core bancario su intención de cancelar, su molestia en una llamada, la razón de una reclamación, el texto de una cláusula contractual o el contexto externo que afecta su riesgo.
La variedad importa porque permite unir tres mundos que normalmente operan separados:
Mundo de datos
Qué contiene
Valor financiero
Transaccional
Pagos, saldos, movimientos, productos contratados
Comportamiento financiero observado
Conductual
Clics, navegación, uso de app, abandono de procesos
Intención, fricción y experiencia
Contextual
Noticias, contratos, redes sociales, buró, variables macro
Riesgo, reputación, mercado y entorno
There are no rows in this table
El valor aparece cuando se combinan. Por ejemplo, una señal de riesgo crediticio puede no surgir solo del historial de pagos, sino de la combinación entre pagos, disminución de actividad transaccional, cambios de ingreso, interacción digital y señales externas.

3. Ejemplos de variedad en instituciones financieras

Fuente
Tipo de dato
Caso de uso
Core bancario
Estructurado
Saldos, productos, pagos, rentabilidad
Buró de crédito
Estructurado / semiestructurado
Scoring, originación, cobranza
App bancaria
Semiestructurado
Abandono, conversión, experiencia digital
Contratos y expedientes
No estructurado
Riesgo legal, cumplimiento, covenants
Call center y chats
No estructurado
Churn, satisfacción, quejas, venta cruzada
Redes sociales y noticias
No estructurado
Riesgo reputacional, sentimiento, señales de mercado
IoT en seguros
Semiestructurado
Tarificación dinámica, prevención, siniestros
There are no rows in this table
El temario del curso contempla precisamente esta diversidad: transacciones, cotizaciones de alta frecuencia, datos de clientes, redes sociales y sensores IoT/insuretech como fuentes relevantes del Big Data financiero.

4. Implicación analítica: ver más dimensiones del cliente, del riesgo y del mercado

La variedad permite construir una visión más completa de los fenómenos financieros.
En un modelo tradicional de crédito, el análisis puede limitarse a ingreso, edad, historial de pagos, saldo, antigüedad y nivel de endeudamiento. Con mayor variedad, el modelo puede incorporar comportamiento digital, estabilidad de ingresos, patrones transaccionales, geografía, sector económico, dispositivo, canal de originación, texto de solicitudes y señales externas.
Eso permite pasar de un análisis plano a uno multidimensional.
Decisión financiera
Con baja variedad
Con alta variedad
Crédito
Score tradicional y buró
Buró + transacciones + comportamiento digital + documentos
Fraude
Reglas sobre monto y comercio
Monto + dispositivo + geolocalización + patrón histórico + red de relaciones
Churn
Baja actividad en cuenta
Actividad + quejas + llamadas + abandono en app + sentimiento
Trading
Series de precios
Precios + noticias + sentimiento + eventos macro + microestructura
Cumplimiento
Listas y reglas manuales
Transacciones + texto + redes + beneficiarios + patrones anómalos
There are no rows in this table
La variedad no sustituye al dato transaccional; lo enriquece.

5. El dato no estructurado suele contener valor oculto

Una parte importante del valor financiero está en datos que históricamente eran difíciles de procesar.
Ejemplos:
Un contrato de crédito puede contener cláusulas, garantías, restricciones, covenants o condiciones especiales que modifican el riesgo real de la operación.
Una llamada de call center puede revelar intención de cancelación, enojo, desconfianza, confusión o necesidad de asesoría.
Una noticia corporativa puede anticipar presión sobre el precio de una acción, deterioro reputacional o riesgo de contraparte.
Una imagen de onboarding puede ayudar a detectar fraude documental, inconsistencias o intentos de suplantación.
Un correo o ticket operativo puede anticipar fallas recurrentes, riesgos de cumplimiento o problemas de servicio.
Por eso, en Big Data financiero, la variedad no es solo un asunto técnico. Es una fuente de ventaja competitiva.

6. Implicación tecnológica: integrar formatos heterogéneos

La variedad exige una arquitectura distinta a la de los sistemas tradicionales. Las bases relacionales funcionan bien cuando los datos tienen esquema fijo, pero no son suficientes para manejar documentos, audios, imágenes, logs, eventos digitales y datos externos con estructuras cambiantes.
Por eso, el curso incluye tecnologías como Hadoop, bases NoSQL, Spark, Flink, data lakes, data warehouses y nube, todas relevantes para procesar grandes datasets y distintos tipos de información financiera.
La arquitectura debe resolver varias preguntas:
Pregunta
Implicación
¿Dónde se almacenan datos tan distintos?
Data lake, lakehouse, object storage, NoSQL
¿Cómo se integran fuentes internas y externas?
APIs, pipelines, ETL/ELT, streaming
¿Cómo se procesan textos, audios e imágenes?
NLP, speech-to-text, visión computacional
¿Cómo se gobierna la información sensible?
Catálogo, linaje, permisos, anonimización
¿Cómo se convierte lo no estructurado en variables útiles?
Feature engineering, embeddings, modelos de IA
There are no rows in this table
La variedad, por tanto, no solo requiere almacenamiento flexible. Requiere capacidad de transformar información heterogénea en variables analíticas confiables.

7. Implicación de negocio

La pregunta ejecutiva no es: “¿cuántas fuentes de datos tenemos?”. La pregunta correcta es: ¿qué nueva decisión podemos mejorar al integrar fuentes que antes estaban separadas?
La variedad puede generar valor en varios frentes:
Frente de negocio
Cómo ayuda la variedad
Crédito
Incorpora señales alternativas para evaluar riesgo
Fraude
Combina transacción, dispositivo, ubicación, comercio y comportamiento
Clientes
Permite entender intención, satisfacción, fricción y abandono
Mercados
Integra precios, noticias, sentimiento y eventos externos
Seguros
Usa sensores, imágenes, historial y contexto para tarificación
Cumplimiento
Une transacciones, documentos, beneficiarios y patrones sospechosos
There are no rows in this table
Una institución que domina la variedad puede tomar decisiones menos dependientes de promedios y más cercanas al comportamiento real de clientes, mercados y riesgos.

8. Trade-off a gestionar

La variedad aumenta el potencial analítico, pero también aumenta la complejidad.
No toda fuente debe integrarse solo porque existe. Cada nueva fuente implica costos: ingeniería, limpieza, almacenamiento, seguridad, cumplimiento, gobierno, interpretación y mantenimiento.
El criterio de priorización debe ser económico y estratégico:
Criterio
Pregunta directiva
Relevancia
¿Esta fuente mejora una decisión importante?
Incrementalidad
¿Aporta información que no está en otras fuentes?
Calidad
¿Es confiable, completa y actualizable?
Costo
¿Cuánto cuesta integrarla y mantenerla?
Riesgo
¿Contiene datos sensibles, personales o regulatorios?
Accionabilidad
¿Puede convertirse en una acción concreta?
There are no rows in this table
La variedad sin priorización produce complejidad. La variedad bien gestionada produce inteligencia.


En el sector financiero, Variedad significa que la realidad del negocio ya no cabe en una sola tabla, en un solo sistema ni en una sola fuente.
Los datos relevantes están en transacciones, contratos, aplicaciones móviles, llamadas, redes sociales, sensores, burós, mercados, noticias, expedientes y sistemas operativos.
La institución que solo analiza datos estructurados ve una versión parcial del cliente, del riesgo y del mercado. La que integra datos estructurados, semiestructurados y no estructurados puede construir una ventaja analítica más difícil de replicar.
Volumen permite ver más casos. Variedad permite ver más dimensiones.
Want to print your doc?
This is not the way.
Try clicking the ··· in the right corner or using a keyboard shortcut (
CtrlP
) instead.