Explore

Mapa mental de IA

Material generado por

Jorge Pérez Colín⁠

Business Data Scientists⁠

(BDS)

La Inteligencia Artificial (IA) constituye el conjunto de técnicas (métodos), modelos y arquitecturas que permiten a las máquinas aprender, razonar, percibir, generar y actuar de forma autónoma. Este capítulo sintetiza sus ramas principales, sus aplicaciones de negocio y los riesgos y controles asociados.

El mapa mental se organiza en siete ramas principales: Machine Learning, Deep Learning, IA Generativa, Procesamiento de Lenguaje Natural (NLP), Visión Computacional, Robótica y Gobernanza/MLOps.

IA

Machine Learning

Disciplina que permite que los sistemas aprendan patrones a partir de datos sin ser programados explícitamente. Su propósito es predecir resultados, clasificar eventos y optimizar decisiones basándose en evidencia histórica.

Aprendizaje supervisado

Es un enfoque en el que el modelo aprende a partir de ejemplos etiquetados.

El algoritmo recibe pares del tipo:

Entrada → Salida correcta

Su objetivo es aprender la función que relaciona ambas.

Funciona bien cuando:

Sabes exactamente qué quieres predecir.

Tienes suficiente histórico etiquetado.

Tareas típicas:

Clasificación (fraude/no fraude, churn/no churn).

Regresión (precios, demanda, riesgo crediticio).

Series de tiempo (pronósticos).

Valor empresarial:

Optimiza decisiones porque genera predicciones cuantificables con alta precisión.

Aprendizaje No supervisado

A diferencia del supervisado, no tiene etiquetas.

El objetivo no es predecir, sino descubrir estructura oculta en los datos.

¿Qué permite?

Encontrar grupos de clientes.

Detectar anomalías o comportamientos atípicos.

Comprender relaciones internas entre variables.

Técnicas comunes:

Clustering (K-means, DBSCAN).

Reducción de dimensionalidad (PCA, t-SNE).

Modelos de densidad (Gaussian Mixture Models).

Valor empresarial:

Revela patrones que el negocio no sabía que existían, habilitando estrategias más dirigidas.

Aprendizaje por refuerzo (Reinforcement Learning)

Aprendizaje por interacción: el modelo toma decisiones, recibe recompensas y ajusta su política para maximizar resultados a largo plazo.

El modelo aprende interactuando con un entorno. No aprende de ejemplos estáticos, sino de prueba y error.

Componentes:

Agente (el modelo).

Acciones que puede tomar.

Estado del entorno.

Recompensa por cada acción.

Política que define cómo actuar.

Objetivo:

Maximizar recompensas acumuladas a largo plazo.

Ejemplos:

Pricing dinámico.

Motores de recomendación “activos”.

Trading algorítmico.

Estrategias de inventario.

Control de robots o vehículos autónomos.

Valor empresarial:

Encuentra políticas óptimas en entornos donde cada decisión afecta las siguientes.

Modelos probabilísticos

Son modelos que describen la realidad en términos de probabilidades y distribuciones de probabilidad.

Responden a escenarios donde existe incertidumbre explícita.

Características:

Trabajan con variables aleatorias

Expresan relaciones con bayesianos, gráficas probabilísticas, distribuciones conjuntas

Miden incertidumbre, no solo predicción

Ejemplos:

Modelo de Bayes naïve

Redes bayesianas

Modelos de Markov

Filtros de Kalman

HMMs (Modelos Ocultos de Markov)

Valor empresarial:

Permiten decisiones robustas en escenarios inciertos, con distribución de riesgos y sensibilidad.

AutoML

Automatización del ciclo ML: selección de algoritmos, ajuste de hiperparámetros y evaluación de modelos sin intervención humana intensiva.

Automatiza el proceso de construir modelos:

Selecciona algoritmos

Ajusta hiperparámetros

Evalúa rendimiento

Optimiza pipelines

Hace selección de features

Objetivo:

Reducir tiempo y aumentar productividad del equipo de ciencia de datos.

Casos de uso:

Empresas sin equipo técnico avanzado

Proyectos con múltiples modelos de prueba

Exploración inicial de datos

Competencias de modelos rápidos en consultoría

Beneficio:

Aumenta velocidad y estandariza calidad sin intervención manual repetitiva.

Feature Engineering

Proceso de transformar datos en variables relevantes que mejoran el rendimiento del modelo.

Predice y optimiza decisiones basadas en datos.

Actividades:

Limpieza

Normalización

Agrupación / binning

Generación de nuevas variables (por ejemplo: ratios, diferencias, combinaciones)

Codificación categórica

Extracción de atributos de señales, texto o imágenes

¿Por qué es importante?

Porque el modelo es tan bueno como sus features.

Valor:

Mejora significativamente la precisión y la interpretabilidad.

Deep Learning

Subconjunto del Machine Learning basado en redes neuronales profundas que imitan la arquitectura del cerebro humano. Es el motor de los avances en visión, procesamiento de audio, secuencias y modelos generativos modernos.

Redes Neuronales Profundas (DNN)

Son modelos compuestos por múltiples capas de neuronas artificiales conectadas entre sí. Cada capa transforma la información y permite aprender patrones altamente no lineales.

¿Qué resuelven?

Problemas complejos donde las relaciones entre variables no son evidentes.

Tareas de predicción con grandes volúmenes de datos.

¿Cómo funcionan?

Reciben un vector de entrada.

Cada capa aplica una transformación (activación, pesos, sesgos).

Aprenden ajustando pesos mediante backpropagation.

Casos típicos:

Predecir demanda compleja

Modelos de scoring sofisticados

Procesamiento de señales

Redes Convolucionales (CNN)

Son redes diseñadas para procesar datos con estructura espacial, principalmente imágenes.

Usan filtros que “recorren” la imagen para extraer bordes, texturas, formas y patrones.

¿Qué resuelven?

Visión computacional

Reconocimiento de objetos

Inspección automática

¿Cómo funcionan?

Filtros (kernels) → generan mapas de características

Pooling → reduce dimensionalidad manteniendo patrones

Capas profundas → entienden conceptos más abstractos (caras, productos, defectos)

Casos típicos:

Control de calidad visual

Reconocimiento facial

Conteo de inventario mediante cámaras

Redes Recurrentes (RNN, LSTM, GRU)

Están diseñadas para procesar secuencias: datos donde el orden importa. Incorporan “memoria” para recordar estados pasados.

Tipos:

RNN: memoria corta, simples pero con limitaciones.

LSTM: incorporan compuertas (input, output, forget) para gestionar memoria larga.

GRU: versión simplificada y más eficiente que LSTM.

¿Qué resuelven?

Series de tiempo

Texto

Audio

Secuencias de eventos

Casos típicos:

Forecast avanzado

Detección de patrones en logs

Modelado de lenguaje (antes de Transformers)

Transformers (arquitecturas atencionales)

Reemplazan la necesidad de recurrencia con un mecanismo llamado self-attention, que evalúa qué partes de la secuencia son relevantes entre sí.

¿Por qué revolucionan todo?

Procesan secuencias en paralelo (mucho más rápido).

Capturan dependencias largas sin perder contexto.

Escalan de forma masiva (bases de GPT, Claude, Gemini).

¿Qué resuelven?

Lenguaje natural

Traducción

Generación de texto

Visión (Vision Transformers)

Audio, video, multimodalidad

Casos típicos:

LLMs corporativos

RAG empresarial

Análisis de documentos

Sistemas conversacionales avanzados

Autoencoders

Modelo neuronal que aprende a comprimir y luego reconstruir datos. Estructura:

Encoder: reduce dimensionalidad

Decoder: reconstruye la entrada

¿Para qué sirven?

Detección de anomalías (reconstruyen mal lo anómalo).

Reducción de dimensionalidad no lineal.

Preprocesamiento de datos.

Generación de representaciones compactas.

Casos típicos:

Detección de fraude por anomalías

Compresión de imágenes

Limpieza de datos ruidosos (denoising autoencoders)

Modelos Secuenciales

Engloba cualquier arquitectura diseñada para manejar datos ordenados en el tiempo o estructurados como secuencias.

Incluyen:

RNN / LSTM / GRU

Transformer encoder/decoder

Temporal CNNs

¿Qué resuelven?

Series de tiempo complejas

Comportamientos temporales

Dependencias entre eventos

Señales (acústicas, financieras, industriales)

Casos típicos:

Forecast multi-horizonte

Modelos predictivos en IoT

Procesamiento de logs

Embeddings

Son representaciones vectoriales que convierten datos como palabras, frases, imágenes o productos en números que capturan semántica y relaciones.

Ejemplo: El embedding de “Rey” – “Hombre” + “Mujer” ≈ “Reina”.

¿Por qué son fundamentales?

Porque permiten que algoritmos numéricos entiendan conceptos abstractos.

Tipos:

Word embeddings (Word2Vec, GloVe)

Sentence embeddings

Image embeddings (CLIP)

Product embeddings

¿Qué permiten?

Búsqueda semántica

Recomendación inteligente

Detección de similitud

Clustering significativo

Casos típicos:

RAG empresarial

Sistemas de recomendación

Clasificación sin etiquetas

Búsqueda por significado

Ejemplos

Reconocimiento facial, diagnóstico por imagen.

Riesgos

Opacidad, costo computacional.

Controles

Explainability, compresión, robustez.

Procesamiento de Lenguaje Natural (NLP)

Conjunto de técnicas que permiten a las máquinas comprender, interpretar y generar lenguaje humano. Es la base de chatbots, análisis de sentimientos, asistentes virtuales y automatización documental.

Tokenización y Procesamiento Lingüístico

Es el proceso fundamental donde el texto crudo se transforma en piezas manejables para la máquina.

¿Qué es tokenizar?

Dividir el texto en unidades llamadas tokens, que pueden ser:

Palabras

Subpalabras

Sílabas

Caracteres

Ejemplo: "Los pagos no fueron procesados" → ["Los", "pagos", "no", "fueron", "procesados"]

¿Qué incluye el procesamiento lingüístico?

Normalización (lowercase, eliminación de tildes)

Lematización (volver palabras a su forma base)

Stemming (recortar a raíz)

Eliminación de stopwords

Construcción de vocabulario

Manejo de puntuación

¿Por qué es clave?

Porque la calidad de los tokens determina la calidad del modelo. Un mal preprocesamiento arruina cualquier pipeline de NLP.

Clasificación de Texto

Consiste en asignar categorías predefinidas a un texto.

¿Qué resuelve?

Análisis de sentimientos

Clasificación de correos (spam / no spam)

Asignación automática de etiquetas a tickets

Detección de intención (intent detection)

Clasificación jurídica, médica o logística de documentos

Tipos:

Binary (dos clases)

Multiclass (una sola entre varias)

Multilabel (varias etiquetas simultáneas)

Valor empresarial:

Permite automatizar decisiones basadas en contenido textual a escala.

Extracción de Información

Técnica que transforma texto sin estructura en datos estructurados.

¿Qué puede extraer?

Entidades (personas, fechas, lugares, empresas)

Relaciones (A adquirió B)

Conceptos clave

Campos de un contrato o factura

Hechos relevantes (normas, precios, cláusulas)

Mecanismos:

Named Entity Recognition (NER)

Relation Extraction

Keyword extraction

Slot filling

Ejemplos:

Extraer términos de crédito de un contrato

Sacar montos y RFC de facturas

Identificar riesgos en reportes regulatorios

Valor empresarial:

Convierte miles de documentos en bases de datos accionables.

Modelado de Secuencias

Consiste en manejar textos como secuencias ordenadas, donde el contexto depende de lo que vino antes.

Modelos típicos:

RNN

LSTM

GRU

Transformers

Modelos autoregresivos (GPT, LLaMA)

¿Qué permite?

Predecir la siguiente palabra

Analizar dependencias largas

Procesar narrativa

Procesar conversaciones

Hacer predicciones basadas en contexto continuo

¿Por qué es importante?

Porque el lenguaje es intrínsecamente secuencial.

Generación de Lenguaje (NLG)

Es la capacidad de un modelo para producir texto coherente, contextual y estructurado.

¿Qué genera?

Resúmenes

Artículos

Emails

Reportes

Explicaciones

Historias

Código

Técnicas:

Modelos autoregresivos

Seq2Seq

Transformers encoder-decoder

LLMs (GPT, Claude, Gemini)

Casos de uso:

Automatización documental

Generación de reportes ejecutivos

Explicación de hallazgos

Resúmenes legales, médicos o financieros

Análisis Semántico

Busca comprender el significado, no solo las palabras.

¿Qué resuelve?

Detección de temas (topic modeling)

Intención en lenguaje natural

Sentimiento profundo (joya, sarcasmo, frustración real)

Similaridad semántica

Inferencias lógicas ("Juan es hermano de Pedro" → “Pedro es hermano de Juan”)

Entendimiento conceptual del texto

Técnicas:

Embeddings

Transformers

Modelos de disambiguación de palabras

Análisis de relaciones semánticas

Valor:

Permite que las máquinas entiendan qué se dice, cómo se dice y por qué se dice.

Sistemas Conversacionales

Sistemas capaces de interactuar con humanos por texto o voz.

Tipos:

Chatbots basados en reglas

Chatbots basados en machine learning

Asistentes virtuales basados en LLMs

Voicebots / IVR inteligente

Componentes:

NLU (entender)

Dialogue Manager (decidir)

NLG (responder)

Persistencia de contexto

Integración con sistemas internos

¿Qué resuelven?

Atención al cliente

Soporte técnico

Automatización de procesos

Interacción con sistemas corporativos

Capacitación personalizada

Copilotos cognitivos para tareas internas

Ejemplo moderno:

Los agentes corporativos que recomiendan decisiones, controlan sistemas, generan resúmenes y automatizan múltiples pasos.

Visión Computacional

Rama que dota a las máquinas de la capacidad de interpretar el mundo visual a través de imágenes y video. Automatiza inspección, identificación, seguimiento y análisis visual en tiempo real.

Ejemplos

Calidad, inventarios, seguridad, OCR.

Riesgos

Falsos positivos/negativos.

Controles

Pruebas en campo, calibración.

Robótica

Integración de hardware, sensores, control autónomo e IA para ejecutar tareas físicas en el mundo real. Va desde robots industriales hasta drones y vehículos autónomos que perciben, deciden y actúan sin supervisión continua.

Ejemplos

AMRs, drones, robots colaborativos, inspección.

Riesgos

Fallas físicas, riesgos laborales.

Controles

Redundancia, geocercas.

IA Generativa

La IA Generativa es la familia de modelos capaces de crear contenido nuevo a partir de patrones aprendidos en grandes volúmenes de datos. A diferencia del ML tradicional (que predice), la IA Generativa produce, simula, razona y transforma información.

⁠

🧠 1. Modelos de Lenguaje (LLMs)

Son modelos neuronales a gran escala diseñados para comprender y generar lenguaje natural bajo múltiples tareas.

¿Qué hacen?

Generan texto coherente

Resumen documentos largos

Resuelven problemas matemáticos o lógicos

Traducen entre idiomas

Ejecutan instrucciones

Actúan como agentes que razonan

Tecnologías clave:

Transformers

Self-attention

Entrenamiento autoregresivo

Fine-tuning y RAG

Casos de uso:

Copilotos corporativos

Automatización documental

Análisis legal/financiero

Algoritmos de asistencia conversacional

Toma de decisiones guiada por IA

⁠

🎨 2. Generación de Imágenes

Modelos entrenados para producir imágenes nuevas a partir de texto, referencia visual o mezcla de estilos.

Métodos:

Diffusion models (Stable Diffusion, Imagen, DALL·E)

GANs (Generative Adversarial Networks)

ControlNet / LoRA para ajustes finos

Capacidades:

Fotografía sintética

Arte digital

Prototipado de productos

Moda, diseño, arquitectura

Simulación visual para entrenamiento de robots

Casos de uso:

Marketing

Diseño industrial

E-commerce

Simulación visual

Producción creativa

⁠

🎞️ 3. Generación de Video

Modelos que producen video a partir de texto (text-to-video), imagen o secuencia de imágenes.

Qué habilitan:

Animaciones automáticas

Simulaciones dinámicas

Re-creación de escenarios

Realidad aumentada

Gemelos digitales visuales

Casos de uso:

Gaming

Simulación industrial

Storyboarding automático

Entrenamiento de modelos de visión

⁠

🔊 4. Generación de Audio

Modelos que producen audio a partir de texto, muestras o estilos.

Ejemplos:

Síntesis de voz

Música generativa

Efectos sonoros

Imitación de voces (voice cloning)

Conversión de texto a audio multilenguaje

Casos de uso:

Atención telefónica

Asistentes de voz

Producción audiovisual

Podcasts generativos

Localización de contenido

⁠

🧩 5. Modelos Multimodales

Modelos que integran texto + imagen + audio + video en una sola arquitectura.

Capacidades:

Formular respuestas basadas en imágenes

Describir fotos o videos

Razonar sobre diagramas

Leer documentos escaneados

Analizar contenido audiovisual

Controlar robots a partir de instrucciones visuales

Modelos emblemáticos:

GPT-4o / GPT-5

Gemini

Claude 3.5 Sonnet / Opus

LLaVA

Kosmos

Casos de uso:

Asistentes empresariales “todo en uno”

Análisis visual de operaciones

Auditoría documental

Automatización inteligente en logística

Robots conversacionales

⁠

🤖 6. Agentes Generativos

Sistemas autónomos construidos sobre LLMs o modelos multimodales que pueden actuar, no solo generar.

¿Qué hacen?

Planifican tareas

Llaman a herramientas externas (APIs)

Ejecutan flujos de trabajo

Se coordinan entre sí (multi-agent systems)

Aprenden de interacciones

Componentes:

Memoria

Razonamiento

Herramientas

Objetivos

Observación del entorno

Casos de uso:

Business copilots

Automatización de procesos

Gestión autónoma de workflows

Soporte técnico inteligente

Análisis continuo de datos operativos

⁠

💻 7. Síntesis de Código

Modelos que generan, completan, corrigen y explican código en múltiples lenguajes de programación.

Capacidades:

Generación de funciones

Refactorización

Documentación automática

Testing inteligente

Explicación de código

Traducción entre lenguajes (Python → R, Java → C#)

Modelos relevantes:

GitHub Copilot

Codex

CodeLLaMA

StarCoder

DeepSeek Coder

Casos de uso:

Productividad de desarrolladores

Modernización de sistemas legado

Automatización de QA

Generación de scripts de ETL

Infraestructura como código

⁠

Gobernanza y MLOps

Marco organizacional y operativo que asegura que la IA sea confiable, segura, ética y escalable. Combina gobierno algorítmico, auditoría, despliegue continuo de modelos y gestión integral de datos.

Ejemplos

Monitoreo ML, auditorías, pipelines.

Riesgos

Incumplimiento, modelos descontrolados.

Controles recomendados:

Auditoría, trazabilidad, seguridad.

Want to print your doc?
This is not the way.

Try clicking the ··· in the right corner or using a keyboard shortcut (

CtrlP

) instead.