Inteligencia Artificial: Guía Completa 2025
Un recorrido profundo desde los conceptos básicos hasta la puesta en producción, con ejemplos prácticos, comparativas, buenas prácticas y estrategias de escalado.
1. ¿Qué es la Inteligencia Artificial?
La Inteligencia Artificial (IA) engloba técnicas que permiten a máquinas aprender, razonar y actuar de forma autónoma. En los últimos años, el auge de los modelos de gran escala (LLM), la computación en la nube y los contenedores ha transformado la IA de un entorno de investigación a una capacidad empresarial crítica.
Tipos de IA
- 🧠 IA Débil (Narrow AI): Soluciones específicas (p. ej., reconocimiento facial).
- 🧩 IA General (AGI): Aún hipotética, capacidad humana completa.
- 🚀 IA Generativa: Modelos que crean contenido nuevo (texto, imágenes, código).
Áreas Clave en 2025
- 🔍 Visión por Computadora (detectar objetos, segmentación).
- 🗣️ Procesamiento de Lenguaje Natural (NLP) (chatbots, análisis de sentimiento).
- 🧬 IA en Bioinformática (diseño de fármacos, genómica).
- ⚡ IA en Edge & IoT (inferencia en dispositivos con recursos limitados).
2. Fundamentos Técnicos
2.1. Aprendizaje Supervisado vs No Supervisado
Supervisado: Entrenamiento con datos etiquetados (p. ej., clasificación de imágenes).
No supervisado: Descubrimiento de patrones sin etiquetas (p. ej., clustering).
Reforzamiento: Agente que aprende a través de recompensas (p. ej., juegos, robots).
2.2. Arquitecturas de Modelos Modernos
- 🔹 Transformers: Base de los LLM (BERT, GPT‑4, LLaMA).
- 🔹 Convolutional Neural Networks (CNN): Visión por computadora.
- 🔹 Graph Neural Networks (GNN): Datos estructurados en grafos.
- 🔹 Diffusion Models: Generación de imágenes de alta fidelidad (Stable Diffusion).
2.3. Conceptos de Optimización
| Técnica | Objetivo | Ventaja principal |
|---|---|---|
| Quantization (INT8/FP16) | Reducir precisión de pesos | Disminuye latencia y consumo de memoria en un 2‑4× |
| Pruning | Eliminar conexiones irrelevantes | Modelo más liviano sin pérdida significativa de precisión |
| Knowledge Distillation | Transferir conocimiento a un modelo más pequeño | Rápido en inferencia, mantiene alta exactitud |
| Mixed‑Precision Training | Combinar FP16 y FP32 durante el entrenamiento | Acelera el entrenamiento en GPUs modernas |
3. Frameworks y Herramientas de IA 2025
Ideal para producción a gran escala y pipelines de MLOps.
# Instalación
pip install tensorflow==2.15
# Modelo simple
import tensorflow as tf
model = tf.keras.Sequential([
tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
tf.keras.layers.Dense(10, activation='softmax')
])
model.compile(optimizer='adam',
loss='sparse_categorical_crossentropy',
metrics=['accuracy'])
Preferido en investigación y desarrollo rápido de prototipos.
# Instalación
pip install torch torchvision
# Entrenamiento rápido con accelerator
from torch import nn, optim
from torchvision import datasets, transforms
train_loader = torch.utils.data.DataLoader(
datasets.MNIST('.', train=True, download=True,
transform=transforms.ToTensor()),
batch_size=64, shuffle=True)
model = nn.Sequential(
nn.Flatten(),
nn.Linear(28*28, 128),
nn.ReLU(),
nn.Linear(128, 10)
)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters())
# Loop simple
for epoch in range(3):
for x, y in train_loader:
optimizer.zero_grad()
loss = criterion(model(x), y)
loss.backward()
optimizer.step()
- 🟣 JAX: Excelente para investigación en matemáticas y diferenciación automática.
- 🟢 FastAI: Abstrae PyTorch para crear modelos en minutos.
- 🟠 ONNX Runtime: Interoperabilidad y despliegue multi‑framework.
- ⚫ LangChain: Orquestación de LLMs con herramientas externas.
Comparativa rápida
| Característica | TensorFlow | PyTorch | JAX | FastAI |
|---|---|---|---|---|
| Facilidad de prototipado | 🟡 Medio | 🟢 Alto | 🟡 Medio | 🟢 Muy alto |
| Soporte producción (TFServing, TorchServe) | 🟢 Excelente | 🟢 Excelente | 🟡 Limitado | 🟡 Medio |
| Compatibilidad con GPU/TPU | 🟢 GPU & TPU | 🟢 GPU | 🟢 GPU | 🟢 GPU |
| Ecosistema de herramientas MLOps | 🟢 TensorFlow Extended (TFX) | 🟢 TorchServe + TorchElastic | 🟡 En crecimiento | 🟡 Integrado con FastAPI |
4. Casos de Uso Reales y Demo Práctica
4.1. Generación de Texto con OpenAI GPT‑4o
Ejemplo de llamada a la API usando curl y Python para crear un asistente de soporte técnico.
# curl
curl https://api.openai.com/v1/chat/completions \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-4o-mini",
"messages": [{"role": "system", "content": "Actúa como agente de soporte técnico."},
{"role": "user", "content": "¿Cómo configuro una replicación en SQL Server?"}]
}'
# Python (openai>=1.0)
import os, openai
client = openai.OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[
{"role": "system", "content": "Actúa como agente de soporte técnico."},
{"role": "user", "content": "¿Cómo configuro una replicación en SQL Server?"}
]
)
print(response.choices[0].message.content)
4.2. Visión por Computadora en Edge con TensorRT
Despliegue de un modelo YOLOv8 optimizado para inferencia en un dispositivo Jetson Nano.
# Paso 1: Exportar a ONNX
python export.py --weights yolov8n.pt --format onnx
# Paso 2: Convertir a TensorRT (Docker)
docker run --gpus all --rm -v $PWD:/workspace nvcr.io/nvidia/tensorrt:23.09-py3 \
trtexec --onnx=/workspace/yolov8n.onnx --saveEngine=/workspace/yolov8n.trt
# Paso 3: Inferencia en Python
import tensorrt as trt
import cv2, numpy as np
# Cargar engine
TRT_LOGGER = trt.Logger(trt.Logger.WARNING)
with open("yolov8n.trt", "rb") as f, trt.Runtime(TRT_LOGGER) as runtime:
engine = runtime.deserialize_cuda_engine(f.read())
# ... (código de inferencia simplificado) ...
4.3. MLOps con GitHub Actions + Docker + Kubernetes
Pipeline CI/CD que entrena un modelo, lo empaqueta en Docker y lo despliega en un clúster EKS.
# .github/workflows/mlops.yml
name: CI/CD para IA
on:
push:
branches: [ main ]
jobs:
build-train:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v3
- name: Set up Python
uses: actions/setup-python@v5
with:
python-version: '3.11'
- name: Install dependencies
run: |
pip install -r requirements.txt
pip install torch torchvision
- name: Entrenamiento
run: |
python train.py --epochs 3 --output model.pt
- name: Build Docker image
run: |
docker build -t ghcr.io/${{ github.repository }}/ml-model:latest .
- name: Push image
uses: docker/login-action@v2
with:
registry: ghcr.io
username: ${{ github.actor }}
password: ${{ secrets.GITHUB_TOKEN }}
- name: Push
run: |
docker push ghcr.io/${{ github.repository }}/ml-model:latest
deploy:
needs: build-train
runs-on: ubuntu-latest
steps:
- name: Deploy to EKS
uses: aws-actions/eks-kubectl@v2
with:
cluster-name: prod-eks
args: set image deployment/ml-model ml-model=ghcr.io/${{ github.repository }}/ml-model:latest
5. Despliegue y Operación de Modelos de IA
Empaquetar la inferencia como micro‑servicio REST.
# Dockerfile (Python + FastAPI)
FROM python:3.11-slim
WORKDIR /app
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt
COPY . .
EXPOSE 8000
CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "8000"]
Manifiesto básico de Deployment + Service con autoscaling.
# ml-deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
name: ml-model
spec:
replicas: 2
selector:
matchLabels:
app: ml-model
template:
metadata:
labels:
app: ml-model
spec:
containers:
- name: ml-model
image: ghcr.io/mi-org/ml-model:latest
ports:
- containerPort: 8000
resources:
limits:
nvidia.com/gpu: 1 # GPU asignado
---
apiVersion: v1
kind: Service
metadata:
name: ml-model-svc
spec:
selector:
app: ml-model
ports:
- protocol: TCP
port: 80
targetPort: 8000
type: LoadBalancer
---
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
name: ml-model-hpa
spec:
scaleTargetRef:
apiVersion: apps/v1
kind: Deployment
name: ml-model
minReplicas: 2
maxReplicas: 10
metrics:
- type: Resource
resource:
name: cpu
target:
type: Utilization
averageUtilization: 70
5.3. Monitorización y Observabilidad
- Prometheus + Grafana: Métricas de latencia, uso de GPU, errores de inferencia.
- OpenTelemetry: Tracing distribuido para pipelines de datos.
- Seldon Core / KFServing: Servir modelos con canary deployments y rollback automático.
6. Seguridad, Privacidad y Ética en IA
6.1. Riesgos Comunes
- 🔐 Data Leakage: Información sensible expuesta en los datos de entrenamiento.
- ⚔️ Model Inversion / Extraction: Ataques que reconstruyen datos o clonan el modelo.
- 🤖 Bias & Fairness: Sesgos introducidos por conjuntos de datos no representativos.
- 🛡️ Adversarial Examples: Entradas manipuladas que hacen fallar la inferencia.
6.2. Buenas Prácticas de Seguridad
- Data Governance: Encriptación en reposo y en tránsito (AES‑256, TLS 1.3).
- Auditoría de Accesos: IAM con roles mínimos y uso de secretos gestionados (AWS Secrets Manager, HashiCorp Vault).
- Evaluación de Robustez: Test de adversarial attacks con
cleverhansofoolbox. - Control de Versiones de Modelos: Registro en MLflow o DVC para trazabilidad.
- Legal & Compliance: GDPR, CCPA, y normas locales de datos de salud (HIPAA).
6.3. Herramientas de Evaluación Ética
- IBM AI Fairness 360 – Métricas de sesgo y mitigación.
- Google Model Cards Toolkit – Documentación estructurada de riesgos.
- Microsoft Responsible AI Dashboard – Monitoriza fairness, interpretabilidad y robustez.
7. Rendimiento, Compatibilidad y Escalabilidad
7.1. Optimización de Inferencia
- 🚀 Batching dinámico: Agrupa peticiones para maximizar uso de GPU.
- ⚡ TensorRT / ONNX Runtime: Compilación de kernels específicos de hardware.
- 🧩 Model Parallelism: Distribuye capas grandes entre varios GPUs (DeepSpeed, Megatron‑LM).
- 💾 Cache de resultados: Redis o Memcached para respuestas frecuentes.
7.2. Escalado Horizontal y Vertical
| Estrategia | Cuándo usarla | Ventajas |
|---|---|---|
| ReplicaSets (K8s) | Cargas predecibles, alta disponibilidad | Escala automática, balanceo de carga integrado |
| Cluster Autoscaler | Picos inesperados de tráfico | Añade nodos bajo demanda, optimiza costos |
| Serverless (AWS Lambda, Azure Functions) | Inferencias esporádicas, bajo SLA | Pago por invocación, sin gestión de infraestructura |
| Inference-as-a-Service (SageMaker, Vertex AI) | Necesidad de gestión mínima y escalado global | Manejo automático de versiones, A/B testing integrado |
7.3. Compatibilidad de Hardware
- GPU: NVIDIA A100, H100, RTX 4090 – soporte nativo en CUDA, cuDNN.
- TPU: Google Cloud TPU v4 – excelente para entrenamiento masivo de LLM.
- CPU: Intel Xeon Scalable, AMD EPYC – uso de Intel MKL‑DNN o OpenBLAS.
- Edge Accelerators: NVIDIA Jetson, Google Coral, Habana Gaudi – inferencia ultra‑baja latencia.
8. Tendencias Futuras y Oportunidades
8.1. Modelos de Fundación (Foundation Models)
Los LLMs y multimodales (texto‑imagen‑audio) están convergiendo en modelos de fundación que pueden ser afinados con pocos datos (PEFT: LoRA, AdapterHub). La estrategia emergente es Model-as-a-Service con capas de personalización a demanda.
8.2. IA Generativa en la Nube Híbrida
La combinación de cloud‑native (AWS, Azure, GCP) con edge computing permite que la generación de contenido (imágenes, código, video) ocurra donde más se necesite, reduciendo latencia y costos de ancho de banda.
8.3. Regulación y Gobernanza
Se anticipa la adopción de marcos regulatorios como la EU AI Act y normas de AI Ethics de IEEE, obligando a las organizaciones a documentar modelos, pruebas de sesgo y planes de mitigación antes del despliegue.
9. Preguntas Frecuentes
Para un modelo de 7 B, la configuración mínima suele ser:
- 4× NVIDIA A100 (40 GB) con NVLink.
- 80 GB de RAM por nodo.
- Al menos 1 TB de SSD NVMe para datos y checkpoints.
- Software: PyTorch 2.x + DeepSpeed o ZeRO‑3 para paralelismo de parámetros.
En entornos cloud, p3dn.24xlarge (AWS) o NDv4 (Azure) cubren estos requisitos.
- Dividir el conjunto de pruebas por atributos sensibles (género, raza, etc.).
- Calcular métricas de equidad: Demographic Parity, Equalized Odds, Disparate Impact.
- Usar
fairlearnoAI Fairness 360para aplicar mitigaciones:- Re‑weighting de ejemplos.
- Adversarial debiasing.
- Post‑processing (threshold adjustment).
- Re‑entrenar y validar nuevamente hasta cumplir con los umbrales de equidad definidos por la organización.
DevOps se centra en la entrega continua de software tradicional (código, pruebas unitarias, despliegues).
MLOps añade capas específicas de IA:
- Gestión de datos (versión, calidad, linaje).
- Versionado de modelos y artefactos binarios.
- Validación de métricas de modelo (precisión, drift).
- Monitorización de inferencia (latencia, sesgo en producción).
- Automatización de re‑entrenamiento (CI/CD para modelos).
Herramientas típicas: MLflow, DVC, Kubeflow Pipelines, Seldon Core.
Inteligencia Artificial: Guía Completa 2025