Glosario Rápido de Términos
Aquí ponemos un glosario de los conceptos clave que te ayudarán a entender cómo funciona la inteligencia artificial en Saptiva.
Índice rápido
Fundamentos de LLM
LLM (Large Language Model): Modelo entrenado para generar texto natural.
Token: Unidad mínima que procesa el modelo (palabra, subpalabra, significado).
Ventana de contexto: Límite de tokens que el modelo puede leer en una llamada.
Fine-tuning: Ajustar el modelo con datos propios para mejorar desempeño en tareas específicas.
LoRA / Adapters: Técnicas ligeras para afinar modelos sin reentrenar todo desde cero.
Distillation: Transferir conocimientos de un modelo grande a uno más pequeño.
RAG & Recuperación
RAG (Retrieval-Augmented Generation): Modelo que busca info externa y luego genera la respuesta.
Embedding: Vector numérico que representa el significado de un texto.
Vector: Lista de números que describe semántica; se usa para medir similitud.
Base de datos vectorial: Guarda embeddings y permite búsqueda por significado (ej. Weaviate, Pinecone, MongoDB).
Chunking: Partir documentos en fragmentos pequeños para indexar mejor.
Top-K retrieval: Traer los K fragmentos más relevantes.
Reranking: Reordenar resultados con un modelo más preciso.
Grounding: Basar la respuesta en fuentes recuperadas, no inventadas.
Hybrid search: Combinar semántica (vectores) y palabras clave.
Prompting & Decoding
Prompt: Instrucción que se le da al modelo.
Zero-shot / One-shot / Few-shot: Cantidad de ejemplos que incluyes en el prompt.
System / User / Assistant roles: Estructura típica de conversación con LLMs.
Temperature: Controla la "creatividad" o aleatoriedad de la respuesta (0 = determinista, 1 = creativo).
Top-P (nucleus sampling): Es una forma de controlar la variabilidad en las palabras que elige el modelo → Entre más bajo el P, más conservador será.
Top-K sampling: También controla la variabilidad, pero de otra forma → Un K pequeño hace que el modelo sea más repetitivo; un K más alto lo hace más diverso
Max tokens (output): Límite de tokens que puede devolver el modelo.
Logprobs: Probabilidad de cada token generado (útil para auditoría).
Chain-of-Thought (CoT): Pedir al modelo que razone paso a paso.
Agentes & Orquestación
Agente (Agent): LLM que puede decidir pasos, usar herramientas y razonar iterativamente.
Tool / Function Calling: El modelo invoca funciones o APIs estructuradas cuando lo requiere.
Planner / Executor: Patrón donde un agente planea y otro ejecuta acciones.
ReAct: Patrón que combina razonamiento + acción (buscar, calcular, etc.).
Workflow: Flujo definido de pasos con dependencias claras.
Memory (corta/larga): Información que el agente conserva entre pasos o sesiones.
Multi-agent systems: Varios agentes especializados colaborando (ej. uno planifica, otro verifica).
Multimodal, Visión & OCR
Multimodal: Modelos que entienden/generan más de un tipo de dato (texto + imagen + audio...).
VLM (Vision-Language Model): Modelo que interpreta imágenes y responde en texto.
OCR (Optical Character Recognition): Extraer texto de imágenes o PDFs escaneados.
Layout parsing / Document AI: Entender estructuras (tablas, formularios) dentro de documentos.
Generación de Imágenes / Difusión
Modelo de difusión: Genera imágenes reduciendo ruido iterativamente (Stable Diffusion, Imagen).
ControlNet / LoRA visual: Técnicas para guiar la generación con poses, bordes, estilos.
Inpainting / Outpainting: Rellenar o extender partes de una imagen existente.
Text-to-image / Image-to-image: Generar imagen desde texto o modificar una ya existente.
Safety checker: Filtro para contenido NSFW o prohibido.
Audio & Voz
TTS (Text-To-Speech): Convertir texto en voz.
STT / ASR (Speech-To-Text / Automatic Speech Recognition): Transcribir voz a texto.
Voice cloning: Generar voz con el timbre de una persona (siempre con permiso...).
Audio embeddings: Representaciones numéricas de audio para búsqueda o clasificación.
Infraestructura & Serving
Inference server: Servidor que sirve modelos con alta concurrencia y eficiencia.
GPU/TPU/NPUs: Aceleradores de hardware para entrenamiento e inferencia.
Sharding / Model parallelism: Dividir modelos en varias GPUs.
Quantization: Reducir precisión numérica para ahorrar memoria y acelerar inferencias (int8, fp8).
Batching: Agrupar peticiones para aprovechar mejor la GPU.
Caching (prompt/embedding): Guardar resultados para no recalcular.
Streaming: Enviar tokens al cliente conforme se generan.
Multi-tenant: Varios clientes comparten la misma infraestructura.
Evaluación y Métricas.
Latencia: Tiempo total de respuesta.
Throughput: Consultas por segundo soportadas.
Costo por token: Costo de inferencia por unidad (ligado a tokens de entrada y salida).
Human-in-the-loop: Revisión humana como paso importante de un flujo de IA.
Seguridad, Cumplimiento & Riesgos
Guardrails: Reglas, filtros y validaciones para limitar comportamiento del modelo.
Data leakage: Exposición involuntaria de datos sensibles.
Datos sensibles: Información personal que requiere protección.
Auditability / Traceability: Poder rastrear de dónde vino cada dato en la respuesta.
Datos & Mantenimiento
Data pipeline: Flujo para recopilar, limpiar y versionar datos.
Data drift: Tus datos cambian y tu modelo/índice se queda atrás.
Index refresh: Recalcular embeddings y reindexar cuando entran nuevos documentos.
Versionado de documentos/modelos: Mantener control de qué versión generó qué respuesta.
Observabilidad: Logs, métricas y trazas para entender el comportamiento del sistema.
Fallbacks: Estrategias cuando no hay info suficiente (responder “no sé”, pedir más contexto).
Última actualización