Glosario Rápido de Términos

Aquí ponemos un glosario de los conceptos clave que te ayudarán a entender cómo funciona la inteligencia artificial en Saptiva.

Índice rápido


Fundamentos de LLM

  • LLM (Large Language Model): Modelo entrenado para generar texto natural.

  • Token: Unidad mínima que procesa el modelo (palabra, subpalabra, significado).

  • Ventana de contexto: Límite de tokens que el modelo puede leer en una llamada.

  • Fine-tuning: Ajustar el modelo con datos propios para mejorar desempeño en tareas específicas.

  • LoRA / Adapters: Técnicas ligeras para afinar modelos sin reentrenar todo desde cero.

  • Distillation: Transferir conocimientos de un modelo grande a uno más pequeño.


RAG & Recuperación

  • RAG (Retrieval-Augmented Generation): Modelo que busca info externa y luego genera la respuesta.

  • Embedding: Vector numérico que representa el significado de un texto.

  • Vector: Lista de números que describe semántica; se usa para medir similitud.

  • Base de datos vectorial: Guarda embeddings y permite búsqueda por significado (ej. Weaviate, Pinecone, MongoDB).

  • Chunking: Partir documentos en fragmentos pequeños para indexar mejor.

  • Top-K retrieval: Traer los K fragmentos más relevantes.

  • Reranking: Reordenar resultados con un modelo más preciso.

  • Grounding: Basar la respuesta en fuentes recuperadas, no inventadas.

  • Hybrid search: Combinar semántica (vectores) y palabras clave.


Prompting & Decoding

  • Prompt: Instrucción que se le da al modelo.

  • Zero-shot / One-shot / Few-shot: Cantidad de ejemplos que incluyes en el prompt.

  • System / User / Assistant roles: Estructura típica de conversación con LLMs.

  • Temperature: Controla la "creatividad" o aleatoriedad de la respuesta (0 = determinista, 1 = creativo).

  • Top-P (nucleus sampling): Es una forma de controlar la variabilidad en las palabras que elige el modelo → Entre más bajo el P, más conservador será.

  • Top-K sampling: También controla la variabilidad, pero de otra forma → Un K pequeño hace que el modelo sea más repetitivo; un K más alto lo hace más diverso

  • Max tokens (output): Límite de tokens que puede devolver el modelo.

  • Logprobs: Probabilidad de cada token generado (útil para auditoría).

  • Chain-of-Thought (CoT): Pedir al modelo que razone paso a paso.


Agentes & Orquestación

  • Agente (Agent): LLM que puede decidir pasos, usar herramientas y razonar iterativamente.

  • Tool / Function Calling: El modelo invoca funciones o APIs estructuradas cuando lo requiere.

  • Planner / Executor: Patrón donde un agente planea y otro ejecuta acciones.

  • ReAct: Patrón que combina razonamiento + acción (buscar, calcular, etc.).

  • Workflow: Flujo definido de pasos con dependencias claras.

  • Memory (corta/larga): Información que el agente conserva entre pasos o sesiones.

  • Multi-agent systems: Varios agentes especializados colaborando (ej. uno planifica, otro verifica).


Multimodal, Visión & OCR

  • Multimodal: Modelos que entienden/generan más de un tipo de dato (texto + imagen + audio...).

  • VLM (Vision-Language Model): Modelo que interpreta imágenes y responde en texto.

  • OCR (Optical Character Recognition): Extraer texto de imágenes o PDFs escaneados.

  • Layout parsing / Document AI: Entender estructuras (tablas, formularios) dentro de documentos.


Generación de Imágenes / Difusión

  • Modelo de difusión: Genera imágenes reduciendo ruido iterativamente (Stable Diffusion, Imagen).

  • ControlNet / LoRA visual: Técnicas para guiar la generación con poses, bordes, estilos.

  • Inpainting / Outpainting: Rellenar o extender partes de una imagen existente.

  • Text-to-image / Image-to-image: Generar imagen desde texto o modificar una ya existente.

  • Safety checker: Filtro para contenido NSFW o prohibido.


Audio & Voz

  • TTS (Text-To-Speech): Convertir texto en voz.

  • STT / ASR (Speech-To-Text / Automatic Speech Recognition): Transcribir voz a texto.

  • Voice cloning: Generar voz con el timbre de una persona (siempre con permiso...).

  • Audio embeddings: Representaciones numéricas de audio para búsqueda o clasificación.


Infraestructura & Serving

  • Inference server: Servidor que sirve modelos con alta concurrencia y eficiencia.

  • GPU/TPU/NPUs: Aceleradores de hardware para entrenamiento e inferencia.

  • Sharding / Model parallelism: Dividir modelos en varias GPUs.

  • Quantization: Reducir precisión numérica para ahorrar memoria y acelerar inferencias (int8, fp8).

  • Batching: Agrupar peticiones para aprovechar mejor la GPU.

  • Caching (prompt/embedding): Guardar resultados para no recalcular.

  • Streaming: Enviar tokens al cliente conforme se generan.

  • Multi-tenant: Varios clientes comparten la misma infraestructura.


Evaluación y Métricas.

  • Latencia: Tiempo total de respuesta.

  • Throughput: Consultas por segundo soportadas.

  • Costo por token: Costo de inferencia por unidad (ligado a tokens de entrada y salida).

  • Human-in-the-loop: Revisión humana como paso importante de un flujo de IA.


Seguridad, Cumplimiento & Riesgos

  • Guardrails: Reglas, filtros y validaciones para limitar comportamiento del modelo.

  • Data leakage: Exposición involuntaria de datos sensibles.

  • Datos sensibles: Información personal que requiere protección.

  • Auditability / Traceability: Poder rastrear de dónde vino cada dato en la respuesta.


Datos & Mantenimiento

  • Data pipeline: Flujo para recopilar, limpiar y versionar datos.

  • Data drift: Tus datos cambian y tu modelo/índice se queda atrás.

  • Index refresh: Recalcular embeddings y reindexar cuando entran nuevos documentos.

  • Versionado de documentos/modelos: Mantener control de qué versión generó qué respuesta.

  • Observabilidad: Logs, métricas y trazas para entender el comportamiento del sistema.

  • Fallbacks: Estrategias cuando no hay info suficiente (responder “no sé”, pedir más contexto).


Última actualización