¿Stack RAG B2B canonical?

LLM Claude/GPT-4o/Gemini. Embeddings text-embedding-3 / voyage-large. Vector DB Pinecone/Qdrant/pgvector. Orchestration LangChain/LlamaIndex. Ingestion Unstructured.io. Hosting AWS/Azure/on-premise según compliance.

Chunking >2K tokens reduce precision. Embeddings stale sin re-embed. Sin citations auditability rota. Vector DB sin metadata filters cross-team leak. Sin reranking trae chunks irrelevantes. Sin eval framework no se puede iterar.

RAG Retrieval Augmented Generation · Definición + arquitectura

Q: ¿Qué es RAG?

Retrieval Augmented Generation: combina retrieval información (vector DB) con generación LLM para responder consultas sobre knowledge base privada sin fine-tuning. Citations auditables + update real-time.

Q: ¿RAG vs Fine-tuning?

RAG: knowledge externa, update real-time, auditable, coste lineal queries. Fine-tuning: knowledge embedded, re-training para update, no auditable. Default RAG knowledge evolutiva. Fine-tuning style/tone fix.

El RAG (Retrieval Augmented Generation) combina retrieval de información (vector DB) con generación LLM para responder consultas sobre knowledge base privada sin fine-tuning. Patrón canónico B2B 2026 · permite Claude/GPT contestar sobre docs internos preservando privacidad + accuracy + actualización en tiempo real.

Arquitectura RAG canónica

Ingestion · documentos (Notion, Drive, SharePoint, Confluence) → chunking 500-2.000 tokens.
Embeddings · text-embedding-3 (OpenAI) / Voyage / Cohere convierte chunks en vectores 1024-3072 dim.
Vector DB · Pinecone, Weaviate, Qdrant, pgvector almacenan vectores + metadata.
Query · pregunta usuario → embedding → similarity search top-K chunks relevantes.
Generation · LLM (Claude / GPT-4 / Gemini) responde con chunks recuperados en context window + citations source.

Diferencia RAG vs Fine-tuning

RAG · knowledge externa al modelo · update real-time · auditable (citations) · coste lineal con queries.
Fine-tuning · knowledge embedded en modelo · update requiere re-training · no auditable · coste fijo training + inferior overhead query.
Decisión B2B · RAG default para knowledge base evolutiva. Fine-tuning para style/tone fix + reduce token cost en queries high-volume.
Híbrido · fine-tune base model + RAG knowledge layer. Combinación común enterprise.

Stack RAG B2B mid-market canónico

LLM · Claude 3.5 Sonnet / GPT-4o / Gemini Pro · enterprise privacy.
Embeddings · text-embedding-3-large (OpenAI) / voyage-large-2.
Vector DB · Pinecone (managed) / Qdrant (self-hosted) / pgvector (Postgres extension).
Orchestration · LangChain / LlamaIndex / custom.
Ingestion · Unstructured.io / custom Python parsers.
Hosting · AWS / Azure OpenAI / on-premise GPU según compliance.

Casos uso RAG B2B

Customer support tier-1 agent · responde sobre docs + tickets históricos + product KB.
Internal knowledge assistant · empleados consultan políticas + procesos + onboarding.
Sales enablement · SDR/AE pregunta sobre product, pricing, competitor, case studies.
Compliance Q&A · legal team consulta sobre RGPD, EU AI Act, contracts library.
Marketing content ops · briefing + research desde KB + competitive intel.

Diferencia entre /rag-retrieval/ glossary y pillar /productos-ia/rag-privado-empresarial/

Esta entrada glossary = definición + arquitectura canónica. Para implementación B2B + pricing + compliance enterprise ver RAG Privado Empresarial + RAG Systems pillar.

Errores frecuentes

Chunking demasiado grande. >2.000 tokens reduce precision retrieval.
Embeddings sin actualizar. Docs updated sin re-embed = stale answers.
RAG sin citations. Sin source links, auditability rota.
Vector DB sin metadata filters. Cross-team data leak risk.
Reranking ausente. Top-K sin reranking (Cohere Rerank) puede traer chunks irrelevantes.
Sin eval framework. Sin métrica accuracy/recall, no se puede iterar.

Términos relacionados

MCP — protocolo para conectar RAG a LLM tools.
Prompt Engineering — diseño prompts RAG-aware.
E-E-A-T — RAG con citations mejora trust.
GEO — GEO citation similar pattern RAG.
B2B — RAG resuelve enterprise B2B knowledge silos.

¿RAG B2B sin eval framework? Diagnóstico digital gratuito →