El RAG (Retrieval Augmented Generation) combina retrieval de información (vector DB) con generación LLM para responder consultas sobre knowledge base privada sin fine-tuning. Patrón canónico B2B 2026 · permite Claude/GPT contestar sobre docs internos preservando privacidad + accuracy + actualización en tiempo real.
Arquitectura RAG canónica
- Ingestion · documentos (Notion, Drive, SharePoint, Confluence) → chunking 500-2.000 tokens.
- Embeddings · text-embedding-3 (OpenAI) / Voyage / Cohere convierte chunks en vectores 1024-3072 dim.
- Vector DB · Pinecone, Weaviate, Qdrant, pgvector almacenan vectores + metadata.
- Query · pregunta usuario → embedding → similarity search top-K chunks relevantes.
- Generation · LLM (Claude / GPT-4 / Gemini) responde con chunks recuperados en context window + citations source.
Diferencia RAG vs Fine-tuning
- RAG · knowledge externa al modelo · update real-time · auditable (citations) · coste lineal con queries.
- Fine-tuning · knowledge embedded en modelo · update requiere re-training · no auditable · coste fijo training + inferior overhead query.
- Decisión B2B · RAG default para knowledge base evolutiva. Fine-tuning para style/tone fix + reduce token cost en queries high-volume.
- Híbrido · fine-tune base model + RAG knowledge layer. Combinación común enterprise.
Stack RAG B2B mid-market canónico
- LLM · Claude 3.5 Sonnet / GPT-4o / Gemini Pro · enterprise privacy.
- Embeddings · text-embedding-3-large (OpenAI) / voyage-large-2.
- Vector DB · Pinecone (managed) / Qdrant (self-hosted) / pgvector (Postgres extension).
- Orchestration · LangChain / LlamaIndex / custom.
- Ingestion · Unstructured.io / custom Python parsers.
- Hosting · AWS / Azure OpenAI / on-premise GPU según compliance.
Casos uso RAG B2B
- Customer support tier-1 agent · responde sobre docs + tickets históricos + product KB.
- Internal knowledge assistant · empleados consultan políticas + procesos + onboarding.
- Sales enablement · SDR/AE pregunta sobre product, pricing, competitor, case studies.
- Compliance Q&A · legal team consulta sobre RGPD, EU AI Act, contracts library.
- Marketing content ops · briefing + research desde KB + competitive intel.
Diferencia entre /rag-retrieval/ glossary y pillar /productos-ia/rag-privado-empresarial/
Esta entrada glossary = definición + arquitectura canónica. Para implementación B2B + pricing + compliance enterprise ver RAG Privado Empresarial + RAG Systems pillar.
Errores frecuentes
- Chunking demasiado grande. >2.000 tokens reduce precision retrieval.
- Embeddings sin actualizar. Docs updated sin re-embed = stale answers.
- RAG sin citations. Sin source links, auditability rota.
- Vector DB sin metadata filters. Cross-team data leak risk.
- Reranking ausente. Top-K sin reranking (Cohere Rerank) puede traer chunks irrelevantes.
- Sin eval framework. Sin métrica accuracy/recall, no se puede iterar.
Términos relacionados
- MCP — protocolo para conectar RAG a LLM tools.
- Prompt Engineering — diseño prompts RAG-aware.
- E-E-A-T — RAG con citations mejora trust.
- GEO — GEO citation similar pattern RAG.
- B2B — RAG resuelve enterprise B2B knowledge silos.