Anclaje conceptual · Formación IA aplicada

La ventana de contexto.
No es cuánto cabe.
Es cuánto recuerda.

Por qué un LLM no rinde igual con 5 documentos que con 500, aunque diga que «caben». La curva U del olvido, el coste invisible de cada token, y la zona donde el modelo sigue siendo tu mejor asesor.

AudienciaProfesionales de Asuntos Públicos

Duración~ 5 min de lectura

Fecha19 · 05 · 2026

12 documentos en la mesa, sólo recuerda con nitidez los resaltados

01 · Analogía

Imagina un asesor parlamentario la noche antes de una comparecencia.

Sobre su mesa: el dossier del cliente, los antecedentes, el dictamen del Consejo de Estado, la posición histórica del grupo y tres carpetas de prensa. La ventana de contexto del LLM es exactamente esa mesa.

El espacio

La mesa tiene tamaño finito

Si caben 8 carpetas, no hay décima novena. La ventana se mide en tokens (~ ¾ de palabra). Claude Opus 4.7: hasta 1 millón. Una ley orgánica entera, con sus antecedentes parlamentarios, ronda los 200.000 tokens.

La atención

El asesor sólo puede leer una vez

Con 3 carpetas, las lee a fondo. Con 30, ojea las primeras, ojea las últimas, y todo lo del medio pasa a borrón. No es que no quepa: es que no lo procesa con la misma profundidad. El modelo hace exactamente lo mismo.

El cansancio

Cuanto más larga la mesa, más errores

A las 3 de la madrugada, después de la página 400, mezcla la enmienda 12 con la enmienda 21. El LLM sufre la misma fatiga: a más contexto, más alucinaciones por interferencia entre piezas similares.

El criterio

Un buen asesor selecciona, no acumula

El criterio profesional está en elegir las 6 carpetas que importan para esa comisión concreta, no en llevar las 60. Trabajar bien con un LLM es exactamente lo mismo.

02 · El fenómeno «lost in the middle»

Cuando el dato relevante está en el medio del dossier, el modelo lo encuentra peor.

En 2023, un equipo de Stanford, Berkeley y Samaya AI metió la misma información en distintas posiciones de un contexto largo. La curva de aciertos dibuja una U: el modelo presta atención al principio y al final, y subexplora el medio. Pasa con todos los modelos probados.

Precisión de recuperación según la posición del dato clave

Datos: Liu et al. 2023 · 20 documentos · tarea QA

Lectura para Asuntos Públicos. Si pegas un expediente largo y la información clave está enterrada en la página 14 de 40, hay una probabilidad real de que el modelo responda como si esa página no estuviera. Posicionar el dato relevante al inicio o al final del prompt no es cosmética: es ingeniería de atención.

03 · Context rot

No es sólo el medio. Es la masa.

Chroma Research (2025) probó 18 modelos punteros con la misma tarea, variando sólo la longitud del input. Todos pierden precisión cuando crece el contexto, incluso si la ventana técnica no está llena. Anthropic lo llama «presupuesto de atención»: cada token consume parte del mismo.

caída de precisión observada entre 10K y 100K+ tokens en tareas tipo «aguja en pajar».

Chroma Research · 2025

caída adicional cuando el dato relevante pasa de la posición 1 a la posición 10 en un contexto de 20 documentos.

Liu et al. · Stanford · 2023

300–400K

tokens es donde, en modelos con ventana de 1M, empieza a notarse claramente la degradación. Mucho antes de «llenar» la ventana.

Chroma Research · 2025

04 · La zona inteligente

No todos los kilómetros de contexto rinden igual.

Pensar en la ventana como un semáforo, no como un depósito que se llena. La calidad de respuesta cae mucho antes que la cuota técnica. Estas tres franjas son aproximadas y consistentes con los hallazgos de Chroma y de la literatura post-Liu.

● Zona inteligente

0 – 50K tokens

El modelo está en su mejor versión

Calidad de razonamiento estable. Recuperación fiable de cualquier posición. Coste contenido. Esta es la zona por defecto para 9 de cada 10 tareas PA.

Una nota a junta directiva con 3 anexos
Un dictamen + posición histórica del grupo
Un position paper con 5–8 fuentes seleccionadas

● Zona de cuidado

50K – 200K tokens

Útil, pero con disciplina

Sigue funcionando bien si estructuras el prompt y posicionas lo importante al inicio o al final. Empieza a aparecer el efecto «lost in the middle». Verificar resultados es obligatorio.

Análisis comparativo de varias normas autonómicas
Dossier de monitorización semanal completo
Resumen ejecutivo de un libro blanco

● Zona de riesgo

200K+ tokens

Aquí el modelo «se cansa»

Aumentan las alucinaciones por interferencia entre piezas similares. La precisión cae aunque la ventana técnica permita más. Necesitas otra estrategia: trocear, recuperar, o pasar a un agente con RAG.

Subir toda la legislatura completa de golpe
Pegar 30 PDFs y esperar síntesis fiel
Mantener una conversación que ya lleva 80 turnos

05 · Playbook

Seis reglas prácticas para Asuntos Públicos.

Aplicables hoy, en cualquier modelo (Claude, ChatGPT, Gemini) y en cualquier flujo (chat suelto, Claude Code, agente programado).

Selecciona antes de pegar

Un buen prompt con 8 fuentes elegidas bate a un mal prompt con 80. Eliminar es trabajo intelectual, no pérdida de información. PA: del dossier de 120 pp., extrae las 4 secciones que tocan el dictamen y pega solo ésas.

Posiciona lo crítico al principio o al final

Por la curva U: lo que va en el medio se atiende peor. Si hay una instrucción que no puede fallar, va arriba o abajo del prompt, nunca enterrada. PA: la pregunta principal va arriba; las restricciones (tono, longitud, anti-alucinación) van al final.

Separa contexto y pregunta

Usa delimitadores claros (XML, markdown, separadores). El modelo asigna mejor «atención» cuando ve la estructura. PA: <dictamen>...</dictamen> + <pregunta>...</pregunta>

Reinicia la conversación cuando notes deriva

Si llevas 40 turnos y empieza a confundirse, no pelees: abre un chat nuevo y resume el estado en 10 líneas. Recuperas zona inteligente. PA: cada sesión de trabajo con un caso = un chat. Al cerrar, pides resumen para el siguiente.

Para corpus grandes, no pegues: indexa

Cuando el material excede 200K tokens, el patrón cambia. Necesitas RAG (recuperación) o un agente con herramientas, no un solo prompt heroico. PA: para monitorización legislativa de toda una legislatura, agente con búsqueda — no copia-pega masivo.

Verifica siempre — más, cuanto más largo el contexto

La probabilidad de alucinación crece con la longitud del input, incluso en los mejores modelos. Tu valor profesional está en el filtro final, no en confiar a ciegas. PA: nunca firmar una nota basada en una sola pasada de LLM. Triangular con fuente primaria.

La ventana de contexto.No es cuánto cabe.Es cuánto recuerda.