Por qué un LLM no rinde igual con 5 documentos que con 500, aunque diga que «caben». La curva U del olvido, el coste invisible de cada token, y la zona donde el modelo sigue siendo tu mejor asesor.
Sobre su mesa: el dossier del cliente, los antecedentes, el dictamen del Consejo de Estado, la posición histórica del grupo y tres carpetas de prensa. La ventana de contexto del LLM es exactamente esa mesa.
Si caben 8 carpetas, no hay décima novena. La ventana se mide en tokens (~ ¾ de palabra). Claude Opus 4.7: hasta 1 millón. Una ley orgánica entera, con sus antecedentes parlamentarios, ronda los 200.000 tokens.
Con 3 carpetas, las lee a fondo. Con 30, ojea las primeras, ojea las últimas, y todo lo del medio pasa a borrón. No es que no quepa: es que no lo procesa con la misma profundidad. El modelo hace exactamente lo mismo.
A las 3 de la madrugada, después de la página 400, mezcla la enmienda 12 con la enmienda 21. El LLM sufre la misma fatiga: a más contexto, más alucinaciones por interferencia entre piezas similares.
El criterio profesional está en elegir las 6 carpetas que importan para esa comisión concreta, no en llevar las 60. Trabajar bien con un LLM es exactamente lo mismo.
En 2023, un equipo de Stanford, Berkeley y Samaya AI metió la misma información en distintas posiciones de un contexto largo. La curva de aciertos dibuja una U: el modelo presta atención al principio y al final, y subexplora el medio. Pasa con todos los modelos probados.
Chroma Research (2025) probó 18 modelos punteros con la misma tarea, variando sólo la longitud del input. Todos pierden precisión cuando crece el contexto, incluso si la ventana técnica no está llena. Anthropic lo llama «presupuesto de atención»: cada token consume parte del mismo.
Pensar en la ventana como un semáforo, no como un depósito que se llena. La calidad de respuesta cae mucho antes que la cuota técnica. Estas tres franjas son aproximadas y consistentes con los hallazgos de Chroma y de la literatura post-Liu.
Calidad de razonamiento estable. Recuperación fiable de cualquier posición. Coste contenido. Esta es la zona por defecto para 9 de cada 10 tareas PA.
Sigue funcionando bien si estructuras el prompt y posicionas lo importante al inicio o al final. Empieza a aparecer el efecto «lost in the middle». Verificar resultados es obligatorio.
Aumentan las alucinaciones por interferencia entre piezas similares. La precisión cae aunque la ventana técnica permita más. Necesitas otra estrategia: trocear, recuperar, o pasar a un agente con RAG.
Aplicables hoy, en cualquier modelo (Claude, ChatGPT, Gemini) y en cualquier flujo (chat suelto, Claude Code, agente programado).
Un buen prompt con 8 fuentes elegidas bate a un mal prompt con 80. Eliminar es trabajo intelectual, no pérdida de información. PA: del dossier de 120 pp., extrae las 4 secciones que tocan el dictamen y pega solo ésas.
Por la curva U: lo que va en el medio se atiende peor. Si hay una instrucción que no puede fallar, va arriba o abajo del prompt, nunca enterrada. PA: la pregunta principal va arriba; las restricciones (tono, longitud, anti-alucinación) van al final.
Usa delimitadores claros (XML, markdown, separadores). El modelo asigna mejor «atención» cuando ve la estructura.
PA: <dictamen>...</dictamen> + <pregunta>...</pregunta>
Si llevas 40 turnos y empieza a confundirse, no pelees: abre un chat nuevo y resume el estado en 10 líneas. Recuperas zona inteligente. PA: cada sesión de trabajo con un caso = un chat. Al cerrar, pides resumen para el siguiente.
Cuando el material excede 200K tokens, el patrón cambia. Necesitas RAG (recuperación) o un agente con herramientas, no un solo prompt heroico. PA: para monitorización legislativa de toda una legislatura, agente con búsqueda — no copia-pega masivo.
La probabilidad de alucinación crece con la longitud del input, incluso en los mejores modelos. Tu valor profesional está en el filtro final, no en confiar a ciegas. PA: nunca firmar una nota basada en una sola pasada de LLM. Triangular con fuente primaria.