Cos'è Context Window? Definizione Completa e Guida Pratica
La context window è il limite massimo di token che un LLM può processare simultaneamente: include system prompt, storia della conversazione, contesto RAG e messaggio corrente. Con GPT-4o a 128K token e Claude a 200K token, le context window moderne permettono conversazioni molto lunghe e analisi di documenti estesi.
Cos'è la Context Window?
I modelli di linguaggio non hanno una "memoria" nel senso tradizionale: ogni volta che generano una risposta, considerano l'intero input come un blocco unico. La context window è la dimensione massima di questo blocco, misurata in token. Tutto ciò che entra nella context window è "visibile" al modello; tutto ciò che è al di fuori non esiste per lui.
In pratica, la context window contiene: il system prompt (istruzioni del chatbot, tipicamente 500-2000 token), i documenti recuperati dalla knowledge base tramite RAG (2000-4000 token), la storia di tutti i messaggi della conversazione corrente, e il messaggio attuale dell'utente.
Le dimensioni delle context window sono cresciute enormemente negli ultimi anni: GPT-3 aveva 2K token, GPT-4 aveva 8K, GPT-4o arriva a 128K, e Claude raggiunge 200K token, equivalente a un romanzo intero. Questo ha reso i chatbot capaci di mantenere conversazioni molto lunghe e analizzare documenti estesi senza perdita di contesto.
Come è Composta la Context Window
System Prompt
Istruzioni del chatbot, ruolo, tono, restrizioni
~500-2000 token
Contesto RAG
Documenti rilevanti dalla knowledge base
~2000-4000 token
Storia Conversazione
Tutti i messaggi precedenti della sessione corrente
~1000-10000 token (cresce)
Messaggio Corrente
L'ultimo messaggio inviato dall'utente
~10-200 token
Risposta Generata
Output dell'LLM (conta nel totale)
~100-500 token
Context Window dei Principali LLM
LLM avanzato (128K)
Modello standard per chatbot AI
128K token
≈ 90.000 parole
Claude (Anthropic)
Eccellente per documenti lunghissimi
200K token
≈ 140.000 parole
Gemini 1.5 Pro (Google)
Context window record
1M token
≈ 700.000 parole
GPT-4o-mini (OpenAI)
Fallback veloce
128K token
≈ 90.000 parole
Cosa Succede Quando Si Supera il Limite
Strategia 1: Truncation
I messaggi più vecchi vengono rimossi per fare spazio ai nuovi. Semplice da implementare ma rischiosa: se vengono rimossi messaggi con informazioni importanti (nome utente, numero ordine comunicato all'inizio), il chatbot potrebbe "dimenticare" contesto critico.
Mitigazione: mantenere sempre il system prompt e i messaggi più recenti; rimuovere solo messaggi di mezzo della conversazione.
Strategia 2: Summarization (Consigliata)
Quando la conversazione si avvicina al limite, l'LLM genera un riassunto strutturato dei messaggi più vecchi ("Cliente: Mario Rossi, ha chiesto info su spedizioni, ha confermato ordine #12345"). Questo riassunto compresso sostituisce i messaggi originali, preservando le informazioni chiave.
Trigger tipico: quando la conversazione supera il 70% della context window disponibile.
Strategia 3: Sliding Window
Una finestra mobile che mantiene sempre gli ultimi N token della conversazione, scorrendo avanti man mano che arrivano nuovi messaggi. Semplice e prevedibile, ma perde il contesto iniziale della conversazione. Adatta per conversazioni dove il contesto recente è più importante di quello lontano.
Context Window e Memoria Persistente
Memoria a Sessione vs Memoria Persistente
Memoria a Sessione (Default)
- ✓ Ricorda tutto della conversazione corrente
- ✗ Resetta a ogni nuova sessione
- ✗ Non ricorda conversazioni precedenti
Memoria Persistente (Avanzata)
- ✓ Recupera storico conversazioni da DB
- ✓ "La sua ultima richiesta era..."
- ! Richiede implementazione aggiuntiva
Context Window nella Pratica: Customer Support
Per una conversazione di customer support standard:
- Una conversazione media di 10 scambi ≈ 2000-3000 token (ben sotto ogni limite)
- Una conversazione lunga di 50 scambi ≈ 10.000-15.000 token (ancora dentro 128K)
- Solo conversazioni tecniche molto elaborate potrebbero avvicinarsi ai limiti
- Il problema reale di context window riguarda analisi di documenti lunghi, non chat
Con GPT-4o a 128K token, il problema di context window non si presenta in oltre il 99% delle conversazioni di customer support tipiche.
Domande Frequenti
Cos'è la context window?
La context window è il numero massimo di token che un LLM può considerare simultaneamente. Include system prompt, storia conversazione, contesto RAG e messaggio corrente. GPT-4o ha 128K token, Claude 200K, sufficienti per conversazioni molto lunghe senza perdita di contesto nella grande maggioranza dei casi di customer support.
Il chatbot ricorda conversazioni precedenti?
Il chatbot ricorda tutto ciò che è avvenuto nella conversazione corrente (entro il limite della context window). Sessioni precedenti non vengono ricordate automaticamente a meno che il sistema implementi una memoria persistente esterna, dove lo storico viene salvato in database e recuperato all'inizio di ogni nuova sessione.
Cosa succede se la conversazione è troppo lunga?
Se la conversazione si avvicina al limite della context window, il sistema usa strategie come truncation (rimozione messaggi vecchi), summarization (riassunto LLM) o sliding window. Nella pratica, con GPT-4o a 128K token, questo problema non si verifica nelle conversazioni di customer support standard (5-50 messaggi).
Termini Correlati
Implementa Context Window nella Tua Azienda
Scopri come V Support può aiutarti a sfruttare l'AI per il tuo customer service. Demo gratuita di 30 minuti.