Utilizzo dei Cookie

    Utilizziamo cookie tecnici essenziali per garantire il corretto funzionamento della piattaforma. Con il tuo consenso, utilizziamo anche cookie analytics per migliorare i nostri servizi. Maggiori informazioni

    Torna al Glossario
    Machine Learning

    Cos'è Context Window? Definizione Completa e Guida Pratica

    Condividi:

    La context window è il limite massimo di token che un LLM può processare simultaneamente: include system prompt, storia della conversazione, contesto RAG e messaggio corrente. Con GPT-4o a 128K token e Claude a 200K token, le context window moderne permettono conversazioni molto lunghe e analisi di documenti estesi.

    Cos'è la Context Window?

    I modelli di linguaggio non hanno una "memoria" nel senso tradizionale: ogni volta che generano una risposta, considerano l'intero input come un blocco unico. La context window è la dimensione massima di questo blocco, misurata in token. Tutto ciò che entra nella context window è "visibile" al modello; tutto ciò che è al di fuori non esiste per lui.

    In pratica, la context window contiene: il system prompt (istruzioni del chatbot, tipicamente 500-2000 token), i documenti recuperati dalla knowledge base tramite RAG (2000-4000 token), la storia di tutti i messaggi della conversazione corrente, e il messaggio attuale dell'utente.

    Le dimensioni delle context window sono cresciute enormemente negli ultimi anni: GPT-3 aveva 2K token, GPT-4 aveva 8K, GPT-4o arriva a 128K, e Claude raggiunge 200K token, equivalente a un romanzo intero. Questo ha reso i chatbot capaci di mantenere conversazioni molto lunghe e analizzare documenti estesi senza perdita di contesto.

    Come è Composta la Context Window

    SYSTEM

    System Prompt

    Istruzioni del chatbot, ruolo, tono, restrizioni

    ~500-2000 token

    RAG CTX

    Contesto RAG

    Documenti rilevanti dalla knowledge base

    ~2000-4000 token

    HISTORY

    Storia Conversazione

    Tutti i messaggi precedenti della sessione corrente

    ~1000-10000 token (cresce)

    USER

    Messaggio Corrente

    L'ultimo messaggio inviato dall'utente

    ~10-200 token

    OUTPUT

    Risposta Generata

    Output dell'LLM (conta nel totale)

    ~100-500 token

    Context Window dei Principali LLM

    LLM avanzato (128K)

    Modello standard per chatbot AI

    128K token

    ≈ 90.000 parole

    Claude (Anthropic)

    Eccellente per documenti lunghissimi

    200K token

    ≈ 140.000 parole

    Gemini 1.5 Pro (Google)

    Context window record

    1M token

    ≈ 700.000 parole

    GPT-4o-mini (OpenAI)

    Fallback veloce

    128K token

    ≈ 90.000 parole

    Cosa Succede Quando Si Supera il Limite

    Strategia 1: Truncation

    I messaggi più vecchi vengono rimossi per fare spazio ai nuovi. Semplice da implementare ma rischiosa: se vengono rimossi messaggi con informazioni importanti (nome utente, numero ordine comunicato all'inizio), il chatbot potrebbe "dimenticare" contesto critico.

    Mitigazione: mantenere sempre il system prompt e i messaggi più recenti; rimuovere solo messaggi di mezzo della conversazione.

    Strategia 2: Summarization (Consigliata)

    Quando la conversazione si avvicina al limite, l'LLM genera un riassunto strutturato dei messaggi più vecchi ("Cliente: Mario Rossi, ha chiesto info su spedizioni, ha confermato ordine #12345"). Questo riassunto compresso sostituisce i messaggi originali, preservando le informazioni chiave.

    Trigger tipico: quando la conversazione supera il 70% della context window disponibile.

    Strategia 3: Sliding Window

    Una finestra mobile che mantiene sempre gli ultimi N token della conversazione, scorrendo avanti man mano che arrivano nuovi messaggi. Semplice e prevedibile, ma perde il contesto iniziale della conversazione. Adatta per conversazioni dove il contesto recente è più importante di quello lontano.

    Context Window e Memoria Persistente

    Memoria a Sessione vs Memoria Persistente

    Memoria a Sessione (Default)

    • Ricorda tutto della conversazione corrente
    • Resetta a ogni nuova sessione
    • Non ricorda conversazioni precedenti

    Memoria Persistente (Avanzata)

    • Recupera storico conversazioni da DB
    • "La sua ultima richiesta era..."
    • ! Richiede implementazione aggiuntiva

    Context Window nella Pratica: Customer Support

    Per una conversazione di customer support standard:

    • Una conversazione media di 10 scambi ≈ 2000-3000 token (ben sotto ogni limite)
    • Una conversazione lunga di 50 scambi ≈ 10.000-15.000 token (ancora dentro 128K)
    • Solo conversazioni tecniche molto elaborate potrebbero avvicinarsi ai limiti
    • Il problema reale di context window riguarda analisi di documenti lunghi, non chat

    Con GPT-4o a 128K token, il problema di context window non si presenta in oltre il 99% delle conversazioni di customer support tipiche.

    Domande Frequenti

    Cos'è la context window?

    La context window è il numero massimo di token che un LLM può considerare simultaneamente. Include system prompt, storia conversazione, contesto RAG e messaggio corrente. GPT-4o ha 128K token, Claude 200K, sufficienti per conversazioni molto lunghe senza perdita di contesto nella grande maggioranza dei casi di customer support.

    Il chatbot ricorda conversazioni precedenti?

    Il chatbot ricorda tutto ciò che è avvenuto nella conversazione corrente (entro il limite della context window). Sessioni precedenti non vengono ricordate automaticamente a meno che il sistema implementi una memoria persistente esterna, dove lo storico viene salvato in database e recuperato all'inizio di ogni nuova sessione.

    Cosa succede se la conversazione è troppo lunga?

    Se la conversazione si avvicina al limite della context window, il sistema usa strategie come truncation (rimozione messaggi vecchi), summarization (riassunto LLM) o sliding window. Nella pratica, con GPT-4o a 128K token, questo problema non si verifica nelle conversazioni di customer support standard (5-50 messaggi).

    Implementa Context Window nella Tua Azienda

    Scopri come V Support può aiutarti a sfruttare l'AI per il tuo customer service. Demo gratuita di 30 minuti.

    Esplora altri termini