Utilizzo dei Cookie

    Utilizziamo cookie tecnici essenziali per garantire il corretto funzionamento della piattaforma. Con il tuo consenso, utilizziamo anche cookie analytics per migliorare i nostri servizi. Maggiori informazioni

    Torna al Glossario
    AI Conversazionale

    Cos'è Confidence Score? Definizione Completa e Guida Pratica

    Condividi:

    Il confidence score (punteggio di confidenza) è un valore percentuale (0-100%) che rappresenta la certezza del chatbot di aver correttamente classificato l'intent di un messaggio e di stare fornendo la risposta appropriata. Determina quale comportamento adottare: risposta diretta, risposta con caveat, o escalation.

    Cos'è il Confidence Score?

    Quando il chatbot riceve un messaggio, il modello NLP non dice semplicemente "questo è l'intent X". Produce una distribuzione di probabilità su tutti gli intent definiti: "80% prenotazione, 12% info_orari, 5% cancellazione, 3% altro". Il confidence score è tipicamente la probabilità dell'intent più probabile, in questo caso 80%.

    Questo numero è fondamentale per calibrare il comportamento del chatbot. Un sistema intelligente non risponde allo stesso modo con confidence 95% e con confidence 45%: nel primo caso risponde direttamente, nel secondo chiede una conferma o attiva comportamenti di fallback.

    Il confidence score non è assoluto: dipende dal modello usato, dalla qualità del training data, dal numero di intent definiti e dalla chiarezza del messaggio dell'utente. Un message ambiguo produrrà sempre confidence più basso di un messaggio esplicito, anche con un modello eccellente.

    Come Viene Calcolato il Confidence Score

    Classificazione degli Intent

    Il modello NLP usa un classificatore (tipicamente una rete neurale con softmax) che produce una distribuzione di probabilità normalizzata: la somma di tutte le probabilità degli intent è sempre 100%.

    Messaggio: "Vorrei venire venerdì"

    Intent scores:

    prenotazione: 0.82 (82%) ← selezionato

    info_disponibilita: 0.11 (11%)

    modifica_prenotazione: 0.05 (5%)

    altro: 0.02 (2%)

    Confidence score = 82%

    Confidence nei Sistemi RAG

    Nei chatbot con RAG, il confidence score può essere composito: combina la certezza sull'intent con la qualità del retrieval (quanto sono pertinenti i documenti trovati).

    Confidence composita = intent_confidence × retrieval_relevance

    es: 85% intent × 90% retrieval = 76.5% confidence finale

    Se i documenti recuperati non sono pertinenti, il confidence finale scende anche se l'intent è classificato correttamente.

    Le Soglie di Confidence e i Comportamenti Associati

    Confidence Alta: >80%, Risposta Diretta

    Il chatbot è molto sicuro dell'interpretazione. Risponde direttamente senza richiedere conferme aggiuntive. La risposta viene presentata con tono assertivo.

    Utente: "Prenota per venerdì alle 15" → Bot: "Perfetto! Ho prenotato per venerdì alle 15:00. [dettagli prenotazione]"

    Confidence Media: 60-80%, Risposta con Conferma

    Il chatbot ha una buona stima ma non è del tutto certo. Risponde ma chiede una conferma o aggiunge un caveat per gestire l'eventuale errore di interpretazione.

    Utente: "Venerdì sera" → Bot: "Ho capito che vorresti prenotare per venerdì sera. È corretto? Se sì, a che ora preferisce?"

    Confidence Bassa: 40-60%, Chiarimento

    L'interpretazione è incerta. Il chatbot presenta le possibili interpretazioni e chiede all'utente di selezionare quella corretta prima di procedere.

    Utente: "Riguardo venerdì..." → Bot: "Puoi aiutarmi a capire cosa vorresti fare? [Prenotare per venerdì] [Modificare una prenotazione esistente] [Informazioni sulla disponibilità]"

    Confidence Molto Bassa: <40%, Fallback

    Il chatbot non riesce a classificare il messaggio con sufficiente certezza. Attiva il fallback intent, proponendo alternative o escalation.

    Utente: [messaggio ambiguo o fuori contesto] → Bot: "Non sono sicuro di aver capito. Posso aiutarti con: [menu opzioni] o [parlare con operatore]"

    Monitoraggio del Confidence Score nel Tempo

    Metriche da Monitorare

    • Confidence medio globale: media su tutte le conversazioni (target >75%)
    • % messaggi con confidence <50%: proxy del tasso di fallback (target <15%)
    • Confidence per intent: identifica intent con classificazione debole
    • Trend nel tempo: degradazione = training data diventato obsoleto
    • Correlazione confidence-CSAT: verificare se confidence predice soddisfazione

    Segnali di Allarme

    • Confidence medio in calo: il linguaggio degli utenti sta evolvendo
    • Intent specifico con confidence basso: training data insufficiente per quell'intent
    • Picchi di confidence basso: nuovo argomento emerso non coperto
    • Due intent con confidence simile: overlap tra intent, richiede revisione
    • Confidence basso post-aggiornamento: nuove utterance hanno creato conflitti

    Come Migliorare il Confidence Score

    Strategie di Miglioramento

    1. Arricchire le utterance degli intent deboli

    Identifica gli intent con confidence medio più basso. Aggiungi 10-20 utterance diverse, privilegiando le formulazioni reali degli utenti estratte dai log di conversazione.

    2. Eliminare le sovrapposizioni tra intent

    Se due intent hanno utterance molto simili, il modello fatica a distinguerli. Rivedi i confini semantici tra intent e separa le utterance ambigue.

    3. Ridurre il numero di intent se troppi

    Troppi intent con poche utterance ciascuno riducono il confidence generale. Considera di unire intent troppo granulari in intent più ampi con più esempi.

    4. Calibrare le soglie in base al dominio

    Le soglie ottimali dipendono dal settore: chatbot per prenotazioni possono tollerare soglie più basse di chatbot per supporto medico o legale.

    Confidence Score e Calibrazione del Modello

    Un modello ben calibrato è quello dove il confidence score corrisponde effettivamente alla probabilità reale di essere corretto: se il modello dice 80%, dovrebbe essere giusto nell'80% dei casi con quel livello di confidence.

    Modello Calibrato

    • Confidence 90% → corretto ~90% dei casi
    • Confidence 70% → corretto ~70% dei casi
    • Confidence 50% → corretto ~50% dei casi

    Modello Non Calibrato

    • Confidence 90% → corretto solo 60%
    • Confidence 70% → corretto 65%
    • Le soglie configurate non funzionano

    La calibrazione si verifica analizzando la correlazione tra confidence score e accuracy reale su un dataset di test.

    Domande Frequenti

    Cos'è il confidence score?

    Il confidence score è il valore percentuale (0-100%) che indica quanto il chatbot è sicuro di aver correttamente interpretato il messaggio dell'utente e di stare fornendo la risposta giusta. Viene calcolato dal modello di classificazione NLP come probabilità dell'intent più probabile. È il parametro chiave per decidere se rispondere direttamente, chiedere una conferma, o attivare il fallback.

    Quale soglia di confidence è accettabile?

    Le soglie standard sono: sopra 80% per risposta diretta, 60-80% per risposta con richiesta di conferma, 40-60% per chiarimento o presentazione di opzioni, sotto 40% per fallback. Queste soglie devono essere calibrate in base al dominio specifico: applicazioni critiche (medico, legale, finanziario) richiedono soglie più alte per evitare errori costosi.

    Come si migliora il confidence score?

    Le strategie principali sono: aggiungere utterance più diverse agli intent con confidence basso (basandosi sui messaggi reali degli utenti), eliminare sovrapposizioni semantiche tra intent simili, verificare che ogni intent abbia abbastanza esempi di training (almeno 20-30), e aggiornare regolarmente il training data con le nuove formulazioni emerse dall'uso reale del chatbot.

    Implementa Confidence Score nella Tua Azienda

    Scopri come V Support può aiutarti a sfruttare l'AI per il tuo customer service. Demo gratuita di 30 minuti.

    Esplora altri termini