Cos'è Confidence Score? Definizione Completa e Guida Pratica
Il confidence score (punteggio di confidenza) è un valore percentuale (0-100%) che rappresenta la certezza del chatbot di aver correttamente classificato l'intent di un messaggio e di stare fornendo la risposta appropriata. Determina quale comportamento adottare: risposta diretta, risposta con caveat, o escalation.
Cos'è il Confidence Score?
Quando il chatbot riceve un messaggio, il modello NLP non dice semplicemente "questo è l'intent X". Produce una distribuzione di probabilità su tutti gli intent definiti: "80% prenotazione, 12% info_orari, 5% cancellazione, 3% altro". Il confidence score è tipicamente la probabilità dell'intent più probabile, in questo caso 80%.
Questo numero è fondamentale per calibrare il comportamento del chatbot. Un sistema intelligente non risponde allo stesso modo con confidence 95% e con confidence 45%: nel primo caso risponde direttamente, nel secondo chiede una conferma o attiva comportamenti di fallback.
Il confidence score non è assoluto: dipende dal modello usato, dalla qualità del training data, dal numero di intent definiti e dalla chiarezza del messaggio dell'utente. Un message ambiguo produrrà sempre confidence più basso di un messaggio esplicito, anche con un modello eccellente.
Come Viene Calcolato il Confidence Score
Classificazione degli Intent
Il modello NLP usa un classificatore (tipicamente una rete neurale con softmax) che produce una distribuzione di probabilità normalizzata: la somma di tutte le probabilità degli intent è sempre 100%.
Messaggio: "Vorrei venire venerdì"
Intent scores:
prenotazione: 0.82 (82%) ← selezionato
info_disponibilita: 0.11 (11%)
modifica_prenotazione: 0.05 (5%)
altro: 0.02 (2%)
Confidence score = 82%
Confidence nei Sistemi RAG
Nei chatbot con RAG, il confidence score può essere composito: combina la certezza sull'intent con la qualità del retrieval (quanto sono pertinenti i documenti trovati).
Confidence composita = intent_confidence × retrieval_relevance
es: 85% intent × 90% retrieval = 76.5% confidence finale
Se i documenti recuperati non sono pertinenti, il confidence finale scende anche se l'intent è classificato correttamente.
Le Soglie di Confidence e i Comportamenti Associati
Confidence Alta: >80%, Risposta Diretta
Il chatbot è molto sicuro dell'interpretazione. Risponde direttamente senza richiedere conferme aggiuntive. La risposta viene presentata con tono assertivo.
Confidence Media: 60-80%, Risposta con Conferma
Il chatbot ha una buona stima ma non è del tutto certo. Risponde ma chiede una conferma o aggiunge un caveat per gestire l'eventuale errore di interpretazione.
Confidence Bassa: 40-60%, Chiarimento
L'interpretazione è incerta. Il chatbot presenta le possibili interpretazioni e chiede all'utente di selezionare quella corretta prima di procedere.
Confidence Molto Bassa: <40%, Fallback
Il chatbot non riesce a classificare il messaggio con sufficiente certezza. Attiva il fallback intent, proponendo alternative o escalation.
Monitoraggio del Confidence Score nel Tempo
Metriche da Monitorare
- Confidence medio globale: media su tutte le conversazioni (target >75%)
- % messaggi con confidence <50%: proxy del tasso di fallback (target <15%)
- Confidence per intent: identifica intent con classificazione debole
- Trend nel tempo: degradazione = training data diventato obsoleto
- Correlazione confidence-CSAT: verificare se confidence predice soddisfazione
Segnali di Allarme
- Confidence medio in calo: il linguaggio degli utenti sta evolvendo
- Intent specifico con confidence basso: training data insufficiente per quell'intent
- Picchi di confidence basso: nuovo argomento emerso non coperto
- Due intent con confidence simile: overlap tra intent, richiede revisione
- Confidence basso post-aggiornamento: nuove utterance hanno creato conflitti
Come Migliorare il Confidence Score
Strategie di Miglioramento
1. Arricchire le utterance degli intent deboli
Identifica gli intent con confidence medio più basso. Aggiungi 10-20 utterance diverse, privilegiando le formulazioni reali degli utenti estratte dai log di conversazione.
2. Eliminare le sovrapposizioni tra intent
Se due intent hanno utterance molto simili, il modello fatica a distinguerli. Rivedi i confini semantici tra intent e separa le utterance ambigue.
3. Ridurre il numero di intent se troppi
Troppi intent con poche utterance ciascuno riducono il confidence generale. Considera di unire intent troppo granulari in intent più ampi con più esempi.
4. Calibrare le soglie in base al dominio
Le soglie ottimali dipendono dal settore: chatbot per prenotazioni possono tollerare soglie più basse di chatbot per supporto medico o legale.
Confidence Score e Calibrazione del Modello
Un modello ben calibrato è quello dove il confidence score corrisponde effettivamente alla probabilità reale di essere corretto: se il modello dice 80%, dovrebbe essere giusto nell'80% dei casi con quel livello di confidence.
Modello Calibrato
- Confidence 90% → corretto ~90% dei casi
- Confidence 70% → corretto ~70% dei casi
- Confidence 50% → corretto ~50% dei casi
Modello Non Calibrato
- Confidence 90% → corretto solo 60%
- Confidence 70% → corretto 65%
- Le soglie configurate non funzionano
La calibrazione si verifica analizzando la correlazione tra confidence score e accuracy reale su un dataset di test.
Domande Frequenti
Cos'è il confidence score?
Il confidence score è il valore percentuale (0-100%) che indica quanto il chatbot è sicuro di aver correttamente interpretato il messaggio dell'utente e di stare fornendo la risposta giusta. Viene calcolato dal modello di classificazione NLP come probabilità dell'intent più probabile. È il parametro chiave per decidere se rispondere direttamente, chiedere una conferma, o attivare il fallback.
Quale soglia di confidence è accettabile?
Le soglie standard sono: sopra 80% per risposta diretta, 60-80% per risposta con richiesta di conferma, 40-60% per chiarimento o presentazione di opzioni, sotto 40% per fallback. Queste soglie devono essere calibrate in base al dominio specifico: applicazioni critiche (medico, legale, finanziario) richiedono soglie più alte per evitare errori costosi.
Come si migliora il confidence score?
Le strategie principali sono: aggiungere utterance più diverse agli intent con confidence basso (basandosi sui messaggi reali degli utenti), eliminare sovrapposizioni semantiche tra intent simili, verificare che ogni intent abbia abbastanza esempi di training (almeno 20-30), e aggiornare regolarmente il training data con le nuove formulazioni emerse dall'uso reale del chatbot.
Termini Correlati
Implementa Confidence Score nella Tua Azienda
Scopri come V Support può aiutarti a sfruttare l'AI per il tuo customer service. Demo gratuita di 30 minuti.