Quanto Sono Accurati i Detector AI? La Verità

Aggiornato ad aprile 2026 · 4 min di lettura

Ogni produttore di detector dichiara "99% di precisione". Chi ne ha usati più di uno sa che è un numero di marketing. Il quadro onesto è meno ordinato, più interessante, e vale la pena conoscerlo prima di fidarsi di un punteggio su qualcosa di importante.

I numeri reali

Gli studi accademici indipendenti del 2024-2025 raccontano una storia coerente. Su testo generato da GPT-3.5, GPTZero rileva correttamente tra l'80% e l'88% dei casi, con tasso di falsi positivi tra il 3% e il 9%. ZeroGPT e Sapling si muovono su cifre simili. Su GPT-4 e GPT-4o, gli stessi tool scendono al 60-75%, con i falsi positivi che salgono man mano che i modelli producono testo più vario.

Sui modelli più recenti — Claude 3.5, Gemini 2, e la generazione rilasciata a fine 2025 — il rilevamento scende sotto il 55%. Alcuni di questi modelli sono stati addestrati esplicitamente per ridurre i marcatori statistici che i detector misurano. Passano attraverso i detector senza editing post-generazione.

I numeri italiani sono peggiori

La maggior parte dei detector è addestrata prevalentemente su corpus in inglese. Quando vengono applicati a testo in italiano, le soglie statistiche sono tarate male e i tassi di falsi positivi salgono sensibilmente. Test indipendenti hanno misurato falsi positivi in italiano fino al 12-15% su prosa accademica ben scritta, contro il 4-5% sulle stesse categorie in inglese.

RealText è una delle poche opzioni con calibrazione nativa italiana — baseline di perplexity addestrata su corpus italiani, liste di connettivi specifiche, soglie calibrate sulla lingua. Riduce il gap, non lo elimina. Nessun tool è infallibile.

Il problema dei falsi positivi di cui nessuno parla

I numeri di precisione sono solo metà della storia. I falsi positivi — testo umano classificato come AI — sono il danno reputazionale di questo settore. Uno studio di Stanford del 2023 ha trovato che gli studenti non madrelingua inglesi venivano classificati come AI fino al 61% dei casi. La prosa accademica, la scrittura legale, la documentazione tecnica, e il testo di chi scrive in stili strutturati rigidi triggerano il rilevamento a tassi molto superiori alla baseline.

La ragione è meccanica: i detector misurano regolarità statistica. Qualsiasi scrittore addestrato a essere coerente, formale e strutturato assomiglia statisticamente a un modello linguistico. Non è un difetto rimuovibile con un prompt — è come funzionano questi strumenti.

Cosa significa davvero un punteggio

Un numero come "73% AI" non è una probabilità. È un riassunto di quanto il testo corrisponde all'impronta statistica che il detector è stato addestrato a riconoscere. Tool diversi producono punteggi diversi sullo stesso testo perché pesano metriche diverse — perplexity, burstiness, distribuzione del vocabolario, pattern di punteggiatura — in proporzioni diverse.

Tratta il punteggio come un termometro, non come un verdetto. Un punteggio alto significa che il testo ha proprietà statistiche AI-simili. Se sia davvero stato prodotto da AI, scritto da un umano che scrive naturalmente così, o pesantemente editato da output AI — il numero da solo non te lo dice.

GPT-3.5 vs GPT-4 vs modelli recenti

La differenza tra modelli vecchi e nuovi è grande. I detector sono stati addestrati principalmente su output GPT-3.5 nei primi due anni; sono migliori su quel target di quanto siano su modelli più recenti. GPT-4 produce testo più vario, con meno marcatori statistici evidenti; Claude e Gemini hanno caratteristiche stilistiche diverse ancora; i modelli 2025-2026 sono addestrati espressamente per aggirare i detector.

La conseguenza pratica: un punteggio alto su testo che "sa di ChatGPT vecchio" è più significativo di un punteggio alto su testo potenzialmente prodotto da un modello nuovo. E un punteggio basso non esclude l'uso di AI — esclude l'uso di AI vecchia non editata, che è una cosa diversa.

Quando i detector sono utili comunque

Nonostante i limiti, i detector hanno usi reali se usati correttamente. Per l'auto-verifica prima della consegna, ti dicono se il tuo testo legge come AI — segnale utile anche se hai scritto tutto tu. Per i team di contenuti, segnalano passaggi che hanno bisogno di editing per stile. Per gli educatori, un punteggio alto è l'innesco per una conversazione, non una sentenza.

L'abuso è trattare un punteggio come prova. Nessuna procedura di integrità accademica competente nel 2026 si basa su un singolo punteggio detector per prendere una decisione — e nessuna decisione individuale dovrebbe basarsi su un solo numero.

Come usare un punteggio bene

Esegui il testo su due o tre detector, non uno. Confronta. Se divergono parecchio, quella divergenza è informazione — il testo è in una zona ambigua. Se concordano, il segnale è più forte ma non è prova.

Per chi verifica il proprio testo, il punteggio che conta è quello che cambia quando editi. Prova tecniche di parafrasi mirata e analizza di nuovo. L'utilità di un detector non è il numero assoluto ma quanto risponde in modo sensato alle tue modifiche. Tool come RealText mostrano le metriche sottostanti — così vedi esattamente cosa è cambiato.

La conclusione onesta

Nessun detector è abbastanza affidabile per condannare. Tutti i detector sono abbastanza utili per orientare. I numeri del marketing non sono i numeri che vedrai nella pratica, e il tasso di falsi positivi sul tuo testo dipende più dal tuo stile che dal tool. Capire questa distanza fa la differenza tra usare bene questi strumenti e lasciarsi ingannare da loro.

Vedi le metriche dietro il tuo punteggio.

Analizza il testo gratis →