¿Qué Tan Precisos Son los Detectores de IA? La Verdad
Todo fabricante de detectores declara "99% de precisión". Quien usó varios sabe que es un número de marketing. El cuadro honesto es más desordenado, más interesante, y vale la pena conocerlo antes de confiar en un puntaje sobre algo importante.
Las cifras reales
Los estudios académicos independientes de 2024 y 2025 cuentan una historia consistente. Sobre texto generado por GPT-3.5, GPTZero detecta correctamente entre el 80% y 88% de los casos, con una tasa de falsos positivos entre 3% y 9%. ZeroGPT y Sapling se mueven en cifras similares. Sobre GPT-4 y GPT-4o, las mismas herramientas bajan a 60-75%, con falsos positivos subiendo a medida que los modelos producen texto más variado.
En los modelos más recientes — Claude 3.5, Gemini 2, y la generación lanzada a fines de 2025 — la detección cae bajo el 55%. Algunos de estos modelos fueron entrenados específicamente para reducir los marcadores estadísticos que los detectores miden. Pasan por los detectores sin edición post-generación.
Los números en español son peores
La mayoría de los detectores fue entrenada predominantemente sobre corpora en inglés. Cuando se aplican a texto en español, los umbrales estadísticos están mal calibrados y las tasas de falsos positivos suben sensiblemente. Pruebas independientes han medido falsos positivos en español de hasta 12-15% sobre prosa académica bien escrita, contra 4-5% en las mismas categorías en inglés.
RealText es una de las pocas opciones con calibración nativa en español — baseline de perplejidad entrenada sobre corpora hispanohablantes, listas de conectores específicas, umbrales calibrados al idioma. Reduce la brecha, no la elimina. Ninguna herramienta es infalible.
El problema de los falsos positivos del que nadie habla
Las cifras de precisión son solo la mitad de la historia. Los falsos positivos — texto humano clasificado como IA — son el desastre reputacional de este espacio. Un estudio de Stanford de 2023 encontró que los hablantes no nativos de inglés tenían su escritura clasificada como IA hasta 61% del tiempo por detectores populares. La prosa académica, la escritura legal, la documentación técnica, y el texto de escritores entrenados en estructuras rígidas disparan la detección a tasas muy por encima del baseline.
La razón es mecánica: los detectores miden regularidad estadística. Cualquier escritor entrenado para ser consistente, formal o estructurado se parecerá estadísticamente a un modelo de lenguaje. No es una falla que puedas promptear para solucionar — es cómo funcionan estas herramientas.
Qué significa realmente un puntaje
Un número como "73% IA" no es una probabilidad. Es un resumen de qué tan cerca está el texto de la huella estadística que el detector fue entrenado para marcar. Distintas herramientas producen distintos puntajes sobre el mismo texto porque pesan distintas métricas — perplejidad, burstiness, distribución de vocabulario, patrones de puntuación — de maneras distintas.
Trata el puntaje como un termómetro, no como un veredicto. Un puntaje alto significa que el texto tiene propiedades estadísticas IA-like. Si fue realmente producido por IA, escrito por un humano que naturalmente escribe así, o editado pesadamente desde output IA — el número no te lo puede decir.
Cuándo los detectores son útiles igualmente
A pesar de las limitaciones, los detectores sirven para propósitos reales si se usan apropiadamente. Para auto-verificación antes de entregar, te dicen si tu escritura lee como IA — señal útil incluso si escribiste cada palabra tú mismo. Para equipos de contenido revisando borradores, marcan pasajes que necesitan edición de estilo. Para educadores, un puntaje alto es un disparador de conversación, nunca un veredicto por sí solo.
El mal uso es tratar un puntaje como evidencia. Ningún proceso competente de integridad académica en 2026 se apoya en un solo puntaje detector para tomar una determinación — y ninguna decisión individual sobre la escritura de alguien debería hacerlo tampoco.
Cómo usar bien un puntaje
Corre el texto por dos o tres detectores, no uno. Compara puntajes. Si divergen mucho, esa divergencia es información — el texto está en la zona ambigua donde ninguna herramienta está confiada. Si concuerdan a grandes rasgos, la señal es más fuerte, pero aún así no es prueba.
Para escritores revisando su propio trabajo, el puntaje que importa es el que cambia cuando editas. Corre técnicas de humanización dirigidas, varía longitudes de oraciones, y vuelve a analizar. La utilidad de un detector no es el número absoluto sino si responde sensiblemente a tus ediciones. Herramientas como RealText proveen feedback a nivel de métrica — burstiness, TTR, frecuencia de conectores — así puedes ver exactamente qué cambió.
La conclusión honesta
Ningún detector es lo suficientemente confiable como para condenar. Todos los detectores son lo suficientemente útiles como para guiar. Las cifras en el material de marketing no son las cifras que verás en la práctica, y la tasa de falsos positivos sobre tu propia escritura depende más de tu estilo que de la herramienta. Entender esa brecha es la diferencia entre usar estas herramientas bien y dejarse engañar por ellas.
Ve las métricas detrás de tu texto — no solo un puntaje.
Analizar texto gratis →