La startup de detección de IA GPTZero escaneó los 4.841 artículos aceptados en la prestigiosa Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS), que tuvo lugar el mes pasado en San Diego. La compañía encontró 100 citas alucinadas en 51 artículos que confirmó como falsos, le dice la compañía a TechCrunch.

Tener un artículo aceptado por NeurIPS es un logro digno de un currículum en el mundo de la IA. Dado que estas son las mentes líderes en la investigación de la IA, se podría suponer que utilizarían los LLM para la tarea catastróficamente aburrida de escribir citas.

Así que abundan las advertencias con este hallazgo: 100 citas de alucinaciones confirmadas en 51 artículos no son estadísticamente significativas. Cada artículo tiene docenas de citas. Entonces, de decenas de miles de citas, esta es, estadísticamente, cero.

También es importante señalar que una cita inexacta no niega la investigación del artículo. Como dijo NeurIPS a Fortune, que fue el primero en informar sobre la investigación de GPTZero, «Incluso si el 1,1% de los artículos tienen una o más referencias incorrectas debido al uso de LLM, el contenido de los artículos en sí [is] no necesariamente invalidada”.

Pero dicho todo esto, una cita falsa tampoco es nada. NeurIPS se enorgullece de sus “rigurosas publicaciones académicas sobre aprendizaje automático e inteligencia artificial”, dice. Y cada artículo es revisado por pares por varias personas a las que se les instruye para detectar alucinaciones.

Las citas también son una especie de moneda para los investigadores. Se utilizan como métrica de carrera para mostrar cuán influyente es el trabajo de un investigador entre sus pares. Cuando la IA los inventa, diluye su valor.

Nadie puede culpar a los revisores por no detectar algunas citas fabricadas por IA, dado el gran volumen involucrado. GPTZero también se apresura a señalar esto. El objetivo del ejercicio era ofrecer datos específicos sobre cómo la IA se cuela a través de «un tsunami de sumisión» que ha «tensado los canales de revisión de estas conferencias hasta el punto de ruptura», dice la startup en su informe. GPTZero incluso señala un artículo de mayo de 2025 llamado “La crisis de revisión por pares de la conferencia de IA” que discutió el problema en conferencias de primer nivel, incluido NeurIPS.

Evento tecnológico

san francisco
|
13-15 de octubre de 2026

Aún así, ¿por qué los propios investigadores no pudieron verificar la precisión del trabajo del LLM? Seguramente deben conocer la lista real de papeles que utilizaron para su trabajo.

Lo que todo esto realmente apunta a una conclusión importante e irónica: si los principales expertos en IA del mundo, con su reputación en juego, no pueden garantizar que su uso de LLM sea preciso en los detalles, ¿qué significa eso para el resto de nosotros?



Source link