Algo grande está sucediendo, o eso es lo que mucha gente quiere creer

Toda la mañana la gente me ha estado preguntando sobre una publicación de blog de Matt Shumer que se ha vuelto viral, con casi 50 millones de visitas en X.

Es una obra maestra de exageración, escrita al estilo de las antiguas campañas de marketing directo, con mensajes en negrita como «Sé que esto es real porque me pasó a mí primero» y «Ya no soy necesario para el trabajo técnico real de mi trabajo». Está repleto de vibraciones singulares:

Como le dije a un periodista que me preguntó sobre el post, no lo tomaría tan en serio:

La publicación del blog de Shumer es una exageración armada que le dice a la gente lo que quiere escuchar, pero tropieza con los hechos, especialmente con respecto a la confiabilidad. No proporciona datos reales que respalden esta afirmación de que los últimos sistemas de codificación pueden escribir aplicaciones completas y complejas sin cometer errores. De manera similar, cuando describe cómo las IA realizan tareas cada vez más largas en el famoso punto de referencia de tiempo de tarea de METR, se olvida de decir que el criterio en ese punto de referencia es 50% correcto, no 100%, y que el punto de referencia se trata solo de codificación y no de tareas en general. Ningún sistema de inteligencia artificial puede realizar de manera confiable cada tarea de cinco horas que los humanos pueden realizar sin error, o incluso cerca, pero no lo sabrías al leer el blog de Shumer, que ignora en gran medida todas las alucinaciones y errores estúpidos que son tan comunes en la experiencia cotidiana. Y por supuesto Shumer no citó el nuevo artículo de Caltech/Stanford que revisa una amplia gama de errores de razonamiento en los llamados modelos de razonamiento [or the Apple reasoning paper or the ASU mirage paper, etc]. La imagen que vende simplemente no es realista, por mucho que la gente desee que sea cierta. Debo agregar que Shumer es el tipo que alguna vez fue famoso por afirmaciones aparentemente exageradas sobre un modelo grande suyo que no se replicaba y que mucha gente vio como un fraude; le gusta vender en grande. Pero eso no significa que debamos tomarlo en serio.

En retrospectiva, debería haber señalado también otros cinco puntos:

  1. Shumer no hizo referencia a un estudio METR diferente que demostró que Los programadores a veces imaginan grandes ganancias de productividad cuando en realidad perdido productividad. (Aunque mencionó selectivamente su otro estudio conocido).

  2. Tampoco reconoció que la experiencia de otros usuarios ciertamente no es «por lo general es perfecta». Tomemos como ejemplo a Kelsey Piper, a menudo optimista sobre la IA, quien informó hace unas semanas que Claude Code a veces era perfecto, y otras veces enloquecedor. (Ejemplo: “A veces, Claude es absolutamente el peor compañero de trabajo que hayas tenido. En un momento, eliminó todos y cada uno de los archivos de fonemas de cada sonido en inglés pronunciado [that she was working with in her app] absolutamente correcto, que personalmente le envié un correo electrónico a un profesor de inglés para obtener permiso para usarlo, y los reemplacé con sonidos generados por IA que eran todos sutilmente incorrectos”). Shumer pasa por alto ese tipo de experiencia.

  3. Los LLM escriben código increíblemente rápido, pero algunos Los programadores están empezando a informar sobre el agotamiento.y sólo ganancias relativamente modestas en relación con ese agotamiento, como una nueva historia de Connie Loizos en Tech Crunch ilustra

  4. Hay que reconocer que Shumer tiene razón en que algo ha cambiado recientemente. Realmente puedes dejar que las cosas se rompan más en los sistemas más recientes. Pero se le escapa algo sutil pero esencial, bien captado por un amigo muy hábil en el arte de la codificación que me señaló. Después de leer un borrador de este ensayo, me envió un mensaje de texto.

    “[Shumer’s blog is representing my experience as well… Something happened a couple of months ago where you can truly give it a description and let it go and – sometimes! – will come out with the right answer. … Sometimes… [But] En última instancia, creo que esto lo hace más peligroso…. En general, cuanto más cerca están estos sistemas de parecer correctos, más peligrosos se vuelven porque la gente se siente cada vez más cómoda confiando en ellos. [when the shouldn’t]”.

  5. La seguridad del código autogenerado está muy en duda, como por ejemplo este artículo de la semana pasada señaló (precisamente como esta subpila ha advertido durante mucho tiempo):

El truco, sin embargo, podría ser la propiedad accidental al final.

Citando a otro amigo, “¿Por qué [Shumer] Necesito que estos muchachos revisen los borradores, ¿por qué no hizo que la IA lo hiciera? Diablos, ¿por qué no hizo que la IA escribiera su pequeña misiva para empezar? Mmm…

La conclusión es la siguiente: los LLM ciertamente están codificando más, pero no está claro si el código que están creando sea seguro o confiable. La presentación de Shumer es completamente unilateral y omite muchas preocupaciones que han sido ampliamente expresadas aquí y en otros lugares.

Es posible que mucha gente se haya tomado en serio su publicación, pero no deberían haberlo hecho.



Source link