Ayer, Publicación comercial de Silicon Valley La información lanzada Titvun programa de noticias de transmisión en vivo. Para su primer episodio, la fundadora de la compañía, Jessica Lessin, entrevistó a Mark Zuckerberg sobre sus recientes intentos de contratar ejecutivos de IA de otras compañías por grandes sumas de dinero.
Sin embargo, es imposible decir lo que realmente sucedió en la entrevista, porque hubo problemas de audio con la transmisión en vivo: el segmento de Zuckerberg estaba completamente en silencio, dándonos un minuto y 50 segundos de video de la cara de Zuckerberg que se movía sin salir.
En las últimas semanas, sin embargo, Zuckerberg realmente ha aumentado su retórica sobre la «superinteligencia», lanzando cientos de millones de dólares en investigadores de IA en intentos de contratarlos en meta, y comenzar a trabajar en centros de datos masivos alrededor del país para alimentar su IA. Zuckerberg y Meta han hablado sin cesar sobre la IA como un cambio de juego, mientras que no pueden o no desean mantener la información errónea generada por la IA y se despliegan fuera de las plataformas meta.
Mientras tanto, ha habido una mayor discusión sobre el posible poder de usar IA para periodismoque hemos escrito extensamente. Vi la entrevista silenciosa con Zuckerberg como una oportunidad para ver las increíbles habilidades de la IA de Meta y probar Herramientas de IA en una tarea Algunos de ellos supuestamente son buenas—Reciendo labios. Si estas tecnologías funcionaron tan bien como sus creadores han prometido, es posible proporcionar al mundo información de la entrevista perdida de Mark Zuckerberg.
Así es como fue mi experimento.
Debido a que Zuckerberg obviamente estaba hablando de Meta Ai, pensé que probaría su herramienta primero. Tomé un video de la entrevista y le pedí a Meta Ai que lo leyera para decirlo para decirme lo que estaban diciendo:
«¡Me encantaría ayudar! Sin embargo, soy una IA basada en texto y no tengo la capacidad de los videos de lectura visualmente de labios», dijo Meta Ai. Luego sugirió que «encuentre un lector de labios profesional o un servicio de transcripción que se especialice en videos de lectura de labios» o «utilice un software automatizado de lectura de labios».
Luego intenté subir imágenes fijas para ver si Meta AI podría analizarlas:

Cuando subí imágenes adicionales, Meta AI tampoco pudo proporcionar información sobre lo que se decía.
Luego fui a chatgpt, porque Zuckerberg es Según se informa, ofreciendo paquetes de pago de hasta $ 300 millones a los empleados de OpenAi para que vengan a trabajar en Meta. Subí el video 1:50 y ChatGPT me dijo: «El procesamiento de video tardó demasiado y se agotó». Luego subí un clip de 25 segundos y me dijo: «El sistema todavía se agota mientras intenta extraer marcos». Luego le pedí que hiciera los primeros cinco segundos y dijo «incluso con el clip más corto y el alcance más pequeño (primeros 5 segundos), el sistema se agotó». Luego pedí que extraiga un solo cuadro, y dijo: «Parece que el sistema actualmente no puede extraer ni un solo cuadro del archivo de video». Chatgpt me pidió que tomara una captura de pantalla de Zuckerberg. Lo envié esto:

Y ChatGPT dijo que «la persona parece estar produciendo un sonido como ‘F’ o ‘V’ (como en ‘Video’ o ‘Muy’)», pero que «Posiblemente ‘M’ o ‘B’, dependiendo de la siguiente moción». Luego compartí los 10 cuadros alrededor de esa captura de pantalla única, y ChatGPT dijo «Después de analizar de cerca la progresión de las formas de los labios y el movimiento facial», la «frase probable de lectura de labios» fue «Esta es la versión». Luego subí 10 cuadros más y decía la «frase completa hasta ahora (alta confianza): ‘Esta versión es justa'».

Luego decidí tratar de extraer cada cuadro del video y subirlo a chatgpt.
Fui a un sitio web llamado Frame-Extractor.com y corté el video en 3.000 cuadros. Después de haber procesado 700 de ellos, traté de subirlos a Chatgpt y no funcionó. Luego decidí que iría 10 cuadros a la vez desde el comienzo del clip. Aunque envié una parte completamente diferente del video y le dije a ChatGPT que comenzamos desde una parte diferente del video, todavía decía que el comienzo del video decía «esta versión es». Continué subiendo marcos, 10 a la vez. Estos cuadros incluyeron tanto Lessin como Zuckerberg, no solo Zuckerberg.
ChatGPT lentamente comenzó a crear una transcripción seguramente precisa del audio perdido de esta entrevista: «Esta versión es solo que construimos», dijo Chatgpt. A medida que agregué más y más marcos, refinó la respuesta: «Esta versión es lo que vamos a hacer», dijo. Finalmente, pareció hacer un avance. «¿Es esta versión de Llama más poderosa que la que lanzamos el año pasado?» La transcripción de ChatGPT dijo. Sin embargo, no estaba claro sobre quién estaba hablando. Chatgpt dijo «sus movimientos de boca», pero luego explicó que «el orador es el hombre de la izquierda» (Lessin, no Zuckerberg, estaba hablando en estos cuadros).
Había subido 40 de un total de 3.000 cuadros. El video de Zoom suele ser de 30 fps, por lo que en aproximadamente 1,5 segundos, Lessin y/o Zuckerberg aparentemente dijo «¿Es esta versión de LLAMA más poderosa que la que lanzamos el año pasado?» Luego grabé esta frase a una velocidad de oratoria normal, y tomó unos cuatro segundos. Solo un punto de datos.


Luego recibí un mensaje de error de ChatGPT y obtuve limitado por la velocidad porque estaba cargando demasiados datos. Me dijo que necesitaba esperar tres horas para volver a intentarlo.

Finalmente, hice lo que Meta Ai me dijo que hiciera, y probé una aplicación de lectura de labios AI a medida. Encontré uno llamado Readtheirlips.com, que funciona con Symphonic Labs. Esta es una herramienta que la gente tiene He estado tratando de usar En los últimos meses para descubrir qué se dicen Donald Trump y Jeffrey Epstein en Silenciosidad de noticias B-rollsin mucho éxito.
Pagué $ 10 por tres minutos de transcripción y le pedí a Lip Read utilizando su «detección multifacial». Después de esperar 10 minutos, recibí un mensaje de error que decía «la transcripción falló, no se han utilizado créditos, intente nuevamente más tarde». Luego le pedí que se concentrara solo en Zuckerberg, y en realidad recibí algún texto. Le pedí por separado que se concentrara en Lessin.
Aquí hay una transcripción de lo que la IA dice que estaban hablando. No se ha editado para mayor claridad y no tengo idea de qué partes, si las hay, son precisas:
Lessin: Gracias por unirnos a nosotros nuevamente, TV. Estamos felices de tenerte ya esta mañana. Noticias de que ha gastado aún más dinero con su gran anuncio sobre sus nuevas supercomputadoras. Llegaremos a eso, pero para comenzar, has estado en gran escala como yo.
Zuckerberg: Feliz de estar aquí. Vamos a hablar un poco sobre la estrategia de IA de Meta. Ha estado ocupado, ¿sabes? Creo que lo más emocionante este año es que estamos comenzando a ver vislumbres tempranos de la superación personal con los modelos, lo que significa que ahora es la superinteligencia en desarrollo.
Lessin: Has estado en un avión de contratación de IA, ¿por qué y por qué ahora?
Zuckerberg: Perspection, y solo queremos asegurarnos de que realmente fortalecemos el esfuerzo tanto como sea posible para hacerlo. Nuestra misión con un laboratorio es entregar superinteligencia personal a todos en el mundo, así que de esa manera, ya sabes, podemos poner ese poder en la mano de cada individuo. Estoy muy emocionado por eso.
Lessin: No lo sé, no lo sé, no lo sé.
Zuckerberg: Que uno de los otros laboratorios que estás haciendo, y sabes que mi opinión es que esta será algo que sea la tecnología más importante en nuestras vidas. Va a apuntalar cómo desarrollamos todo y la empresa, y va a afectar la sociedad muy sabiamente. Así que solo queremos asegurarnos de obtener el mejor enfoque.
Lessin: ¿Sentiste que estabas detrás de lo que salía de la ley antes de no adaptarme?
Zuckerberg: En esto, desde empresarios hasta investigadores hasta ingenieros que trabajan en esta infraestructura oculta, y luego, por supuesto, queremos respaldarlo con una cantidad absolutamente masiva de investigación informática, que podemos apoyar porque tenemos un modelo de negocio muy fuerte que arroja mucho capital. Hablemos de eso.
Lessin: Al igual que este verano, particularmente, cambias un poco los engranajes.
Zuckerberg: Creo que el campo se está acelerando, ya sabes, seguimos en el camino de dónde queremos estar, y el campo nos mantiene en el futuro.
El video termina allí y se vuelve al estudio.
Actualizar: La información proporcionó 404 medios con varios clips (con audio) de la entrevista de Lessin con Zuckerberg, así como una transcripción real de la entrevista. Aquí está el segmento real de lo que se dijo. Como puede ver, la IA capturó la jist de esta parte de la entrevista, y en realidad no lo hizo tan mal:
Lessin: Mark, gracias por unirse a Titv. Estamos felices de tenerte aquí. Ya esta mañana [there’s] Noticias de que ha gastado aún más dinero con su gran anuncio sobre sus nuevas supercomputadoras. Llegaremos a eso. Pero para comenzar, tomaste una gran participación en Scaleai. Has estado en un bombardeo de contratación de IA. ¿Por qué y por qué ahora?
Zuckerberg: Sí, ha estado ocupado. Sabes, creo que lo más emocionante este año es que estamos comenzando a ver vislumbres tempranos de superación personal con los modelos, lo que significa que el desarrollo de súper inteligencia ahora está a la vista, y solo queremos asegurarnos de que realmente fortalecemos el esfuerzo tanto como sea posible para hacerlo. Nuestra misión con el laboratorio es entregar una súper inteligencia personal a todos en el mundo, por lo que podemos poner ese poder en la mano de cada individuo. Y estoy realmente emocionado por eso. Es algo diferente a lo que están haciendo los otros laboratorios.
Y mi opinión es que esta será algo que sea la tecnología más importante en nuestras vidas. Va a apuntalar cómo desarrollamos todo en la empresa, y va a afectar la sociedad muy ampliamente. Por lo tanto, solo queremos asegurarnos de que las mejores personas trabajen en esto, desde empresarios hasta investigadores hasta ingenieros que trabajan en los datos y la infraestructura.
Y luego, por supuesto, queremos respaldar solo una cantidad absolutamente masiva de cómputo que podemos apoyar, porque tenemos un modelo comercial muy fuerte que arroja mucho capital.
Lessin: ¿Sentiste que estabas atrás saliendo de Llama 4? Parece que este verano, en particular, cambiaste un poco de marcha.
Zuckerberg: Creo que el campo se está acelerando, ya sabes, seguimos teniendo objetivos para dónde queremos estar. Y luego el campo sigue moviéndose más rápido de lo que esperamos.
El resto de la entrevista está disponible en la información.