Enseñar a los sistemas de inteligencia artificial a comprender lo que está sucediendo en los videos de la manera más completa posible es uno de los desafíos más difíciles, y los mayores avances potenciales, en el mundo del aprendizaje automático. Hoy, Facebook anunció una nueva iniciativa que espera le dé una ventaja en este trabajo consecuente: capacitar a su IA en los videos públicos de los usuarios de Facebook.
El acceso a los datos de entrenamiento es una de las mayores ventajas competitivas en IA, y al recopilar este recurso de millones y millones de sus usuarios, los gigantes tecnológicos como Facebook, Google y Amazon han podido avanzar en varias áreas. Y aunque Facebook ya ha entrenado a modelos de visión artificial en miles de millones de imágenes recopiladas de Instagram, no ha anunciado previamente proyectos de ambición similar para la comprensión de videos.
"Parte de nuestros esfuerzos más amplios para construir máquinas que aprendan como lo hacen los humanos"
“Al aprender de las transmisiones globales de videos disponibles públicamente que abarcan casi todos los países y cientos de idiomas, nuestros sistemas de inteligencia artificial no solo mejorarán la precisión, sino que también se adaptarán a nuestro mundo en rápido movimiento y reconocerán los matices y las señales visuales en diferentes culturas y regiones”, dijo. la empresa en un blog. El proyecto, titulado Aprender de los videos , también es parte de los "esfuerzos más amplios de Facebook para construir máquinas que aprendan como lo hacen los humanos".
Los modelos de aprendizaje automático resultantes se utilizarán para crear nuevos sistemas de recomendación de contenido y herramientas de moderación, dice Facebook, pero podrían hacer mucho más en el futuro. La inteligencia artificial que puede comprender el contenido de los videos podría brindarle a Facebook una visión sin precedentes de la vida de los usuarios, permitiéndoles analizar sus pasatiempos e intereses, preferencias en marcas y ropa, e innumerables otros detalles personales. Por supuesto, Facebook ya tiene acceso a dicha información a través de su actual operación de orientación de anuncios, pero poder analizar videos a través de IA agregaría una fuente de datos increíblemente rica (e invasiva) a sus tiendas.
Facebook es vago sobre sus planes futuros para modelos de IA entrenados en videos de usuarios. La compañía le dijo a The Verge que tales modelos podrían usarse para una serie de usos, desde subtitular videos hasta crear funciones de búsqueda avanzada, pero no respondió una pregunta sobre si se usarían o no para recopilar información para la orientación de anuncios. De manera similar, cuando se les preguntó si los usuarios tenían que dar su consentimiento para que sus videos se usaran para entrenar la inteligencia artificial de Facebook o si podían optar por no participar, la compañía respondió solo señalando que su Política de datos dice que el contenido subido por los usuarios puede usarse para “ investigación y desarrollo de productos ''. " Facebook tampoco respondió a las preguntas que preguntaban exactamente cuánto video se recopilará para entrenar sus sistemas de inteligencia artificial o cómo se supervisará el acceso a estos datos por parte de los investigadores de la compañía.
Sin embargo, en la publicación de su blog que anuncia el proyecto, la red social señaló un uso especulativo futuro: el uso de inteligencia artificial para recuperar "recuerdos digitales" capturados por lentes inteligentes.
Facebook planea lanzar un par de lentes inteligentes para consumidores en algún momento de este año . Los detalles sobre el dispositivo son vagos, pero es probable que estas o futuras gafas incluyan cámaras integradas para capturar el punto de vista del usuario. Si los sistemas de inteligencia artificial pueden ser entrenados para comprender el contenido del video, entonces permitirá a los usuarios buscar grabaciones pasadas, al igual que muchas aplicaciones de fotos permiten a las personas buscar ubicaciones, objetos o personas específicas. (Por cierto, esta es información que a menudo ha sido indexada por sistemas de inteligencia artificial entrenados en datos de usuarios).
A medida que grabar videos con lentes inteligentes "se convierte en la norma", dice Facebook, "las personas deberían poder recordar momentos específicos de su vasto banco de recuerdos digitales con la misma facilidad con la que los capturan". Da el ejemplo de un usuario que realiza una búsqueda con la frase "Muéstrame cada vez que le cantamos feliz cumpleaños a la abuela", antes de que se muestren los clips relevantes. Como señala la compañía, tal búsqueda requeriría que los sistemas de inteligencia artificial establezcan conexiones entre los tipos de datos, enseñándoles a "hacer coincidir la frase 'feliz cumpleaños' con pasteles, velas, personas que cantan varias canciones de cumpleaños y más". Al igual que los humanos, la IA necesitaría comprender conceptos ricos compuestos por diferentes tipos de información sensorial.
Mirando hacia el futuro, la combinación de lentes inteligentes y aprendizaje automático permitiría lo que se conoce como "raspar mundos": capturar datos granulares sobre el mundo al convertir a los usuarios de lentes inteligentes en cámaras CCTV itinerantes. Como se describió la práctica en un informe del año pasado de The Guardian : “ Cada vez que alguien visitaba un supermercado, sus lentes inteligentes registraban datos de precios en tiempo real, niveles de existencias y hábitos de navegación; cada vez que abrían un periódico, sus gafas sabían qué historias leían, qué anuncios miraban y en qué fotografías de playa de celebridades permanecían su mirada ".
Este es un resultado extremo y no una vía de investigación que Facebook dice que está explorando actualmente. Pero sí ilustra la importancia potencial de emparejar el análisis de video de IA avanzado con lentes inteligentes, lo que aparentemente la red social está interesada en hacer.
Facebook ha implementado modelos de video de IA para recomendar clips en Reels
En comparación, el único uso de sus nuevas herramientas de análisis de video de inteligencia artificial que Facebook está revelando actualmente es relativamente mundano. Junto con el anuncio de Learning from Videos de hoy, Facebook dice que ha implementado un nuevo sistema de recomendación de contenido basado en su trabajo de video en sus TikTok-clone Reels. “Los videos populares a menudo consisten en la misma música ambientada con los mismos pasos de baile, pero creados e interpretados por diferentes personas”, dice Facebook. Al analizar el contenido de los videos, la IA de Facebook puede sugerir clips similares a los usuarios.
Sin embargo, estos algoritmos de recomendación de contenido no están exentos de problemas. Un informe reciente de MIT Technology Review destacó cómo el énfasis de la red social en el crecimiento y la participación de los usuarios ha impedido que su equipo de inteligencia artificial aborde por completo cómo los algoritmos pueden difundir información errónea y fomentar la polarización política. Como dice el artículo de Technology Review : "Los modelos [de aprendizaje automático] que maximizan la participación también favorecen la controversia, la desinformación y el extremismo". Esto crea un conflicto entre los deberes de los investigadores de ética de la inteligencia artificial de Facebook y el credo de la compañía de maximizar el crecimiento.
Facebook no es la única gran empresa de tecnología que busca análisis de video de inteligencia artificial avanzada, ni es la única que aprovecha los datos de los usuarios para hacerlo. Google, por ejemplo, mantiene un conjunto de datos de investigación de acceso público que contiene 8 millones de videos de YouTube seleccionados y parcialmente etiquetados para "ayudar a acelerar la investigación sobre la comprensión de videos a gran escala". Las operaciones publicitarias del gigante de las búsquedas también podrían beneficiarse de la inteligencia artificial que comprende el contenido de los videos, incluso si el resultado final es simplemente publicar anuncios más relevantes en YouTube.
Facebook, sin embargo, cree que tiene una ventaja particular sobre sus competidores. No solo tiene una gran cantidad de datos de entrenamiento, sino que está impulsando cada vez más recursos hacia un método de inteligencia artificial conocido como aprendizaje auto-supervisado.
el aprendizaje auto-supervisado es "la materia oscura de la inteligencia".
Por lo general, cuando los modelos de IA se entrenan con datos, esas entradas deben ser etiquetadas por humanos : etiquetando objetos en imágenes o transcribiendo grabaciones de audio, por ejemplo. Si alguna vez ha resuelto un CAPTCHA que identifica las bocas de incendio o los pasos de peatones, es probable que haya etiquetado los datos que han ayudado a entrenar la IA. Pero el aprendizaje auto supervisado elimina las etiquetas, acelera el proceso de entrenamiento y, según creen algunos investigadores, resulta en un análisis más profundo y significativo a medida que los sistemas de IA se enseñan a sí mismos a unir los puntos. Facebook es tan optimista sobre el aprendizaje auto-supervisado que lo llama "la materia oscura de la inteligencia".
La compañía dice que su trabajo futuro en el análisis de video de IA se centrará en métodos de aprendizaje semi y auto-supervisados, y que tales técnicas "ya han mejorado nuestros sistemas de reconocimiento de voz y visión por computadora". Con tal abundancia de contenido de video disponible de los 2.8 mil millones de usuarios de Facebook, saltarse la parte de etiquetado de la capacitación en IA ciertamente tiene sentido. Y si la red social puede enseñar a sus modelos de aprendizaje automático a comprender el video sin problemas, ¿quién sabe qué podrían aprender?