Tuesday, November 05, 2024
 - Have a nice day!

DALL-E la IA que traduce palabras en imágenes

Posted By: Octavio Castillo at 8 April, 2022
Dall-E

DALL-E es obra de OpenAI, uno de los laboratorios de inteligencia artificial más ambiciosos del mundo, los investigadores del proyecto están desarrollando tecnología que le permite crear imágenes digitales simplemente describiendo lo que la persona quiere ver.

Se llama DALL-E como un homenaje tanto a "WALL-E", la película animada de 2008 sobre un robot autónomo, como a Salvador Dalí, el pintor surrealista (ya que la pronunciación en inglés de DALL-E es "Dalí").

OpenAI, es la empresa responsable de esta nueva tecnología que está respaldada por mil millones de dólares en fondos de Microsoft, pero aún no comparte la tecnología con el público en general. En días recientes, Alex Nichol, uno de los investigadores detrás del sistema, demostró cómo funciona.

Cuando pidió a la inteligencia artificial dibujar "una tetera con forma de aguacate", escribiendo esas palabras en una pantalla de computadora en gran parte vacía, el sistema creó 10 imágenes distintas de una tetera de aguacate verde oscuro, algunas con huesos y otras sin él. “DALL-E es bueno con los aguacates”, dijo Nichol.

Cuando escribió "gatos jugando al ajedrez", puso dos gatitos esponjosos a cada lado de un tablero de ajedrez, con 32 piezas de ajedrez alineadas entre ellos. Cuando solicitó el dibujo de "un oso de peluche tocando una trompeta bajo el agua", una imagen mostró pequeñas burbujas de aire que se elevaban desde el extremo de la trompeta del oso hacia la superficie del agua.

DALL-E también puede editar fotos. Cuando Nichol eliminó la trompeta del oso de peluche y pidió una guitarra en su lugar, apareció una guitarra entre los brazos del juguete.

Un equipo de siete investigadores pasó dos años desarrollando la tecnología, que OpenAI planea ofrecer eventualmente como una herramienta para personas como artistas gráficos, brindando nuevos atajos y nuevas ideas a medida que crean y editan imágenes digitales. Los programadores ya utilizan Copilot, una herramienta basada en una tecnología similar de OpenAI, para generar fragmentos de código de software.

Pero para muchos expertos, DALL-E es preocupante. A medida que este tipo de tecnología continúa mejorando, dicen, podría ayudar a difundir desinformación en Internet, alimentando el tipo de campañas en línea que pueden haber ayudado a influir en las elecciones presidenciales de 2016 en Estados Unidos.

Desde hace media década, la investigación en I.A. lidera el mundo. Las inteligencias artificiales de hace algunos años podían identificar objetos en imágenes digitales e incluso generar imágenes por sí mismos, incluidas flores, perros, automóviles y rostros. Unos años más tarde, evolucionaron para hacer lo mismo con el lenguaje escrito, resumiendo artículos, respondiendo preguntas, generando tweets e incluso escribiendo publicaciones en blogs.

Ahora, los investigadores están combinando esas tecnologías para crear nuevas formas de IA. DALL-E es un notable paso adelante porque hace malabarismos con el lenguaje y las imágenes y, en algunos casos, capta la relación entre ambos.

“Ahora podemos usar múltiples flujos de información que se cruzan para crear una tecnología cada vez mejor”, dijo Oren Etzioni, director ejecutivo del Instituto Allen de Inteligencia Artificial, un laboratorio de inteligencia artificial en Seattle.

DALL-E es lo que los investigadores de inteligencia artificial llaman una red neuronal, que es un sistema matemático modelado libremente en la red de neuronas en el cerebro. Esa es la misma tecnología que reconoce los comandos pronunciados en los teléfonos inteligentes e identifica la presencia de peatones mientras los autos autónomos navegan por las calles de la ciudad.

Una red neuronal aprende habilidades mediante el análisis de grandes cantidades de datos. Al identificar patrones en miles de fotos de aguacates, por ejemplo, puede aprender a reconocer un aguacate. DALL-E busca patrones mientras analiza millones de imágenes digitales, así como subtítulos de texto que describen lo que representa cada imagen. De este modo, aprende a reconocer los vínculos entre las imágenes y las palabras.

Cuando alguien describe una imagen para DALL-E, genera un conjunto de características clave que esta imagen podría incluir. Una característica podría ser la línea al borde de una trompeta. Otro podría ser la curva en la parte superior de la oreja de un oso de peluche.

Luego, una segunda red neuronal, llamada modelo de difusión, crea la imagen y genera los píxeles necesarios para realizar estas funciones. La última versión de DALL-E, presentada el miércoles con un nuevo trabajo de investigación que describe el sistema, genera imágenes de alta resolución que en muchos casos parecen fotografías.

Aunque DALL-E a menudo no comprende lo que alguien ha descrito y, a veces, altera la imagen que produce, OpenAI continúa mejorando la tecnología. Los investigadores a menudo pueden refinar las habilidades de una red neuronal alimentándola con cantidades aún mayores de datos.

OpenAI mantiene un control estricto sobre DALL-E. No permite que personas ajenas usen el sistema por su cuenta. Pone una marca de agua en la esquina de cada imagen que genera. Y aunque el laboratorio planea abrir el sistema a usuarios de prueba esta semana, el grupo será pequeño.

El sistema también incluye filtros que evitan que los usuarios generen imágenes que considere inapropiadas. Cuando se le preguntó por "un cerdo con cabeza de oveja", se negó a producir una imagen. La combinación de las palabras "cerdo" y "cabeza" probablemente activó los filtros antiacoso de OpenAI, según el laboratorio.

“Esto no es un producto”, dijo Mira Murati, directora de investigación de OpenAI. “La idea es comprender las capacidades y limitaciones y darnos la oportunidad de incorporar la mitigación. La gente necesita saber que las imágenes que ven pueden no ser reales”, dijo.

Entérate de la información más relevante en nuestra sección de noticias.


Te podría interesar

© 2024 T3 Latam is part of geekzmedia. T3 All rights reserved Future plc.

T3 is part of Future plc, an international media group and leading digital publisher. Visit our corporate site
 Future Publishing Limited Quay House, The Ambury Bath BA1 1UA All rights reserved. England and Wales company registration number 2008885.
cross