MetaNeuroPlanet

Cargando...

MetaNeuroPlanet

Registro

Tecnología - 14 de septiembre de 2022

No hay plaza de Tiananmen en ERNIE-ViLG, la nueva IA de creación de imágenes china


Cuando se lanzó una demostración del software a fines de agosto, los usuarios descubrieron rápidamente que ciertas palabras, tanto las menciones explícitas de los nombres de los líderes políticos como las palabras que son potencialmente controvertidas solo en contextos políticos, fueron etiquetadas como “sensibles” y bloqueadas para generar cualquier resultado. . Al parecer, el sofisticado sistema de censura en línea de China se ha extendido a la última tendencia en IA.

No es raro que IA similares limiten a los usuarios a generar ciertos tipos de contenido. DALL-E 2 prohíbe contenido sexual, rostros de figuras públicas o imágenes de tratamiento médico. Pero el caso de ERNIE-ViLG subraya la cuestión de dónde se encuentra exactamente la línea entre la moderación y la censura política.

El modelo ERNIE-ViLG es parte de Wenxin, un proyecto a gran escala en el procesamiento del lenguaje natural de la empresa de IA líder en China, Baidu. Fue entrenado en un conjunto de datos de 145 millones de pares de imagen y texto y contiene 10 mil millones de parámetros, los valores que una red neuronal ajusta a medida que aprende, que la IA usa para discernir las diferencias sutiles entre conceptos y estilos artísticos.

Eso significa que ERNIE-ViLG tiene un conjunto de datos de entrenamiento más pequeño que DALL-E 2 (650 millones de pares) y Stable Diffusion (2300 millones de pares), pero más parámetros que cualquiera de los dos (DALL-E 2 tiene 3500 millones de parámetros y Stable Diffusion tiene 890 millones). ). Baidu lanzó una versión de demostración en su propia plataforma a fines de agosto y luego en Hugging Face, la popular comunidad internacional de IA.

La principal diferencia entre ERNIE-ViLG y los modelos occidentales es que el desarrollado por Baidu entiende las indicaciones escritas en chino y es menos probable que cometa errores cuando se trata de palabras culturalmente específicas.

Por ejemplo, un creador de videos chino comparó los resultados de diferentes modelos para indicaciones que incluían figuras históricas chinas, celebridades de la cultura pop y comida. Descubrió que ERNIE-ViLG producía imágenes más precisas que DALL-E 2 o Stable Diffusion. Luego de su lanzamiento, ERNIE-ViLG también ha sido adoptado por aquellos en la comunidad de anime japonesaquien descubrió que el modelo puede generar arte de anime más satisfactorio que otros modelos, probablemente porque incluyó más anime en sus datos de entrenamiento.

Pero ERNIE-ViLG se definirá, como los demás modelos, por lo que permite. A diferencia de DALL-E 2 o Stable Diffusion, ERNIE-ViLG no tiene una explicación publicada de su política de moderación de contenido y Baidu se negó a comentar para esta historia.

Cuando se lanzó por primera vez la demostración de ERNIE-ViLG en Hugging Face, los usuarios que ingresaban ciertas palabras recibían el mensaje “Palabras confidenciales encontradas. Ingrese de nuevo (存在敏感词,请重新输入)”, lo cual fue una admisión sorprendentemente honesta sobre el mecanismo de filtrado. Sin embargo, desde al menos el 12 de septiembre, el mensaje decía: “El contenido ingresado no cumple con las reglas relevantes. Vuelva a intentarlo después de ajustarlo. (输入内容不符合相关规则,请调整后再试!)”





Source link