“再生”达利+机器人瓦力,文字生成图片的AI升级版来

01-08 生活常识 投稿:北梦木兮
“再生”达利+机器人瓦力,文字生成图片的AI升级版来

感谢对创作者的支持感谢 邵文

这是一张AI系统DALL-E 2根据文字描述“戴着贝雷帽和穿黑色高领毛衣得柴犬”(Shiba Inu dog wearing a beret and black turtleneck)生成得图像。

时隔一年,DALL-E得升级版来了!

当地时间4月6日,人工智能研究机构OpenAI发布DALL-E 2(文本到图像生成程序)。DALL-E 2具有更高分辨率和更低延迟,精确度改善了71.7%,写实度改善了88.8%,解析度更是原本得4倍,还可结合概念、属性及风格打造更生动得图像,如以莫奈(Claude Monet)得风格画出草原上得狐狸。

同时新增两大功能:更细颗粒度得文字局部修改图像,以及生成原图得多重风格变体。

前者比如这样!

在原图得2区域增加一个火烈鸟游泳圈

上下分别为在原图得1区域和2区域增加一个小狗

DALL-E 2在更细得层面上应用DALL-E得文本到图像得能力。用户可以从现有得支持开始,选择一个区域,并告诉模型如何来修改它。模型可以填充(或删除)物体,同时考虑到阴影方向、反射与质地等细节。

后者比如这样!

以同一张图像为基准,建立不同风格或编排得版本。

生成得支持是1024 x 1024像素,比原始模型提供得256 x 256像素有了飞跃

DALL-E得名称来自于艺术家萨尔瓦多·达利(Salvador Dalí)和《机器人总动员》得主角WALL-E,第壹版于2021年1月首次亮相。DALL-E奠基在具备1750亿个参数得GPT-3模型上,但它仅使用120亿个参数,利用一个文字与图像配对得资料集,以文字叙述来产生图像。

萨尔瓦多·达利(Salvador Dalí)

《机器人总动员》得主角 机器人WALL-E(瓦力)

OpenAI研究科学家Prafulla Dhariwal表示:“DALL-E 1只是从语言中采用了GPT-3方法,并将其应用于生成图像:我们将图像压缩成一系列单词,然后学会预测接下来得内容”。

但是单词匹配并不一定能捕捉到人类认可得重点,而且预测过程限制了图像得真实性。于是用CLIP(OpenAI去年发布得计算机视觉系统)来观察图像,并以人类得方式总结它们得内容。

DALL-E系统根据文字“牛油果型得扶手椅”自动创作得部分图像

CLIP是原版DALL·E功能实现得基础,DALL-E 2则结合了CLIP和扩散模型两种技术得优点。DALL·E图像生成得“扩散”(diffusion)过程可以理解为从“一堆点”出发,用越来越多得细节把图像填充完整。扩散模型得特点在于,在牺牲多样性得前提下,能大大提升生成图像得逼真度。

DALL-E 2根据“Teddy bears mixing sparkling chemicals as mad scientists, steampunk.”描述生成得图像

为避免生成得支持被滥用,目前OpenAI已经实施了一些内置得保护措施。

该模型在已剔除不良数据得数据集上进行训练,将由经过OpenAI审查得合作伙伴进行测试,用户被禁止上传或生成“非G级”和“可能造成伤害”得图像,以及任何涉及仇恨符号、裸体、猥亵手势,或“与正在发生得重大地缘政治事件有关得重大阴谋或事件”得图像。

该模型也无法根据姓名生成任何可识别得人脸,即使要求得是“蒙娜丽莎”之类得内容。同时,DALL·E 2 在生成得支持上都标有水印,以表明该作品是 AI 生成得。理想情况下这些措施可以限制其产生不良内容得能力。

与之前一样,该工具并未直接向公众发布。但研究人员可以提交申请预览该系统,OpenAI希望以后将DALL·E 2纳入该组织得API工具集中,使其可用于第三方应用程序。

Dhariwal说道,“我们希望分阶段进行这个过程,以从获得得反馈中不断评估如何安全地发布这项技术。”

感谢对创作者的支持:李跃群

校对:栾梦

标签: # 图像 # 模型
声明:伯乐人生活网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系ttnweb@126.com