涉17万个视频 英伟达等巨头被曝违规经常经常使用YouTube数据训练模型
据媒体信息,包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司,被曝在训练AI模型时经常经常使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司经常经常使用了一个由第三方提供的数据集,其中包括从YouTube上抓取的大批视频字幕文本,违犯了YouTube制止从平台上未经容许抓取内容的规则。
报道指出,这些科技公司在训练AI模型时都经常经常使用了一个名为“YouTube Subtitles(YouTube字幕)”的数据集,大小为5.7GB,包括4.89亿个单词,来自Youtube上逾越4.8万个频道中的17.35万个视频。该数据集由视频字幕的纯文本组成,包括视频博主上传的部分和Youtube智能转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等言语的翻译。
假房源、假照片、假简历,甚至假猫……这群人要把神经网络玩坏了!
人工智能越来越擅长对人类“撒谎”。 虽然它们还无法压服、故意误导他人,但它们曾经能够发明出不存在的声响和图像,看上去还逼真无比。
虚伪的人类照片
近日,来自日本的研讨人员应用神经网络制造了逼真的高清视频,外面是各种各样穿着衣服的人类图像,但实践上并不存在。
(视频截图)
担任这次令人张口结舌的技术演示的公司是DataGrid,一家基于日本京都大学校园的初创公司。
正如视频所示,人工智能算法可以想象出一连串逼真的人类图像,并且衣服和外形能够不时变化。 视频中也没有任何图像伪影或奇异的小缺点,这些“露馅”之处标志着生成图像的尝试失败。
和许多生成式人工智能工具(包括去年佳士得拍卖会上拍出低价的人工智能艺术品)一样,这个最新的演示是经常使用一种叫做生成式对立网络(GAN)的工具创立的。
GAN使两团体工神经网络相互竞争。 在这种状况下,一个“生成器”网络生成新的图像,而另一个“鉴别器”网络试图找出哪些图像是计算机生成的,哪些不是。 随着时期的推移,这个对立环节让“生成器”网络变得足够擅长创立图像,从而每次都能成功地诈骗“鉴别器”。
不过,这或许也没有想象的那么难,由于视频中的人类处于简易的白色背景中,从而最大限制地增加了或许的背景混乱,这或许会影响创立的图像质量。
这显然是一个令人惊叹的技术提高,但同时也让人有些担忧,有了这样栩栩如生的AI图像,假资讯或许也将变得愈加难以分辨。
虚伪的人脸
一个名叫ThisPersonDoesNotExist的网站应用对立神经网络也发明出了十分逼真的虚伪人脸。
它应用的是英伟达在去年发布的StyleGAN算法,用真人照片来训练,生成人工分解的相似照片。
(YOUTUBE截图)
英伟达表示,其GAN是围绕一个名为“品格转移”的概念构建的。 该系统剖析了三种基本品格——粗糙、中等、精细——并将它们透明地融分解一种全新的东西,而不是试图将不同面孔的元素复制粘贴到一个怪人身上。
“粗糙”包括姿态、脸型或发型等参数。 “中等”包括面部特征,如鼻子、面颊或嘴巴的外形。 最后,“精细”选项会影响面部特征的颜色,比如皮肤和头发。 迷信家们表示,为了消弭与新分解人脸有关的噪声,该出现器还“能够从初级属性中分别出有关紧要的变化”。
例如,它可以区分发型和真实的头发,消弭前者,而运行后者的最终照片。 它还可以指定如何运行样式来取得或多或少巧妙的效果。
英伟达的系统不只能够生成全新的分解人脸,还能无缝地修正真人的特定特征,比如年龄、头发或肤色。 这样一个系统的运行是惊人的。 比如,人们可以准确地在做发型之前就预览发型的变化。
ThisAirBNBDoesNotExist网站的开创人克里斯托弗•施密特(Christopher Schmidt)在接受采访时说:“我之所以对这个ThisPersonDoesNotExist感兴味,是由于我不明白这样的东西怎样或许行得通。”
“我想,这个模型必需是要求某个模板来制造图像的。 当我发现它不是——它真的能够接受任何随机的输入集,并将其转换成一张真实的脸的图像时,我大吃一惊。 我完全供认,我依然不明白它是如何任务的,但我明白它确实能做到,这是一个幽默的范围。 ”
Airbnb虚伪房源
Airbnb房源是另一个被网友们用来“调戏”的东西。 ThisAirBNBDoesNotExist网站能够智能生成不存在的Airbnb房源图片,每次刷新都会出现一个虚伪的房源,网页上的照片、文字描画、发布人头像均由计算机智能生成。
由于经常使用的模型十分简易,文字描画多有不合逻辑之处,但乍看上去还是能以假乱真。
(网络截图)
依据 制造者Christopher Schmidt 在 Twitter 的引见,生成每个网页用一块 GPU 只需 0.5 秒。
他表示,这个网站在构建图片和卧室照片时经常使用 StyleGAN算法,一些文本网络的训练经常使用了 来生成地点称号、房主姓名、标题和描画。 一切的数据训练环节都在谷歌的Colab上成功,该平台上可以无偿经常使用GPU和TPU来训练和生成数据。
每个模型都可以做出独立的预测,所以会经常出现各部分信息不相配的状况,比如描画信息中说某套房子有一间卧室,但列表信息中显示有四间卧室,或许外观和名字陈列不齐等。
虚伪的笼统派画作
Reddit上一位网友应用StyleGAN训练生成了999幅笼统派画作。 在数据方面,采用的是Kaggle上名为”Painter by Numbers“项目中的数据集,其中大部分的图像数据来源于网站。
其中,只采用了≥1024X2014的图像。 在GTX 1080 TI上的训练时期大约是5天。
不过作者表示,该模型试图生成人脸的部分并不是很完美,但其它部分还算可以。
虚伪的二次元角色
有限生成二次元妹子的网站也是应用StyleGAN算法制造的。 这个网站能够智能生成二次元角色。
“我思索了内在的 文娱 要素、高质量的可用性、数据和机器学习的真正困难等众多要素,然后挑选了二次元角色。 ”ThisWaifuDoesNotExist网站的开创人Gwern Branwen称。
“这并不是你在许多已宣布的论文中都能看到的东西,而是每团体都能欣赏的东西:不好的结果很幽默,而好的结果甚至更幽默。”
虚伪的猫、简历和初创公司
此外,还有网站能够智能生成不存在的猫咪图片,虽然其中有些看起来有点诡异。 此外还有网站能够生成虚伪的简历,甚至是虚伪的初创公司网页。
(图:虚伪的猫)
(图:虚伪的简历)
(图:虚伪的初创公司网页)
英伟达将StyleGAN算法开源后,不少人都应用它来做出了各种好玩的效果,其中最臭名昭著的就是“Deepfake”,它将一些女明星的脸“拼接”到色情演员身上。
除了以上这些例子,还有虚伪的 汽车 、食物等等基于 StyleGAN 模型的“造假效果”,如雨后春笋一样不时涌现。 甚至有人把这些“造假效果”汇总到了一个网站,叫“这些东西都不存在”。
这些相似的“造假”网站面前的技术都是一样的,网站的大致规划也一样,支持用户重复刷新,每次都提供100%的新图片。
虽然这引发了人们的担忧,但值得留意的是,成功这一义务要求在8个英伟达Tesla图形处置器上启动为期一周的人工智能培训,每个处置器的本钱高达数千美元——而这些不是马马虎虎能办到的事情。
版权声明
本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。