本站出售,有兴趣带价格联系QQ:503594296

但也想让人人可用视频生成模型 与Sora有差距 对话智谱AI CEO张鹏 (我也想让人心疼)

媒体资讯7月26日讯(记者 张信宇)在OpenAI用Sora震惊科技业界半年后,越来越多的公司跟进了多模态,并且视为通往AGI之路的标配。

7月26日,AI大模型初创公司智谱AI CEO 张鹏在智谱Open Day上宣布,AI生成视频模型清影(Ying)正式上线智谱清言。跟此前的大言语模型一样,在生成式视频模型的研发中,张鹏以为Scaling Law依然在起作用:“随着算法、数据不时迭代,置信Scaling Law将继续发扬弱小威力。”

清华系背景的智谱AI是中国目前头部AI大模型初创公司之一。往年3月,智谱宣布成功由北京市人工自动产业投资基金介入的一轮融资;随后智谱又在6月初成功新一轮融资,投资方为中东石油巨头沙特阿美(Aramco)旗上风险投资部门控制的基金Prosperity7,估值抵达约30亿美元,也成为第一个取得国外基金机构融资的国际AI独角兽。依据地下报道,智谱的股东阵容中还包括社保基金自主创新基金(君联资本为基金控制人)、美团、蚂蚁、阿里、腾讯、小米、红杉、高瓴等多家大厂和知名机构。

与此前Sora、快手可灵等视频大模型的公布节拍不同,智谱清影一公布即全量上线,也就意味着无需开放、无需付费,一切C端用户都能直接体验到清影的AI文生视频、图生视频才干。不过,清影底座的视频生成模型是智谱开发的视频生成大模型CogVideoX,在B端依然会收取肯定费用,规范多少钱为0.5元/次,也可置办不同多少钱和活动的资源包。

而随着清影的公布,智谱清言也终于初步成为了一个多模态的产品,与OpenAI的产品矩阵越来越靠近了。

“智谱从2021年就末尾规划(视频模型)了。”智谱AI CEO 张鹏在今天采访中解释智谱在多模态上的缘起。不过与视频厂商不同,智谱作为模型厂商,其后选择的技术路途是先提高笼统、微观层面的才干,以及对全球的建模和了解,再从上到下姜维到视觉信号。“这两个事情有对错吗?不用定。单模态的建模,言语模态的建模,跨模态的建模,最终会走向实质的物理全球分歧的表示。大家追求的是同一个真理,只是走不同的路而已,或许是这样一个结局。”张鹏称。

与Sora一样,智谱也采纳了DiT+Transformer的架构来打造视频生成模型,这使得智谱可以节省许多前期本钱,并且以较快的增长速度抵达一个基本拿得出手的产品水准,然后再继续迭代底层技术,同时也要寻求运转落地及商业化。

而关于视频模型的商业化,“如今这个阶段,无论是To C还是To B,大规模商业化还比拟早期。”张鹏解释道,“说假话我们也不知道商业化战略未来会怎样走、什么样的方式最好。目前所谓不要钱的战略更多的是一种自己的尝试,想看看看市场和用户的反响,前面依据大家的反响及时调整。也许大家喜爱这样,也许不喜爱这样,我们也不知道,大家用脚投票吧。”对应的本钱方面,在目前刚刚上线的阶段也还无法作出统计。

不过,做视频模型与做言语模型不同的是,智谱在视频数据上存在肯定的短板。张鹏表示,视频模型的训练数据对数据质量的要求很高,除了视频文件自身,还要有对应视频的字幕、文字描画等数据。此外,判别视频自身的高质量也有很多维度,包括视频的解析度、品格、分进、组合、延续性等等。并不能在短视频网站随意抓一个视频就能训练,所以关于数据自身的清洗、挑选、挑选也是很关键的环节。

“文字数据曾经有多年积聚,但视频数据是才这几年的事情,而且难度更高。”张鹏说。

通常上,智谱清影可以将6秒视频的生成时期缩短到30秒,但依据媒体资讯记者的通常体验来看,目前时不时的还是要排队等候,因此通常生成时期会更长。不过思索到完全没有经常经常使用门槛,这一尝鲜的代价依然可以接受。

相比起来,OpenAI的Sora于往年2月公布后至今不时没有向群众开放经常经常使用;快手可灵或许是国际厂商目前阶段效果最好的视频生成大模型,也刚刚于本周开放内测,要求付费最低66元(首周活动最低33元)的月卡才干经常经常使用。

不过,张鹏依然供认OpenAI的抢先优点,“(智谱清影)今天还只是一个初步的阶段性效果,还达不到像Sora演示出来那么好、那么长的视频,还要求更多的努力,也有很多其他要素。我们历来很坦诚供认我们和OpenAI等全球顶级水平之间的差距。但是这条路还得自己走,我们在不时用自己的方式往前追逐,或许想怎样把视频生成算力本钱降上去,照应速度优化上去,让技术人人可用。所以我们是在追求技术高度的同时,也同步追求技术的可普及性和本钱,这也是我们这个团队的特点。”


片面对标OpenAI生态!智谱AI推出GLM-4大模型全家桶,GLMs上线,不会编程也能创立Agent

智能反派新纪元,智谱AI引领潮流!

智谱AI以出色的创新力,推出了GLM-4大模型全家桶,犹如一颗绚烂的明珠,应战OpenAI生态的前沿。 这款新一代模型性能优化高达60%,在多项关键目的上迫近GPT-4,可谓技术里程碑。 GLM-4不只支持长文本处置、多模态交互,还具有加快推理和并发执行的才干,大大降低了推理本钱,让技术触手可及。

CEO张鹏强调,智谱AI构建了全方位的技术架构,涵盖了多模态、代码生成等多个范围,努力于追逐并逾越OpenAI的技术深度。 GLM-4的亮点在于其特性化定制和智能体性能的整合,经过MaaS平台提供API,让非程序员也能轻松创立高效Agent。 开源内核模型的引入,促进了技术共享和创新探求。

在实践运行中,GLM-4展现了出色的性能。 在评测中,它在言语了解、数学疑问处置和跨言语义务上逾越GPT-3.5,甚至在专业范围的中文对齐和特定才干上逾越了GPT-4。 从生成延续故事到执行复杂计算,GLM-4在网页阅读的准确度上更是逾越了GPT-4,展现了弱小的联网和Function Call才干,中文了解的深度更是逾越了国际同行。

特别是,智谱AI的创新之作如CogView3和GLM-4V,区分在手部图像生成、语义了解以及表格转换等方面展现了令人注目的才干。 经过它们,用户可以轻松地启动数据可视化,从屏幕内容中提取信息并执行义务,向着多模态智能助手的目的稳步迈进。

为了推进科技提高,智谱AI积极设立大模型基金,包括CCF-智谱和SMP-智谱,总额超越10亿元,支持科研与创业的创新通常。 经过开源,智谱AI与全球2000多家同伴严密协作,从Transformer架构的开源到GLM-130B的发布,继续推进AI技术的开放与共享。

虽然起步相对较晚,但智谱AI的GLM系列仰仗出色的性能和普遍的商业运行,已成为亚洲在国际舞台上的关键代表。 2023年,ChatGLM-130B的迭代更新和开源下载量打破千万,彰显了公司在开源与商业化范围的实力。 面对国际竞争的焦点,智谱AI坚决走MaaS途径,呼吁全球同伴共同构建自主可控的AI未来,以开放创新的姿态迎接新的应战和机遇。

版权声明

本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。

热门