但也想让人人可用视频生成模型与Sora有差距对话智谱AI CEO张鹏 (我也想让人心疼)

admin1 1年前 (2024-07-27) 阅读数 112 #财经

媒体资讯7月26日讯（记者张信宇）在OpenAI用Sora震惊科技业界半年后，越来越多的公司跟进了多模态，并且视为通往AGI之路的标配。

7月26日，AI大模型初创公司智谱AI CEO 张鹏在智谱Open Day上宣布，AI生成视频模型清影（Ying）正式上线智谱清言。跟此前的大言语模型一样，在生成式视频模型的研发中，张鹏以为Scaling Law依然在起作用：“随着算法、数据不时迭代，置信Scaling Law将继续发扬弱小威力。”

清华系背景的智谱AI是中国目前头部AI大模型初创公司之一。往年3月，智谱宣布成功由北京市人工自动产业投资基金介入的一轮融资；随后智谱又在6月初成功新一轮融资，投资方为中东石油巨头沙特阿美（Aramco）旗上风险投资部门控制的基金Prosperity7，估值抵达约30亿美元，也成为第一个取得国外基金机构融资的国际AI独角兽。依据地下报道，智谱的股东阵容中还包括社保基金自主创新基金（君联资本为基金控制人）、美团、蚂蚁、阿里、腾讯、小米、红杉、高瓴等多家大厂和知名机构。

与此前Sora、快手可灵等视频大模型的公布节拍不同，智谱清影一公布即全量上线，也就意味着无需开放、无需付费，一切C端用户都能直接体验到清影的AI文生视频、图生视频才干。不过，清影底座的视频生成模型是智谱开发的视频生成大模型CogVideoX，在B端依然会收取肯定费用，规范多少钱为0.5元/次，也可置办不同多少钱和活动的资源包。

而随着清影的公布，智谱清言也终于初步成为了一个多模态的产品，与OpenAI的产品矩阵越来越靠近了。

“智谱从2021年就末尾规划（视频模型）了。”智谱AI CEO 张鹏在今天采访中解释智谱在多模态上的缘起。不过与视频厂商不同，智谱作为模型厂商，其后选择的技术路途是先提高笼统、微观层面的才干，以及对全球的建模和了解，再从上到下姜维到视觉信号。“这两个事情有对错吗？不用定。单模态的建模，言语模态的建模，跨模态的建模，最终会走向实质的物理全球分歧的表示。大家追求的是同一个真理，只是走不同的路而已，或许是这样一个结局。”张鹏称。

与Sora一样，智谱也采纳了DiT+Transformer的架构来打造视频生成模型，这使得智谱可以节省许多前期本钱，并且以较快的增长速度抵达一个基本拿得出手的产品水准，然后再继续迭代底层技术，同时也要寻求运转落地及商业化。

而关于视频模型的商业化，“如今这个阶段，无论是To C还是To B，大规模商业化还比拟早期。”张鹏解释道，“说假话我们也不知道商业化战略未来会怎样走、什么样的方式最好。目前所谓不要钱的战略更多的是一种自己的尝试，想看看看市场和用户的反响，前面依据大家的反响及时调整。也许大家喜爱这样，也许不喜爱这样，我们也不知道，大家用脚投票吧。”对应的本钱方面，在目前刚刚上线的阶段也还无法作出统计。

不过，做视频模型与做言语模型不同的是，智谱在视频数据上存在肯定的短板。张鹏表示，视频模型的训练数据对数据质量的要求很高，除了视频文件自身，还要有对应视频的字幕、文字描画等数据。此外，判别视频自身的高质量也有很多维度，包括视频的解析度、品格、分进、组合、延续性等等。并不能在短视频网站随意抓一个视频就能训练，所以关于数据自身的清洗、挑选、挑选也是很关键的环节。

“文字数据曾经有多年积聚，但视频数据是才这几年的事情，而且难度更高。”张鹏说。

通常上，智谱清影可以将6秒视频的生成时期缩短到30秒，但依据媒体资讯记者的通常体验来看，目前时不时的还是要排队等候，因此通常生成时期会更长。不过思索到完全没有经常经常使用门槛，这一尝鲜的代价依然可以接受。

相比起来，OpenAI的Sora于往年2月公布后至今不时没有向群众开放经常经常使用；快手可灵或许是国际厂商目前阶段效果最好的视频生成大模型，也刚刚于本周开放内测，要求付费最低66元（首周活动最低33元）的月卡才干经常经常使用。

不过，张鹏依然供认OpenAI的抢先优点，“（智谱清影）今天还只是一个初步的阶段性效果，还达不到像Sora演示出来那么好、那么长的视频，还要求更多的努力，也有很多其他要素。我们历来很坦诚供认我们和OpenAI等全球顶级水平之间的差距。但是这条路还得自己走，我们在不时用自己的方式往前追逐，或许想怎样把视频生成算力本钱降上去，照应速度优化上去，让技术人人可用。所以我们是在追求技术高度的同时，也同步追求技术的可普及性和本钱，这也是我们这个团队的特点。”

片面对标OpenAI生态！智谱AI推出GLM-4大模型全家桶，GLMs上线，不会编程也能创立Agent

智能反派新纪元，智谱AI引领潮流！

智谱AI以出色的创新力，推出了GLM-4大模型全家桶，犹如一颗绚烂的明珠，应战OpenAI生态的前沿。这款新一代模型性能优化高达60%，在多项关键目的上迫近GPT-4，可谓技术里程碑。 GLM-4不只支持长文本处置、多模态交互，还具有加快推理和并发执行的才干，大大降低了推理本钱，让技术触手可及。

CEO张鹏强调，智谱AI构建了全方位的技术架构，涵盖了多模态、代码生成等多个范围，努力于追逐并逾越OpenAI的技术深度。 GLM-4的亮点在于其特性化定制和智能体性能的整合，经过MaaS平台提供API，让非程序员也能轻松创立高效Agent。开源内核模型的引入，促进了技术共享和创新探求。

在实践运行中，GLM-4展现了出色的性能。在评测中，它在言语了解、数学疑问处置和跨言语义务上逾越GPT-3.5，甚至在专业范围的中文对齐和特定才干上逾越了GPT-4。从生成延续故事到执行复杂计算，GLM-4在网页阅读的准确度上更是逾越了GPT-4，展现了弱小的联网和Function Call才干，中文了解的深度更是逾越了国际同行。

特别是，智谱AI的创新之作如CogView3和GLM-4V，区分在手部图像生成、语义了解以及表格转换等方面展现了令人注目的才干。经过它们，用户可以轻松地启动数据可视化，从屏幕内容中提取信息并执行义务，向着多模态智能助手的目的稳步迈进。

为了推进科技提高，智谱AI积极设立大模型基金，包括CCF-智谱和SMP-智谱，总额超越10亿元，支持科研与创业的创新通常。经过开源，智谱AI与全球2000多家同伴严密协作，从Transformer架构的开源到GLM-130B的发布，继续推进AI技术的开放与共享。

虽然起步相对较晚，但智谱AI的GLM系列仰仗出色的性能和普遍的商业运行，已成为亚洲在国际舞台上的关键代表。 2023年，ChatGLM-130B的迭代更新和开源下载量打破千万，彰显了公司在开源与商业化范围的实力。面对国际竞争的焦点，智谱AI坚决走MaaS途径，呼吁全球同伴共同构建自主可控的AI未来，以开放创新的姿态迎接新的应战和机遇。