本站出售,有兴趣带价格联系QQ:503594296

用于训练AI智能体 环境 硅谷鼎力押注 技术 (用于训练执勤的轻武器每日擦拭一次)

admin1 7小时前 阅读数 2 #美股

多年来,科技巨头的首席行动官们不时宣扬AI智能体(AI agents)的愿景 —— 这类智能体可自主经常经常使用软件运转为人类成功义务。但现在将消费者级 AI 智能体(无论是 OpenAI 的 ChatGPT Agent,还是 Perplexity 的 Comet)投入通经常经常常使用便会发现,这项技术的局限性仍十分清楚。要让 AI 智能体具有更强的稳健性,或许要求行业尚未完全探求出的一系列新技术支持。

其中一项技术便是精心模拟 “任务空间”,让智能体在其中接受多步骤义务训练 —— 这种 “任务空间” 被称为强化学习(reinforcement learning,简称 RL)环境。正如带标签的数据集推进了上一波 AI 展开浪潮,强化学习环境正逐渐成为智能体开发环节中的关键要素。

AI 研讨人员、创业者及投资者走漏,目前顶尖 AI 实验室对强化学习环境的需求大幅介入,而无意提供此类技术的初创公司也不在少数。

“一切大型 AI 实验室都在外部搭建强化学习环境,” 安德森・霍洛维茨基金(Andreessen Horowitz)一般合伙人珍妮弗・李表示,“但可想而知,创立这类数据集的复杂度极高,因此 AI 实验室也在寻觅能打造高质量环境与评价体系的第三方供应商。整个行业都在关注这一范围。”

对强化学习环境的需求催生了一批资金雄厚的新兴初创公司,例如 Mechanize Work 和 Prime Intellect,这些公司均努力于在该范围占据抢先位置。与此同时,Mercor、Surge 等大型数据标注公司表示,随着行业正从静态数据集向交互式模拟转型,它们也在加大对强化学习环境的投入以跟上趋向。大型实验室相同在思索巨额投资:据《The Information》报道,Anthropic 的控制层已讨论方案在未来一年内,为强化学习环境投入超 10 亿美元。

投资者与创业者们希冀,这些初创公司中能降生出 “强化学习环境范围的 Scale AI”—— 这里的 Scale AI 是估值 290 亿美元的数据标注巨头,曾为聊天时代的展开提供了关键支撑。

目前的中心疑问在于,强化学习环境能否真能推进 AI 技术打破现有边界。

什么是强化学习(RL)环境?

从实质上讲,强化学习环境是模拟 AI 智能体在真实软件运转中操作场景的 “训练场”。一位创业者描画其构建环节 “就像制造一款十分单调的电子”。

例如,某个环境可模拟 Chrome 阅读器,并向 AI 智能体下达 “在亚马逊上置办一双袜子” 的义务。系统会对智能体的表现启动评分,若义务成功(即买到适宜的袜子),便会向其发送 “奖励信号”。

虽然这类义务听起来相对简易,但 AI 智能体在行动环节中仍或许在多个环节出错:或许在网页下拉菜单中 “迷路”,也或许误购多双袜子。由于开发者无法精准预测智能体或许出现的错误,环境自身肯定具有足够的稳健性,既能捕捉所无意内行为,又能提供有效的反响 —— 这使得构建环境的复杂度远高于创立静态数据集。

部分强化学习环境设计十分复杂,可支持 AI 智能体经常经常使用工具、访问互联网或调用各类软件运转成功指定义务;另有部分环境则定位更细分,专注于协助智能体学习企业级软件运转中的特定义务。

虽然强化学习环境现在是硅谷的抢手技术,但经常经常使用这类技术的先例早已有之。2016 年,OpenAI 的首批项目之一便是构建 “RL Gyms”(强化学习场馆),其理念与现代强化学习环境高度相似;同年,谷歌 DeepMind 的 AlphaGo AI 系统击败围棋全球冠军,该系统相同在模拟环境中采纳了强化学习技术。

现在的强化学习环境之所以具有共同性,在于研讨人员正尝试结合大型 Transformer 模型,打造能 “经常经常使用计算机” 的 AI 智能体。与 AlphaGo(仅适用于封锁环境的公用 AI 系统)不同,现在的 AI 智能体旨在具有更通用的才干。以后的 AI 研讨人员虽拥有更坚实的技术终点,但目的也更为复杂,或许出现的疑问也更多。

竞争剧烈的范围

Scale AI、Surge、Mercor 等 AI 数据标注公司正积极顺应趋向,着力打造强化学习环境。这些公司不只比该范围少数初创企业拥有更充足的资源,还与 AI 实验室树立了深沉的协作相关。

Surge 首席行动官埃德温・陈(Edwin Chen)表示,近期已观察到 AI 实验室对强化学习环境的需求 “清楚增长”。他走漏,Surge 去年经过与 OpenAI、谷歌、Anthropic、Meta 等 AI 实验室协作,营收据称抵达 12 亿美元;该公司近期已成立专门的外部团队,担任强化学习环境的搭建任务。

紧随 Surge 之后的是估值 100 亿美元的初创公司 Mercor,该公司相同与 OpenAI、Meta、Anthropic 有协作。TechCrunch 失掉的营销资料显示,Mercor 正向投资者推介其中心业务 —— 为编程、医疗、法律等特定范围义务打造强化学习环境。

Mercor 首席行动官布伦丹・富迪(Brendan Foody)表示:“很少有人真正看法到,强化学习环境范围包括的机遇终究有多大。”

Scale AI 曾在数据标注范围占据主导位置,但自 Meta 投资 140 亿美元并挖走其首席行动官后,该公司的市场份额逐渐下滑。尔后,谷歌和 OpenAI 不再将 Scale AI 列为数据供应商,甚至在 Meta 外部,Scale AI 也面临数据标注业务的竞争压力。虽然如此,Scale AI 仍在努力顺应趋向,投身强化学习环境的构建。

“这正是(Scale AI)所处行业的实质,”Scale AI 担任智能体与强化学习环境的产品担任人切坦・拉内(Chetan Rane)表示,“Scale 已证明其加快顺应的才干:在我们的首个业务板块 —— 智能驾驶范围的早期阶段,我们做到了这一点;ChatGPT 问世后,Scale AI 也成功顺应了新趋向;现在,我们再次在智能体、环境等新前沿范围启动调整。”

部分新兴企业从创立之初便专注于强化学习环境范围。成立约 6 个月的初创公司 Mechanize Work 便是其中之一,该公司提出了 “成功一切任务” 的大胆目的。不过,结合开创人马修・巴尼特(Matthew Barnett)向 TechCrunch 走漏,其公司目前正从为 AI 编程智能体打造强化学习环境起步。

巴尼特表示,Mechanize Work 方案为 AI 实验室提供大批高稳健性的强化学习环境,而非像大型数据公司那样打造大批简易的强化学习环境。为此,该初创公司为软件工程师开出了 50 万美元的年薪(用于构建强化学习环境),这一薪资远高于在 Scale AI 或 Surge 从事小时工性质任务的报酬。

两位知情人士走漏,Mechanize Work 已末尾与 Anthropic 协作开发强化学习环境。对此,Mechanize Work 与 Anthropic 均拒绝就协作细节置评。

另有部分初创公司押注强化学习环境在 AI 实验室之外的范围也将出现影响力。由 AI 研讨员安德烈・卡帕西(Andrej Karpathy)、Founders Fund 风投、Menlo Ventures 风投支持的初创公司 Prime Intellect,正将其强化学习环境定位为服务中小型开发者。

上个月,Prime Intellect 推出了强化学习环境中心,目的是打造 “强化学习环境范围的 Hugging Face”(Hugging Face 为 AI 范围知名开源社区)。该平台旨在让开源开发者取得与大型 AI 实验室同等的资源支持,同时在此环节中向开发者出售计算资源访问权限。

Prime Intellect 研讨员威尔・布朗(Will Brown)表示,在强化学习环境中训练具有通用才干的智能体,所需的计算本钱或许高于以往的 AI 训练技术。因此,除了打造强化学习环境的初创公司,为这一环节提供支持的 GPU 供应商也将迎来机遇。

“没有任何一家公司能独自主导强化学习环境范围,其规模太大了,” 布朗表示,“我们目前所做的部分任务,只是尝试围绕该范围搭建良好的开源基础设备。我们的中心服务是提供计算资源,这确实是经常经常使用 GPU 的简易入口,但我们更着眼于终年展开。”

能否成功规模化展开?

关于强化学习环境,目前尚未有定论的疑问是:这项技术能否像以往的 AI 训练方法那样成功规模化展开?

过去一年,强化学习推进了 AI 范围多项严重打破,包括 OpenAI 的 o1 模型、Anthropic 的 Claude Opus 4 模型等。这些打破意义严重,由于此前用于改良 AI 模型的方法现在正显现出 “收益递减” 的趋向。

强化学习环境是 AI 实验室对强化学习技术 “更大押注” 的一部分 —— 许多人以为,随着在该技术中投入更少数据与计算资源,强化学习将继续推进 AI 提高。OpenAI 担任 o1 模型的部分研讨人员此前走漏,该公司最后之所以投资 AI 推理模型(经过对强化学习和测试时计算的投入开发而成),正是由于他们以为这类模型具有良好的规模化潜力。

目前,强化学习成功规模化的最佳途径尚不明白,但强化学习环境似乎是颇具潜力的方向。与仅经过文本回复奖励聊天机器人不同,强化学习环境能让智能体在模拟场景中操作工具、经常经常使用计算机成功义务 —— 这种形式虽然对资源的消耗远更高,但潜在的报答也更大。

也有部分人士对强化学习环境的展开前景持怀疑态度。曾担任 Meta AI 研讨担任人、现结合创立 General Reasoning 公司的罗斯・泰勒表示,强化学习环境容易出现 “奖励作弊”(reward hacking)现象 —— 即 AI 模型为取得奖励而 “作弊”,并未真正成功义务。

“我以为人们低估了环境规模化的难度,” 泰勒说,“即使是目前地下可用的最佳(强化学习环境),若不启动大幅修正,通常也无法失经常经常常使用。”

OpenAI API 业就业程担任人舍温・吴(Sherwin Wu)在近期播客中表示,他对强化学习环境范围的初创公司 “持看空态度”。吴指出,该范围竞争异常剧烈,且 AI 研讨展开速度极快,要为 AI 实验室提供优质服务难度很大。

卡帕西(作为 Prime Intellect 的投资者,曾称强化学习环境或许成为打破性技术)也对整个强化学习范围表达了慎重态度。他在社交平台 X 的帖子中提出疑问:经过强化学习技术,AI 还能成功多大水平的提高?

“我对环境与智能体交互持绝望态度,但对强化学习自身持绝望态度。” 卡帕西表示。


谷歌、微软、苹果、阿里巴巴、百度、OpenAI……科技巨头末尾“押注”这项技术

科技巨头末尾“押注”的技术是Agentic AI(代理式人工智能)。

一、Agentic AI的定义与特点

Agentic AI,即代理式人工智能,是一种能够经过设计任务流和经常使用工具,代表用户或其他系统自主执行义务的系统或程序。 与传统的聊天机器人要求人类输入提示才干做出回应不同,Agentic AI具有自主执行的才干。 它不只可以了解自然言语,还能启动复杂的推理和决策,从而在无需人类直接干预的状况下成功义务。

二、Agentic AI的开展背景

AI智能体(agent)的概念曾经存在了几十年。 随着2010年代机器学习和深度学习的兴起,认知智能失掉了加快开展。 而到了2020年代,生成式人工智能的兴起进一步推进了AI技术的提高,为Agentic AI的开展奠定了坚实基础。 生成式AI参与了复杂的自然言语了解和推理才干,为从传统AI智能体到Agentic AI的转型提供了直通线。

三、科技巨头对Agentic AI的“押注”

四、Agentic AI的未来影响与应战

五、结论

Agentic AI作为人工智能开展的下一前沿,正遭到全球科技巨头的普遍关注和“押注”。 但是,其开展和运行也面临着诸多应战和疑问。 未来,随着技术的不时提高和市场的逐渐成熟,Agentic AI有望在消费力和运营效率优化方面发扬关键作用,但同时也要求各方共同努力,确保其安保、牢靠和合规经常使用。

数据标注的外包公司

数据标注的外包公司

在数据标注范围,外包公司扮演着至关关键的角色,它们为人工智能、机器学习等范围提供高质量的训练数据。以下是几家靠谱的数据标注外包公司的引见:

一、星尘数据(北京星尘纪元智能科技有限公司)

二、BasicFinder(北京深度搜索科技有限公司)

三、其他介绍

除了上述两家公司外,还有以下一些在数据标注范围具有影响力的外包公司:

综上所述,选择靠谱的数据标注外包公司时,应关注公司的背景实力、服务特点、团队规模、质量控制等方面。 星尘数据、BasicFinder以及数据堂众包、网络众包平台等都是值得思索的选择。 这些公司在数据标注范围具有丰厚的阅历和先进的技术支持,能够为客户提供高质量、高效率的数据标注服务。

英伟达GPU一战成神!黄仁勋押注人工智能,建起万亿美元显卡帝国

黄仁勋,英伟达的灵魂人物,一路见证了人工智能的崛起。 从神经网络AlexNet的降生到ChatGPT的问世,英伟达的GPU一直扮演着关键角色,助力AI技术的飞跃。 英伟达市值成功打破万亿美元,成为全球第六大市值公司,这面前是黄仁勋的智慧与远见。 他的创业之路始于一个餐厅,与两位资深微芯片设计师共同创立了英伟达。 面对资金充足与技术应战,英伟达仰仗CUDA的创新,从图形公司转型为AI公司,引领了人工智能时代的浪潮。 黄仁勋与妻子Lori Mills相识于大学,共同渡过了创业初期的困难时辰。 他们携手共进,面对应战,最终将英伟达打造为显卡帝国。 在硅谷,英伟达总部充溢着创新与生机,每栋大楼的三角形设计意味着公司追求出色的精气。 黄仁勋深知GPU在超级计算中的潜力,推出GeForce系列,引爆了神经网络,推进了人工智能的加快开展。 在AI范围,英伟达一直走在前列。 自2012年AlexNet的降生,英伟达的GPU不时引领AI技术的打破。 从图像识别到生成式AI的预训练,英伟达的显卡在各类AI运行中展现出了出色性能,推进了AI技术的普遍运行。 黄仁勋的控制哲学与创新精气,让英伟达在AI范围独树一帜。 经过构建灵敏的公司结构与高效的任务文明,英伟达吸引并保管了顶尖人才,为公司的继续成功奠定了坚实基础。 GPU的销量暴跌,不只成就了英伟达的显赫位置,更证明了AI技术在现代社会中的庞大潜力与价值。 英伟达的成功故事不只是一段科技传奇,更是对创新与坚持的深入诠释。 在黄仁勋的率领下,英伟达不时探求未知,推进人工智能技术的边界,为未来的全球开拓了有限或许。

版权声明

本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。

热门