OpenAI Agent 新性能可以自己翻开阅读器查资料了 Google 深夜狙击 (openai api key获取)

admin1 8个月前 (12-12) 阅读数 13 #财经

文章标签新性能可以自己翻开阅读器查资料了深夜狙击 Google Agent OpenAI

甚至还可以实时在线教你打游戏了。

2024 年走到年底，似乎 AI 大厂们群体又选择搞点事情了。

在 OpenAI 宣布连发 12 天更新后，Google 选择 12 月 11 日深夜（在 OpenAI 公布更新之前），公布新模型 Gemini 2.0。

在屡次公布被 OpenAI 精准狙击后，Google 今夜扳回一局，公布了 Gemini 2.0，直指 Agent 经常经常使用，一个 OpenAI 至今没有明白地下规划的范围——之前有信息称，OpenAI 将在明年推出经常经常使用电脑的 Agent。

Agent 性能，也称为智能体性能，通常指的是 AI 能够感知环境、行动义务并在肯定水平上独立做出决策的才干，也就是能更智能化成功义务的性能。

此次 Google 似乎赌对了。OpenAI 清晨两点的公布，关键宣布了和 Apple Intelligence 的协作，一个普遍被等候能与 Agent 才干强相关的协作。不过今夜最终的公布，关键依然集中于文字生成和视觉智能方面，并没有 Agent 相关的内容。

而 Google，则一次性性性公布了四个 Agent 相关的性能：

Project Astra，能够在 Gemini 运转两边接调用 Google Lens 和地图性能帮用户处置疑问；

Project Mariner（海员项目），Chrome 阅读器的实验性性能，可以经过提醒词直接帮用户阅读网页做义务；

Jules，可以嵌入 GitHub 的编程 Agent，经常经常使用天然言语描画疑问，就能直接生成可以兼并到 GitHub 项目中的代码；

游戏 Agent，能够实时解读屏幕画面，直接在你打游戏的时辰经过和你语音交流，给你 AI 打法提醒。

尽管此次 Google 公布的性能依然属于期货范围，但是依然十分令人兴奋。我们似乎曾经可以洞见 Agent 真正到来的时代，人类生活的一角了。

炸裂新 Agent 性能：自己查资料、写代码，教你玩游戏

Google 的新性能树立在新模型 Gemini 2.0 才干之上。

和大部分大模型选择的路途不一样，Google 最早就选择了经常经常使用原生多模态的的方式训练模型——OpenAI 到了 GPT-4o 模型才变成原生多模态的模型。

原生多模态模型，是在训练阶段，就将图像、文字、语音甚至视频等多种编码，分歧输入给一个模型启动学习。

这样，模型可以无了解了一个「事物」后，愈加灵敏地应用启动不同模态的生成。

此次 Gemini 2.0，进一步更新了原生多模态才干。模型目前直接拥有了原生的图像生成才干、音频输入才干和原生的工具运转才干。

原生的工具运转才干就和 Agent 的才干高度相关。Google 引见，除此之外，新体验还来自于多模态推理、长上下文了解、复杂指令遵照和规划、组合函数调用、本地工具经常经常使用和下降提早等方向的改良。

看一下 Google 提出的新性能演示：

Project Mariner 是这个系列中，笔者看起来最惊喜的演示。

关键要素或许是由于相关于其他性能，Google 的 Chrome 阅读器是笔者每天都要经常经常使用的工具，也是对任务效率影响最高的工具。而 Google 的这项实验性性能，看起来也不要求对阅读器启动过多的额外性能——只要求用到扩充程序。

Google 很懂地选了一个消费力场景，让 Chrome 翻开一个表格（演示里里用的是 Google Docs，不知道这与最终的成功识别是不是无相关性）。

表格里有几个公司的名字。演示者翻开 Chrome 的这项实验性能，让 Chrome 自己记住这几个公司名字，去网上查找这些公司的邮箱。（相同的，查找经常经常使用的是 Google 搜寻，不知道是不是与最后的演示成功相关。）

阅读器自己翻开了网页，自己点开每个公司的官方，在找到邮箱地址后，智能记住邮箱地址，关掉网页末尾查找下一个公司的邮箱地址。

全程，用户可以在左边栏输入提醒词的位置，看到模型目前在如何思索，随时中止智能操作。同时模型只会在前台运转，不会在用户看不到的标签页中运转。

尽管前台运转似乎对用户的时期是一种消耗，但同时也保证了安保性。在这个案例中，也确实优化了消费效率——挨个查找邮箱确实是一件十分没有发明力的任务。

Jules，则让天然言语写代码似乎更近了一步。

在演示中，用户输入了一段十分详细的编程疑问的提醒词，包括在哪个文件中遇到什么疑问，心愿做怎样的修正。（Google 提到 Jules 可以直接嵌入 GitHub 中。）

Jules 对疑问启动剖析，给出了一个三步的编程处置方案，当用户点击赞同后，模型末尾智能编程，生成代码文件，这些代码可以一键被兼并至用户原有的代码中。

游戏 Agent，则是看起来最幽默的一个演示。

Google 特别提到，Gemini 2.0 可以了解 Android 手机的屏幕分享和用户的语音，直接做到演示中的内容，不要求额外的后训练。

演示中，用户分享正在玩的手机屏，并用语音和 Agent 沟通，游戏 Agent 直接给出了接上去的最佳战略。

Google 表示目前正在和《部落抵触》、《海岛奇兵》等游戏做协作，协助 Agent 了解游戏规则。同时 Agent 也会自己实时上网查找，来了解游戏规则给出最好的战略。

这特性能也可以说很炸裂了。关于纯战略型游戏，这个外挂可有点太凶猛了——随着 AI 的进度，人脑对战略的了解恐怕没有方法和 AI 抗衡。或许说，或许只需最顶尖的大脑可以和 AI 相抗衡。

Gemini2.0 目前并没有对一切用户开通，Google 表示目前正在将 2.0 开通给开发者以及受信任的测试人员。这意味着以上的 Agent 性能，到用户真正能够经常经常使用，依然有一段时期。不过此次演示依然令人兴奋。

未来 Gemini 2.0 上线，Google 大约率也不会首发上述的 Agent 性能，而是将先将其融入 Gemini 和搜寻性能。

Google 之前曾经在探求将 AI 引入其搜寻性能中。10 月，Google 曾经宣布，其搜寻中的 AI 概述性能每月取得了 10 亿用户的经常经常使用。未来 Google 方案把 Gemini 2.0 的初级推理才干引入 AI 概述，以应对更复杂的话题和多步骤疑问，包括初级数学方程式、多模态查询和编码。

此外，除了探求虚拟全球的智能体才干外，Google 还方案将 Gemini 2.0 的空间推理才干运转于范围，尝试让 Agent 在理想全球中提供协助。

Gemini Flash 惯例更新

那么用户通常上能够马上经常经常使用的模型是什么？

答案是 Gemini 2.0 Flash。

作为 Google 大号模型蒸馏而来的小号模型，Gemini 2.0 Flash（对话优化版本）将成为 Google Gemini 中的智能经常经常使用模型。

Google 还推出了一项名为「深度研讨」的新性能，该性能运行初级推理和长上下文才干作为研讨助手，可以探求复杂主题并编制报告，今天在 Gemini 初级版中可用。

Gemini 2.0 Flash 的才干较上一代有清楚优化，相当于上一代模型的 Pro 版本的才干。

同时作为 2.0 模型家族的一员，Gemini 2.0 Flash 也支持支持图片、视频和音频等多模态输入，2.0 Flash 如今还可以支持多模态输入，例如可以直接生成图像与文本混合的内容，以及原生生成可控的多言语文本转语音 (TTS) 音频。它还可以原生调用 Google Search、代码行动以落第三方用户定义的函数等工具。

Project Astra：为 Google Glasses 预备的模型，拥有有限记忆？

Google 此次还重点引见了 Project Astra，为其推出了以下改良：

·更流利的对话：Project Astra 如今可以在多种言语和混合言语之间启动对话，并且能够更好地了解不同口音和生僻单词。

·新工具的经常经常使用：借助 Gemini 2.0，Project Astra 可以经常经常使用 Google Search、Google Lens 和 Google Maps，从而在日常生活中更好地发扬助手作用。

·更强的记忆力：我们增强了 Project Astra 的记忆才干，同时确保你可以掌控对话。如今，它最多可以记住长达 10 分钟的会话内容，并且可以回想起过去与它启动的更多对话，以便为您提供更好的特性化服务。

·更低的提早：借助新的流式处置技术和原生音频了解才干，该智能体能够以近于人类对话的提早来了解言语。

Google Astra 是 Google 为了眼镜项目所做的前瞻项目。

从Meta 和 Ray-ban 的协作眼镜末尾，国际外的不少公司，曾经又在重新探求眼镜作为新一代智能配件的潜力。

此次 Google 严重更新之一，是记忆才干。在外网采访中，DeepMind 的 CEO Demis Hassabis 表示，在 Gemini 1.5 时代，外部测试中，曾经将其上下文窗口扩充到了 1000 万个 token 以上。目前曾经模型简直可以做到有限记忆。

但是代价就是速度。记忆越长，搜寻相关记忆的本钱越高，速度越低。不过 Demis Hassabis 以为，接上去相当短的时期内，我们将真正拥有有限长的上下文。

而这关于 Google 真正想做的助手而言是极端关键的。Demis Hassabis 描画未来全球：「你在电脑上经常经常使用这一助手，然后你走出家门，戴上眼镜，或许经常经常使用手机，它不时都在。它能够记住会话以及你想要做什么，真正特性化。我们人类无法记住一切事情，而AIvu u会记住一切事情，来给你以灵感和新的规划。」

Agent 时代已来？

从去年末尾，就陆续有人指出 Agent 是 AI 展开的未来。

不过，在过去一年中，Agent 这个词的经常经常使用相对比拟寂静，甚至有时辰被偷换概念当成 AI 运转来经常经常使用。

但是在往年年末，我们终于末尾看到了相对可喜的进度。

首先是 Anthropic，推出电脑经常经常使用的 Agent 方式。

国际的智谱 AI，也推出了一个手机 Agent 替用户操作微信等 App 的的演示视频。

明年的 OpenAI 与苹果协作的 Apple Intelligence，目前依然不确定全貌。很多人等候它将让许多用户第一次性性在手机上体会到方便的 Agent 性能终究能如何协助我们优化消费力。

而如今我们又看到 Google 推出的阅读器 Agent 和安卓手机上的 Agent 经常经常使用演示。

Agent 技术依然面临诸多应战。人们会担忧误操作或许带来的安保隐患，会担忧隐私，会担忧一系列风险。

但同时，关于普通用户而言，Agent 才是最具「AI 感」的技术。全智能的义务成功，像魔法普通，不要求任何技术背景，直接就能优化任务效率和经常经常使用体验。

Agent 才干的优化，也为一个新的智能配件真正进入人们生活打下了基础——只需收回语音指令，眼镜能直接智能成功部分义务的时辰，许多义务才会逐渐从手机转移至新的智能配件终端。

或许真的如 Google AI Studio 的产品担任人 Logan Kilpatrick 今天早些时辰所言：未来，是 Agent 的时代。