2.0 谷歌公布新一代AI模型Gemini Flash (谷歌go)

admin1 9个月前 (12-12) 阅读数 18 #美股

周三，谷歌(GOOGL.US)公布了Gemini 2.0系列人工自动模型的第一个版本。该模型被称为Gemini 2.0 Flash，其聊天版本可供全球用户经常经常使用，而具有文本到语音和图像生成性能的实验多方式版本则可供开发人员经常经常使用。

谷歌表示，这是他们迄今为止最弱小的人工自动模型，“专为自动体时代设计”，并同时引见了多个自动体运转(AI Agent)。关于Gemini 2.0模型，谷歌表示会先将开通给开发者以及受信任的测试人员，并将其整合到产品中。Gemini 2.0基于谷歌定制的配件第六代TPUTrillium构建而成。谷歌表示，TPU为Gemini2.0的训练和推理提供100%算力支持。

谷歌首席行动官Sundar Pichai在一份声明中表示：“假定说Gemini 1.0是关于组织和了解信息，那么Gemini 2.0是关于让信息变得更有用。”

目前谷歌完全对外开通的新模型是Gemini 2.0 Flash体验版，这是谷歌的主力模型，具有低延迟特性。与此前的1.5 Flash版本相比，Gemini 2.0 Flash在相同加快的照应时期下性能进一步增强。谷歌提到，2.0 Flash在关键基准测试中甚至跨越了此前的旗舰模型1.5 Pro，其速度是1.5 Pro 的两倍。

同时Gemini 2.0 Flash还具有新性能，除了能够支持图片、视频和音频等多模态输入，Gemini 2.0 Flash可以支持多模态输入，例如可以直接生成图像与文本混合的内容，以及原生生成可控的多言语文本转语音(TTS)音频。它还可以原生调用Google Search、代码行动以落第三方用户定义的函数等工具。

作为提供应开发者的体验版模型，Gemini 2.0 Flash 如今可以经过Google AI Studio和Vertex AI中的Gemini API失掉，一切开发者均可经常经常使用多模态输入和文本输入。该产品将于明年1月片面上市，谷歌称届时将推出更多型号。

Gemini 2.0系列模型代表了谷歌在科技行业竞争日益剧烈的人工自动竞赛中的最新努力。其竞争对手包括微软(MSFT.US)和Meta(META.US)，以及OpenAI等初创公司。

值得留意的是，除了最新公布的Gemini 2.0 Flash，在公布产品的同时，Sundar Pichai在X上着重提到了自动体Project Astra，以为其“展现了通用AI助手的曙光”。

据悉，Project Astra是谷歌最后在5月的I/O大会上初次对外公布的AI助手，彼时关键是对标OpenAI的GPT-4o，其关键性能包括实时语音和视觉处置，能够经过手机或谷歌眼镜启动跨文本、音频、视频的多模态实时推理。谷歌在此次的博客中将其称为“经常经常使用多模态了解理想全球的自动体”。

关于此次正式公布的Project Astra，谷歌表示，它能够流利地在多种言语和混合言语之间启动对话，并且能够了解不同口音和生僻单词。此外，借助Gemini 2.0，Project Astra可以使Google Search、Google Lens和Google Maps，从而在日常生活中发扬助手的作用。

谷歌增强了Project Astra的记忆才干，这一助手目前可以记住长达 10 分钟的会话内容，并且可以回想起过去与它启动的更多对话，能提供特性化服务。

谷歌表示，AI自动体在理想中的运转是一个令人振奋且充溢或许性的研讨范围，团队正在探求这个全新的范围，并开收回了一系列原型，协助人们成功义务。除了Project Astra的更新版，这次谷歌公布的自动体还包括：成功复杂义务的自动体Project Mariner，能够协助开发者的编码自动体Jules，以及游戏和其他范围的自动体。

Google Veo；Gemini Flash；GPT-4o 在 Needle in a Needlestack 基准测试中优于其他LLM

Google VeoVeo 是 Google 推出的最先进视频生成模型，能生成高质量、1080p 分辨率的视频，长度超一分钟，掩盖各种电影和视觉品格。该模型经过精准捕捉文本提示的纤细差异和语气，提供史无前例的创意控制，支持延时拍摄和空中拍摄等元素。基于多年生成视频模型研讨，应用潜在分散变换器等技术，坚持视觉分歧性。 Veo 带有水印和安保过滤器，以担任任地经常使用，听取创作者和电影制造人反应，以惠及更普遍的创意社区。 Gemini FlashGemini 是一个 AI 模型家族，包括多个版本（1.0 Ultra、1.5 Pro、1.5 Flash），在通用言语了解、代码生成、数学推理、迷信推理、多言语翻译、视觉推理、语音识别、视频问答等范围表现出色。 Gemini 1.5 Pro 版本通常在不同基准测试中表现出最强性能，估量于 2024 年 2 月发布。 Gemini 在 AI 义务上的初级性能概述见其文档。 GPT-4o 在 Needle in a Needlestack 基准测试中的优势GPT-4o 在权衡大型言语模型对上下文窗口信息关注度的 NIAN 基准测试中表现出色，优于其他 LLM。文章比拟了 GPT-4 Turbo、Claude-3 Sonnets、Mistral 模型和 GPT-3.5-Turbo，在较短提示下，GPT-4o 成功了简直完美的性能，屡次重复目的打油诗能清楚提高性能。 Ilya Sutskever 分开 OpenAIIlya Sutskever 最终分开 OpenAI，人们对其分开面前要素启动了猜想。有人以为，他试图推翻 OpenAI 指导层，造成了这一结果。人工智能未来轨迹与英伟达股票表现的争议，以及对 OpenAI 指导力和文明的不同看法，使人们对领先人工智能初创生态系统的可继续性发生疑心。全球上最有才气的人文本中提到的 Jodie Chiffey 被描画为普遍主题的专家，但在作者看来，这或许是捏造的角色，目的是经过搜索引擎优化和低质量内容发生联属营销支出。作者对此类网站和操纵性角色的激增表示绝望，以为这造成了“死亡互联网”现象，强调要求转向更验证的在线身份来处置疑问。 Glider：开源电子墨水监视器，低延迟重点Glider 是一款开源电子墨水监视器，旨在成功低延迟。文档片面概述了电子墨水显示技术、不同类型屏幕、技术规格和驱动方式，以及经常使用公用控制器与微控制器驱动电子墨水显示器的优势与缺陷。此外，它还掩盖了黑色电子墨水屏幕、颤抖技术以及电子墨水面板代际差异等主题。频域表示用于隐藏图像嵌入该文档讨论频域表示在图像紧缩中的运行，解释频域作为信号数学表示的可逆性和与空间域的对称性。作者经过将猫图像隐藏在另一张图像的频域内，并证明即使经过有损 JPEG 紧缩也能恢复猫，展现频域用于信息隐藏的幽默属性和运行。 Model Explorer：直观和分层模型可视化工具Model Explorer 是一款可视化工具，协助开发者剖析和优化部署在边缘设备上的机器学习模型。该工具提供模型转换比拟、量化疑问识别和不同配件减速器性能剖析性能。 Model Explorer 支持本地运转和 Colab 笔记本集成，减速边缘设备上机器学习模型部署环节。新的 APT 3.0 求解器新的 APT 3.0 求解器（代号为 solver3）采用全新的回溯依赖性求解算法，将选择推延到尽或许晚。从空包末尾，加入手动装置的包，智能装置以满足依赖相关。该求解器经常使用多种技术推延决策，包括标志依赖相关、优先级排序和提取公共依赖相关。求解器构建部分蕴涵图，方案实施抵触驱动的子句学习以提高回溯性能。与经典 APT 求解器相比，新解算器在保管手动装置包、更改智能删除行为以及引入新选项 --no-strict-pinning 方面有所创新。

谷歌结合开创人布林亲身“挽救”Gemini口碑：供认外部测试不充沛，称疑问改善了至少80%

谷歌结合开创人谢尔盖·布林在一场黑客马拉松活动上就其公司旗下大模型Gemini 1.5引发的种族疑问启动了回应。他供认了外部测试的缺乏，并表示团队已将该疑问改善了至少80%。布林强调Gemini 1.5 Pro模型在图像生成上的疑问源于测试不充沛，同时供认模型中存在尚未完全了解的部分，或许造成输入倾向性。他奖励群众尝试新版本，以观察改良效果。在讨论多模态开展时，布林提到谷歌对视频聊天技术的兴味，并提到了AI在游戏中的潜力，尤其是增强NPC的智能和交互性。他还分享了自己对Gemini 1.5 Pro长上下文处置才干的等候，以为这将带来史无前例的处置疑问的才干。关于AI的了解，布林以为虽然我们或许无法立刻了解一切模型的任务原理，但经过火析模型的训练和经常使用，研讨人员正在努力揭开其奥秘面纱。他还提到了“递归自我完善”的概念，暗示AI的自我改良或许是一个未来的方向。关于AI的定价疑问，布林表示，鉴于模型的适用性及其带来的效率优化，他以为多少钱不会清楚下跌，而且随着技术优化，本钱效益将继续提高。他还提到，虽然手机等终端设备上运转模型的本钱较高，但思索到其便利性和性能，这是值得思索的。在医疗保健范围，布林以为AI将在特性化医疗服务和药物发现中发扬关键作用，虽然目前还有局限性。他还提到了非Transformer架构的研讨，暗示未来或许有新的架构打破来改良推理和规划。关于AR眼镜项目，布林供认自己在谷歌眼镜上的决策有误，但表示仍对轻巧显示设备持开放态度，并以为Gemini模型或许与其他产品如谷歌地图和AR技术结合，带来新的或许性。总的来说，布林的演讲着重于改良、了解AI的潜在运行和应战，以及对未来技术开展的失望态度，同时强调了对AI伦理疑问的关注，特别是关于虚伪信息的生成和检测。

谷歌AI技术再退化，“AI超级全家桶”引领数字智能进入新时代

谷歌在近期科技盛会上，仰仗一系列AI驱动的新产品和性能，安全了其在人工智能范围的指导位置。在2024年Google I/O开发者大会上，谷歌发布了十余项更新及新品，展现了其在AI技术上的深沉积聚，并为行业开展指引了方向。此次，谷歌推出了AI搜索引擎，大幅优化了搜索体验。用户可经过AI技术取得愈加直观和特性化的搜索服务。 Android用户甚至可以经过手势取得即时答案。 AI搜索引擎的多步骤推理和复杂查询处置才干，将提供更精准的搜索结果，进一步安全谷歌在搜索范围的位置。在AI搜索的基础上，谷歌发布了AI Overviews性能，能对搜索结果启动智能总结，提供AI生成的答案。这是首个从Google搜索实验室毕业的AI性能，美国首发，方案全球扩展，估量年底前服务超越10亿用户。谷歌的AI技术在图像、音乐和视频范围也成功了打破。 Project Astra项目经过手机摄像头识别物体并回答相关疑问，展现了AI在视频范围的潜力。 Imagen3模型优化了文生图性能的准确性和图像质量，Veo视频生成模型则能生成高质量的1080p视频，这些创新在内容创作和多媒体处置方面具有庞大潜力。数字经济运行通常专家骆仁童博士对谷歌的发布会给予了高度评价，称其AI搜索引擎发布是AI技术范围的严重打破。从AI搜索到多模态信息处置，再到本地运转的机载模型，谷歌的创新不时拓展AI技术边界。在配件方面，谷歌发布了第六代TPU芯片Trillium，其计算性能是上一代的4.7倍，节能67%，为AI运行提供更弱小的计算支持。同时，发布了多个版本的Gemini模型，顺应不同运行场景。下一代开源大模型Gemma 2也亮相，参数量高达27B，展现了谷歌在AI范围的实力。谷歌的这些更新掩盖了搜索引擎、移动操作系统等范围，还触及公用AI模型和配件减速器的全方位开展。这些创新优化了用户体验，对整个行业发生了深远影响。 AI技术的加快开展正在推进数字经济的转型，谷歌的创新将减速这一进程。经过将AI技术融入搜索引擎、图像和视频生成等范围，谷歌正引领AI驱动的技术反派。谷歌在AI范围的继续投入和创新，不只展现了其技术实力，也为整个科技行业提供了新的方向。置信随着AI技术的提高，数字经济将愈加智能化、特性化，谷歌的创新将为这一革新提供弱小动力。