OpenAI挖走谷歌DeepMind三名初级工程师 (openai官网中文版)
据Wired报道,OpenAI从竞争对手谷歌DeepMind那里挖走了三名初级计算机视觉和机器学习工程师。OpenAI高管在外部会议上通知员工,Lucas Beyer、Alexander Kolesnikov和Xiaohua Zhai将研讨多模态人工自动。三人都将在苏黎世新开设的OpenAI办公室任务。
丢弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法
AIxiv专栏,机器之心发布学术、技术内容的栏目,过去几年内报道了2000多篇内容,掩盖全球高校与企业顶级实验室,促进了学术交流与传达。 假设您有优秀任务希望分享,欢迎投稿或咨询报道。 刁海文,大连理工大学博士生,卢湖川教授的门生,现于北京智源人工智能研讨院实习,王鑫龙博士为其导师。 研讨兴味涵盖视觉与言语、大模型高效迁移以及多模态大模型。 以后,多模态大模型研讨如火如荼,国际外相继推出炙手可热的模型,如GPT-4o(OpenAI)、Gemini(Google)、Phi-3V(Microsoft)、Claude-3V(Anthropic)与Grok-1.5V(xAI)等,国际GLM-4V(智谱AI)、Step-1.5V(阶跃星河)、Emu2(北京智源)、Intern-VL(上海AI实验室)、Qwen-VL(阿里巴巴)等百花齐放。 传统视觉言语模型(VLM)依赖视觉编码器提取特征,再结合大言语模型处置与回答,面临视觉编码器与大言语模型训练分别造成的视觉归结偏置疑问,如受限的图像分辨率、纵横比与视觉语义先验。 随着视觉编码器容量扩展,处置视觉信号效率受限,且找到最佳容量性能变得复杂。 在这样的背景下,前沿设想迅速显现,如Adept AI于2023年末发布Fuyu系列模型,但训练战略、数据资源及设备信息未披露,模型在地下视觉文本评测目的上与主流算法存在清楚性能差距。 先导实验显示,无编码器原生多模态大模型在大规模预训练数据下仍面临收敛速度慢、性能差疑问。 针对应战,智源研讨院视觉团队与大连理工大学、北京大学等高校协作,推出新一代无编码器视觉言语模型EVE。 EVE整合视觉-言语表征、对齐与推理至一致的纯解码器架构,采用精细化训练战略与额外视觉监视,表现与基于编码器的主流多模态方法相当,优于Fuyu-8B。 EVE应用Vicuna-7B言语模型初始化,去除深度视觉编码器,构建轻量级视觉编码层高效无损编码图像输入,与用户言语命令输入至一致解码器。 经过视觉对齐层强化视觉信息编码与表征。 模型亮点包括初始化战略、轻量级视觉编码层设计与视觉对齐层强化。 EVE在多个视觉言语基准测试中优于Fuyu-8B,性能与基于编码器模型相当,处置了输入尺寸灵敏性、部署效率与模态容量婚配疑问。 EVE模型性能随数据规模参与稳如泰山优化,不易过拟合,或许由于一致网络编码与对齐视觉、言语模态更具应战性。 同行专家如英伟达初级研讨员Ali Hatamizadeh、谷歌Deepmind首席研讨员Armand Joulin与苹果机器学习工程师Prince Canuma对EVE架构表示赞赏与兴味。 未来展望,无编码器原生视觉言语模型EVE取得鼓舞人心效果,未来探求方向包括优化训练战略、优化模型照应特定指令才干与扩展模型在视觉言语义务的运行范围。
独家专访谷歌CEO桑达尔·皮查伊:基于我的团体阅历,我不时置信人和兽性
谷歌CEO桑达尔·皮查伊宣布了其公司下一代人工智能模型Gemini 1.0版本的发布,这是在皮查伊多年指导和推进下降生的产品。 皮查伊过去担任Chrome和安卓,以产品痴迷著称。 在2016年担任CEO时,他预测“我们将从移动优先走向人工智能优先的全球”。 自那时起,皮查伊将人工智能融入了谷歌的一切产品中,从安卓设备到云服务。 但是,2022年,OpenAI发布的人工智能模型主导了行业,尤其是DALL-E、GPT-3.5和GPT-4,引发了一场军备竞赛。 Gemini是这场竞争中的新选手,由谷歌DeepMind指导,DeepMind由杰米斯·哈萨比斯指导。 Gemini将首先在聊天机器人Bard上提供,方案于2024年整合到更多谷歌产品线中。 在Gemini发布前,我们与皮查伊启动了深化的讨论,以了解它对谷歌、其产品、人工智能和整个社会的意义。 皮查伊强调Gemini的共同之处在于它是一个从零打造的原生多模态模型,能从文本、音频和代码中学习,展现出弱小的才干。 在32个基准中,Gemini在30个基准上表现出色,特别是在多模态基准方面,显示了清楚的提高。 在MMLU基准中,Gemini打破了90%的分数门槛,这是一个关键的里程碑。 皮查伊表示,Gemini的成功在于它将最终融入谷歌的产品,这将是一个平台转变,比网络或移动范围更大。 皮查伊以为Gemini的打破关键体如今多模态才干上,这将带来越来越多的打破。 Bard的经常使用展现了Gemini的弱小性能,用户能够真正体验到它带来的改良。 当Gemini与Bard结合时,显示出优秀的表现,这预示着模型在理想全球中的运行潜力。 皮查伊对Gemini的发布感到兴奋,并以为这是谷歌迈出的一大步。 关于Gemini的发布,皮查伊反思了与GPT-4发布时学到的阅历。 他以为这远非零和游戏,人工智能的转变具有深远的影响,我们仍处于早期阶段。 皮查伊强调要求在安保范围启动改良,经过研讨模型在理想全球中的运转状况,学习并改良安保技术,确保Gemini的安保性。 他还提到Gemini展现了微调的关键性,经过将模型微调到特定范围,使其优于最先进的模型。 在回应有关模型的局限性,如幻觉和训练数据暴露的疑问时,皮查伊表示这些疑问依然存在,但正在积极研讨处置方法。 他举例展现了如何经过提示提醒模型的训练数据,并强调了在多模态范围,要求慎重推出模型,由于错误用例的或许性更高。 皮查伊以为,处置这些疑问要求时期,但他对技术的提高持失望态度。 皮查伊谈到技术对社会的普遍影响,强调了让技术尽或许普遍地访问的关键性,特别是在移动设备的转变中。 谷歌经过安卓系统让数亿人取得了访问计算机的途径。 皮查伊以为,让人工智能对每团体都有协助是关键,这包括在翻译、洪水预测、言语翻译和医疗等范围运行人工智能。 虽然技术或许会加剧不对等,但关键的是确保技术对每团体都可用,并介入对话,让社会思索并顺应它。 皮查伊对社会如何处置人工智能持技术失望主义态度。 他以为人类将应用技术来造福人类,并强调要求社会制定框架来顺应技术的开展,无论是深度伪造还是任务岗位流失等疑问。 他提到这将是未来十年面临的最大疑问之一,并强调技术的双重性。 在法律环境和公允经常使用疑问上,皮查伊表示谷歌关注确保在契合法律的状况下训练模型,并支持用户选择不让自己的数据被用于训练。 他也提到要求发明一个双赢的生态系统,确保法律框架的开展,同时与内容提供商树立深沉的相关。 关于搜索的未来,皮查伊强调了谷歌的共同价值主张,即协助用户发现和学习新事物,找到答案,同时分享网络的丰厚性和多样性。 即使引入了生成式搜索体验,这个主张也不会改动。 皮查伊以为人们依然追求的是学习的环节,而不只仅是答案,这表现了对高质量内容的追求。 皮查伊表示,随着时期的推移,法律框架将开展起来,谷歌将努力确保与内容提供商树立深沉相关,同时站在法律的正确一边。 他强调了发明一个双赢的生态系统的关键性,让技术随着时期的推移发扬作用。
天赋简史——Diederik P. Kingma与他的Adam优化器
在一次性与实验室同仁的食堂聚餐中,一位专注于随机优化的同伴展现了他所阅读的一篇被援用次数超越18万次的论文,引发了我们的讨论。 我后来有些疑心,但随后核实,确实是Adam优化器的开创之作,其普遍运行于机械臂和机器学习中的优化,尤其是在基础通常范围,被少量援用并不令人异常。 何恺明的大作Deep Residual Learning for Image Recognition曾创纪录,目前援用量超越22万次,而他的影响力相同无法小觑,作为MIT的研讨员,总援用量仅次于深度学习先驱Geoffrey Hinton,后者仰仗2018年图灵奖而备受注目。 原方案并未计划专门引见Diederik P. Kingma,但偶然在Li yanan教员宣布的关于物理人机交互力控制的论文中,也看到了Adam优化器的身影,这让我对Kingma有了更深化的了解。 Kingma的生涯旅程颇为丰厚:2018年至2024年,他在谷歌大脑/DeepMind担任研讨迷信家,主导文本、图像和视频生成模型的研讨;在OpenAI的初创阶段,他作为算法团队的指导者,努力于基础研讨。 他的学术成就清楚,包括变分智能编码器(VAE)、Adam优化器等,尤其是在阿姆斯特丹大学时期,他的博士论文《Variational Inference and Deep Learning: A New Synthesis》更是奠定了他在机器学习范围的基石。 Kingma的创业阅历也值得一提,他于2015年参与OpenAI,此前与他人共同创立了Advanza,并在2016年被收买。 虽然他的名字正式是Diederik,但大家更熟知的是他的昵称Durk。 而他最知名的研讨效果Adam优化器,据2020年的数据显示,曾经成为过去五年内被援用次数最多的迷信论文之一,可以在他的团体主/上找到更多资料。
版权声明
本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。