k8凯发谷歌背后埋伏着open ai的幽灵-k8凯发(中国)天生赢家·一触即发

k8凯发谷歌背后埋伏着open ai的幽灵

2024-07-04 22:07:54
浏览次数:
返回列表

  k8凯发谷歌背后埋伏着open ai的幽灵北京时间5月14日凌晨,openai发布端到端多模态ai大模型gpt-4o,酷似科幻电影《her》的ai语音对话迅速成为关注焦点。

  24小时后,携新版gemini ai大模型等产品,谷歌在北京时间5月15日凌晨1点的i/o 2024大会上重振旗鼓,试图在ai赛道上重新夺回主动权。

  “我猜想现场一定有人想数一数今天的发布会上有多少次提到ai。”在i/o发布会现场,谷歌ceo桑德拉·皮查伊打趣道,观众席内响起一片笑声。

  这个答案由谷歌ai现场完成统计,“一共提到了120次。”皮查伊说。话音刚落,屏幕上的数字跳到了121次。

  由皮查伊开场,谷歌在发布会上先后介绍了他们在软件、硬件等方面的ai布局。可以说,关注前沿发展的谷歌,在人们今年所能见到的ai应用方向上均有涉猎。

  作为基础架构的大模型gemini发布1.5 pro型号,再次打破100万tokens(文本中最小语义单元)的纪录,原版相当于一次可以处理长达1500页文本、30000行代码或是长达1小时的视频,现在新模型将上下文窗口扩大一倍,达到200万tokens。

  聚焦于自有模型的能力突破之外,谷歌还面向开发者推出了轻量级模型gemini 1.5 flash,相较于旧有模型,gemini flash实现了低延迟响应并降低使用成本,其100万tokens只要0.35美元。比前一天发布的gpt-4o更加便宜。

  在多模态模型布局上,谷歌一口气发布了图片生成模型imagen和视频生成模型veo。其中,veo支持生成60秒以上的1080p视频,它被人们视为对标open ai的视频生成模型sora。

  “生成视频的难点在于解决物品在空间中的移动,并且随着时间的推移需要保持一致性。”谷歌deepmind负责人道格说。“ai发展15年,我们就知道它会改变一切,现在已经到了实现它的时刻。”

  现场展示中,veo发布了多个演示视频:在草地上奔跑的猎豹、穿梭在星际之间的宇宙飞船等。在演示片中,谷歌展示了他们和影视从业者的合作实践。初步看起来,它拥有不输于sora的流畅体验,但同样不对外开放使用。

  让人眼前一亮的是project astra,在演示视频中,通过手机和ar眼镜的联合使用,ai能够在目之所及的范围内完成和用户的实时交互。它不仅成功识别并向用户解释了圈出来的硬件,还能帮助用户在桌子上找眼镜、解答白板上的题目。project astra也被视为gpt-4o的对手。

  备受关注的是,在这次发布会上,谷歌正式宣布推出ai搜索功能,目前仅支持向美国地区开放。在演示中,谷歌的ai搜索在解决复杂问题上应用“多步推理”,以往需要搜索十次才能获得的答案,合并到一个问题解决。比如一次性纳入用户的通勤和时间安排,通过ai搜索为用户推荐适合的瑜伽馆。

  从chatgpt开启新一轮人工智能浪潮的时候,它就给了谷歌重重一击。自gpt-4发布之后,人们关注的目光更是开始向open ai倾斜。

  野心勃勃的open ai ceo萨姆·阿尔特曼也将谷歌视为头号竞争对手。从宣传时间的选择到产品发布战略,open ai的枪口多次瞄向谷歌。

  2月15日,gemini 1.5 pro 发布。同一天,open ai发布sora,虽然目前仍然处于无法测试使用的状态,但sora实现文生视频的流畅性和画面表现震惊科技圈。对比之下,gemini的重大更新几乎无人问津。

  本次,open ai刚刚举办的春季发布会同样是一次有备而来的伏击。open ai将发布会时间由5月9日挪到了5月13日,刚好是谷歌举办i/o发布会的前一天。

  一是轻量级模型的发布,open ai推出的gpt-4o同样以低成本、快速响应的方式实现, 凯发k8国际首页登录官网介绍,gpt-4o达到了媲美gpt-4 turbo的各项能力,但成本仅为后者的一半。

  另一个是ai助手,open ai cto米拉·穆拉蒂现场演示了如何和手机上运行的模型gpt-4o完成交谈。“它对人类的情绪、语气理解得十分自然精准,如同与一个真正的人类朋友或助理在聊天。”

  在这段实时演示中,gpt-4o准确识别了人类的情绪,它会开玩笑,调侃人类的呼吸声音太大;它能依照用户要求,更改说话的语气,比如用更夸张的戏剧腔代替冰冷的电子音;它还能实现同声传译,准确地把意大利语翻译成英文。

  正如阿尔特曼在x中提前预告的那样,科幻电影《her》中的剧情走入现实,人类和ai实时对话的设想已经具备实现的雏形。

  为了防御对手,谷歌曾经一个月发布5次大模型。今年2月,谷歌曾先后发布gemini功能更新、推出ultra版本、发布gemini 1.5 pro,并发布开源模型gemma和世界模型genie。

  但这些不痛不痒的更新不仅没有起到防御作用,甚至还引发了负面反馈。谷歌内部流传出的图片曾毫不留情地吐槽,“连内部员工都记不住这些大模型的名字”。

  回顾过往,人工智能曾在2014年、2017年多次引起科技界的关注,而在几次浪潮中,谷歌都扮演着先驱者的角色。

  追溯至2011年,谷歌就已经在公司内部成立了“谷歌大脑”(google brain),专注于深度学习和神经网络研究,目标是“让机器也能拥有理解和学习的能力”。

  2014年,谷歌斥资4亿美元收购英国ai公司deepmind,进一步夯实了在深度学习领域的实力,孕育出了具有里程碑意义的alphago(阿尔法围棋)。次年,谷歌将机器学习系统tensorflow开源,并启动研发ai芯片tpu,在算力层面为后续训练大模型打下硬件基础。

  2016年,皮查伊在当年的i/o开发者大会上宣布,将ai置于公司首要发展战略,正式向ai first转型。在提出transformer架构,并发布lamda大模型后,从搜索、助理到pixel手机、nest家居等,谷歌开始全面把ai能力植入产品线。

  谷歌更倾向于让ai扮演一个辅助角色,对ai的态度偏保守。随着时间轴滑向2023年,谷歌的风头慢慢被open ai压过一筹。谷歌的前瞻性布局和先发优势,被open ai的疯狂打败了。

  在技术成熟的情况下,后起创业公司open ai使用的核心技术正是由谷歌发明的。gpt的“t”就来源于2017年谷歌发布论文中研究的transformer架构。open ai烧了大把的钱,砸出了训练大模型的可行方向。

  chatgpt在2022年底发布之时,谷歌可能也注意到了这家初创公司,但未能引起足够的重视和警惕。2023年1月,谷歌ai负责人jeff dean在一个内部会议中表示,虽然谷歌拥有做ai产品的技术和能力,但和小型初创公司相比,谷歌做出决策必须更加保守。

  直到2023年2月,chatgpt引起巨大反响,被视为冲击搜索引擎的新出口。谷歌匆忙应战,推出大模型bard,却因常识性失误引发口碑崩盘——在发布会现场,bard将智利超大望远镜首次拍摄系外行星的功劳记在了詹姆斯·韦伯太空望远镜上,间接引发谷歌母公司市值暴跌1000亿美元。

  在之后的表现中,谷歌逐渐消磨掉了人们的信任。gemini ultra版本发布一天后被质疑造假,有内部员工表示“这(视频)是不切实际的”,谷歌最后也承认演示视频是经剪辑制作的效果。

  多次犯下致命失误后,谷歌ai产品的信服力越降越低。谷歌正在尽力追赶并弥补过失。从这次发布会的动作来看,谷歌的策略调整为:以大而全的方式布局所有ai细分赛道的机会。

  对于算力、算法和人才储备充足,技术功底深厚的谷歌而言,借助于自家生态的优势,谷歌将gemini集成在方方面面,凭借数据积累,谷歌自有生态构建的护城河壁垒,是open ai所无法取代的。

  “谷歌最坚固的护城河是分销,gemini 不必成为*的模型k8凯发 凯发k8国际首页登录官网,也能成为世界上最常用的模型。”英伟达高级研究科学家范麟熙(jim fan)在x上评价。

搜索

网站地图