推广

tip
推荐以下翻墙必备工具
推荐 链接 教程
IEPL国际专线VPN 注册链接 IEPL内网级专线机场推荐、无视墙敏感时期、解锁ChatGPT、奈飞流媒体
青柠翻墙VPN 注册链接 自用机场推荐,翻墙必备、解锁ChatGPT、奈飞流媒体
👉长桥证券开户👈 文字教程 【视频教程】-长桥证券新加坡版开户入金教程:港美股永久免佣+0门槛开户
华侨银行OCBC开户 文字教程 【视频教程】-手把手教你开通新加坡华侨银行OCBC账户-保姆级教程
美国虚拟信用卡 注册链接 美国虚拟信用卡,轻松搞定ChatGPT4 Plus会员订阅

背景

今天的视频我们来讲讲Google刚刚发布的地表最强多模态AI模型Gemini 1.5 Pro,可以支持千万级Token,秒杀GPT-4。

home

首先说一下,目前我们能用到的Gemini AI模型,是基于Gemini 1.0。

Gemini是由Google Bard AI聊天机器人改名而得的,对标的是ChatGPT 3.5

而同时为了对抗OpenAI的GPT-4,谷歌稍后发布了Gemini Ultra 1.0。和GPT-4一样,Gemini Ultra版本更加强大,同时也一样需要付费使用。

Gemini 1.5 Pro

而在Gemini 1.0发布后的一个半月之后,Google重磅发布了Gemini 1.5 Pro,而Gemini 1.5对Gemini 1.0 虽然只是半个版本号的变化,但是在性能方面,却具有非常大的改进。

我们来看一下官方Token数据对比。

token

  • Gemini 1.0 Pro能处理 32K Token
  • GPT-4能处理128K Token
  • Claude 2.1 能处理 200K Token
  • 而Gemini 1.5 Pro直接就提升到1M

一百万Token有多强大呢?

它可以一次性处理1小时视频,11小时的音频,三万行代码和大于七十万的单词,更是在测试中达到了一千万的Token。

有这么大的数量的Token到底有什么意义呢?模型的Token越大,它能处理的信息就越多,它的输出更加连贯、相关和实用。

Sora视频

我们都知道,前段时间OpenAI Sora生成的视频惊艳了很多人,我们来看下它生成的视频,的确非常惊艳。 那么我们把Sora生成的视频交给Gemini来处理,看看它能不能分析出来什么。

sora

网上将一条 Sora 生成的视频发给 Gemini 1.5 Pro,让其点评一下。Gemini 1.5 Pro 犀利指出了视频中不合逻辑的地方:

首先,雪花飘落,但樱花盛开。樱花通常在天气温暖而没有雪的春天盛开。其次,雪以非常均匀的方式下落,这并不是雪在现实生活中下落的方式。第三,尽管下着大雪,视频中的人们没有穿任何冬季衣物。总的来说,这个视频在视觉上很吸引人,但不一致之处表明这不是一个真实场景。

不得不说,就分析视频AI痕迹的准确度来看,Gemini的回答非常切题,说明它的识别和理解能力确实非常出色。

Sora视频2

与此同时,The Rundown AI创始人在Twitter上测试了猫在丛林里漫步的视频。大家可以看下视频相当真实。

sora2

对此,Gemini 1.5给出的评价是:

这段视频很有可能是由人工智能(AI)创造的,但要确定地说还是有些困难。 一些细节似乎表明这段视频是真实的,例如猫的动作自然流畅,光影效果也相当逼真。 然而,也有一些细节让人怀疑,比如猫的眼睛异常放大,毛皮的质感也过于完美无瑕。

确实Sora生成的视频已经到达了真假难辨的地步,而Gemini的分析也基本到位,有理有据。

测试者直呼“对它的回答感到非常惊讶”。

分析NBA扣篮视频

而The Rundown AI创始人同时也上传了2024年 NBA 扣篮大赛的整个视频,并询问哪个扣篮得分最高。

而Gemini 1.5 凭借其出色的长上下文视频理解能力,能够从14分钟的视频中找到得分最高的完美50分扣篮及其细节!

马克·麦克朗的最后一记扣篮获得了当晚的最高分——50 分满分。他跳过两人,将球轻敲篮板后板,然后用右手完成扣篮。

分析《星际穿越》剧本中的 3 句最鼓舞人心的引语。

「人类诞生于地球,但我们的命运远不止于此。」—— Cooper

这句话深刻地表达了人类探索未知、超越现状的不屈不挠的精神。它提醒我们,我们的潜力不受当前所处环境的限制,我们完全有能力克服挑战,追求更高的目标。

  1. 「爱是唯一能跨越时间和空间,触及我们心灵的力量。」—— Brand

这句话揭示了爱的强大能力,它能够跨越遥远的距离,甚至是时间的界限,将我们紧紧相连。它暗示,爱是宇宙中的一股根本力量,能在逆境中为我们指明方向,带给我们希望。

  1. 「曾经,我们仰望星空,梦想着自己在浩瀚宇宙中的位置。如今,我们却沉溺于眼前的琐事,忘记了自己的远大理想。」—— Cooper

这句话是对好奇心、追求和雄心壮志的重要性的深情提醒。它对比了过去人类满怀希望地探索星辰的时代,与如今忙于应对日常挑战、失去对未来的憧憬的现状。它激励我们重新寻找那份对未知的好奇和对更美好未来的追求。

分析《哈利波特与魔法石》

随后,Rowan Cheung又对Gemini 1.5进行了一些更加极限的测试:

他让Gemini读取了整部《哈利·波特与魔法石》(共741,028个Token)。

Prompt:「请按照时间顺序列出书中最重要的50个(或100个)思想或段落,并对它们的重要性进行1到10的评分。」

完成这个任务耗时4分钟。

从《炼金术士》中提炼男主角的肖像

同时Twitter上也对Gemini 1.5 Pro的图像生成能力进行了测试,把一本5万多Token的炼金术士整本PDF提供给Gemini 1.5,Gemini读懂后获得主角肖像的提示,然后根据提示生成主角的肖像。

avatar

总结

什么是多模态AI模型,顾名思义,是指能够处理多种类型数据(如图像、文本、声音,视频,代码等)的深度学习模型。他能将这些数据通过AI模型处理,生成图像、文本、声音、视频、代码。

而这么多类型的数据是怎么传输给AI模型的呢?就是经过Token,这些 Token 是用于处理信息的基本构建块。

ai_token

最初的

  • Gemini 1.0 的Token是32K
  • GPT-4 增加到 128K
  • Claude 2.1 是 200K
  • 而Gemini 1.5 Pro则直接增加到一百万。

是gemini 1.0的32倍。也远远超过了GPT-4和Claude 2.1

这意味着 Gemini 1.5 Pro 可以一次性处理大量信息——包括:

  • 1小时的视频
  • 11小时的音频
  • 超过 30000 行代码的代码库
  • 超过 700000 个单词。

然后在极短的时间内根据需求生成用户所需的文本,图片,音频,视频,代码等。

所以不得不说,Gemini 1.5 Pro把AI卷出了一个新的高度。那么Gemini 1.5 Pro怎么使用呢?

根据官方的描述,Gemini 1.5 Pro目前开放128K Token的标准版,现在开始,一小部分开发人员和企业客户可以通过AI Studio的私人预览版使用100 万个Token的上下文窗口。

而如果要使用Gemini 1.5 Pro,点击下方的 申请候补名单 链接试用吧。

视频教程

本篇博客的视频教程首发于 Youtube:科技小飞哥,加入 电报粉丝群 获得最新视频更新和问题解答。