谷歌推出 Gemini，希望该 AI 模型能够击败 GPT-4-ChatGPT国内镜像中文交流-IntelliRealm

近十年来，谷歌一直是一家“人工智能优先的公司”。现在，ChatGPT 开启 AI 时代已经一年了，它终于迈出了一大步。

谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）表示，这是谷歌人工智能新时代的开始：双子座时代。Gemini 是 Google 最新的大型语言模型，Pichai 在 6 月份的 I/O 开发者大会上首次透露了该模型，现在正在向公众推出。根据 Pichai 和 Google DeepMind 首席执行官 Demis Hassabis 的描述，这是人工智能模型的巨大飞跃，最终将影响几乎所有的 Google 产品。“此时此刻，最重要的事情之一就是，”皮查伊说，“你可以研究一项基础技术并使其变得更好，然后它会立即应用到我们的产品中。”

Gemini 不仅仅是一个单一的人工智能模型。有一个名为 Gemini Nano 的更轻版本，旨在在 Android 设备上本地离线运行。有一个名为 Gemini Pro 的更强大版本，它将很快为许多 Google AI 服务提供支持，并且从今天开始成为 Bard 的支柱。还有一个功能更强大的模型，称为 Gemini Ultra，它是 Google 迄今为止创建的最强大的 LLM，似乎主要是为数据中心和企业应用程序设计的。

谷歌目前正在通过多种方式推出该型号：Bard现在由 Gemini Pro 提供支持，而 Pixel 8 Pro 用户将通过 Gemini Nano获得一些新功能。（Gemini Ultra 将于明年推出。）从 12 月 13 日开始，开发者和企业客户将能够通过 Google Generative AI Studio 或 Google Cloud 中的 Vertex AI 访问 Gemini Pro。Gemini 目前仅提供英语版本，其他语言显然很快就会推出。但皮查伊表示，该模型最终将被整合到谷歌的搜索引擎、广告产品、Chrome 浏览器等世界各地。这是谷歌的未来，而且现在已经到来。

OpenAI在一年零一周前推出了 ChatGPT ，该公司和产品立即成为 AI 领域最大的事情。现在，谷歌——这家公司创造了当前人工智能热潮背后的大部分基础技术，近十年来一直称自己为“人工智能优先”组织，但它显然对 ChatGPT 的出色表现和令人尴尬的措手不及。 OpenAI 的技术以多么快的速度占领了整个行业——终于准备好反击了。

那么，让我们来谈谈重要的问题，好吗？OpenAI 的 GPT-4 与 Google 的 Gemini：准备好了，开始吧。谷歌显然已经考虑这一点有一段时间了。“我们对系统进行了非常彻底的分析，并进行了基准测试，”哈萨比斯说。Google 运行了 32 个完善的基准测试来比较这两个模型，从广泛的整体测试（如多任务语言理解基准测试）到比较两个模型生成 Python 代码的能力。“我认为我们在 32 项基准中的 30 项中大幅领先”，哈萨比斯说道，脸上带着微笑。“其中一些非常狭窄。其中一些更大。”

在这些基准测试中（实际上大部分都非常接近），Gemini 最明显的优势来自于它理解视频和音频并与之交互的能力。这很大程度上是设计使然：多模式从一开始就是 Gemini 计划的一部分。谷歌还没有像 OpenAI 创建DALL-E和Whisper那样训练单独的图像和语音模型；它从一开始就建立了一个多感官模型。“我们一直对非常非常通用的系统感兴趣，”哈萨比斯说。他对如何混合所有这些模式特别感兴趣——从任意数量的输入和感官中收集尽可能多的数据，然后给出尽可能多的响应。

目前，Gemini 最基本的模型是文本输入和文本输出，但更强大的模型（如 Gemini Ultra）可以处理图像、视频和音频。哈萨比斯说，“它会变得更加普遍”。“仍然有动作和触摸之类的东西——更像是机器人类型的东西。” 他说，随着时间的推移，双子座将获得更多的感官，变得更有意识，并在这个过程中变得更加准确和扎根。“这些模型只是更好地了解周围的世界。” 当然，这些模型仍然存在幻觉，并且仍然存在偏见和其他问题。但哈萨比斯说，他们知道的越多，他们就会做得越好。

不过，基准只是基准，最终，对 Gemini 功能的真正测试将来自于日常用户，他们希望使用它来集思广益、查找信息、编写代码等等。谷歌似乎特别将编码视为双子座的杀手级应用程序；它使用了一种名为 AlphaCode 2 的新代码生成系统，据称该系统的性能优于 85% 的编码竞赛参与者，而原始 AlphaCode 的这一比例为 50%。但皮查伊表示，用户会注意到模型涉及的几乎所有方面都有所改进。

对于谷歌来说同样重要的是，Gemini 显然是一个效率更高的模型。它是在 Google 自己的张量处理单元上进行训练的，比 Google 之前的模型（如 PaLM）运行速度更快、成本更低。除了新模型之外，谷歌还推出了新版本的 TPU 系统TPU v5p，这是一种设计用于数据中心训练和运行大型模型的计算系统。

在与皮查伊和哈萨比斯交谈时，很明显，他们认为 Gemini 的推出既是一个更大项目的开始，也是其本身的一步改变。Gemini 是 Google 一直在等待的模型，也是它多年来一直在构建的模型，甚至可能是它应该在 OpenAI 和 ChatGPT 接管世界之前就准备好的模型。

谷歌在 ChatGPT 推出后宣布了“红色代码”，并一直被认为正在奋起直追，但似乎仍在努力坚守其“大胆和负责任”的口号。哈萨比斯和皮查伊都表示，他们不愿意为了跟上步伐而走得太快，尤其是当我们越来越接近人工智能的终极梦想时：通用人工智能，这个术语指的是能够自我改进、比人类更聪明的人工智能，并且准备改变世界。“当我们接近通用人工智能时，事情将会有所不同，”哈萨比斯说。“这是一种活跃的技术，所以我认为我们必须谨慎对待它。谨慎但乐观。”

谷歌表示，它通过内部和外部测试以及红队，努力确保 Gemini 的安全和责任。皮查伊指出，确保数据安全性和可靠性对于企业优先产品尤为重要，这是大多数生成式人工智能赚钱的地方。但哈萨比斯承认，推出最先进的人工智能系统的风险之一是它会出现无人能预测的问题和攻击向量。“这就是为什么你必须发布一些东西，”他说，“以便观察和学习。” 谷歌 Ultra 的发布速度特别慢；哈萨比斯将其与受控测试版进行比较，为谷歌最有能力、最不受限制的模型提供“更安全的实验区”。基本上，如果双子座内部存在破坏婚姻的另类人格，谷歌会试图在你之前找到它。

多年来，皮查伊和其他谷歌高管一直对人工智能的潜力充满诗意。皮查伊本人不止一次表示，人工智能对人类的变革将比火或电更大。在第一代中，双子座模式可能不会改变世界。最好的情况是，它可能会帮助谷歌在构建伟大的生成人工智能的竞赛中赶上 OpenAI。（最坏的情况是，巴德仍然无聊和平庸，而 ChatGPT 不断获胜。）但皮查伊、哈萨比斯和谷歌的其他人似乎都认为这是真正伟大事业的开始。网络使谷歌成为科技巨头；双子座可能更大。