Google Gemini：有关生成AI应用程序和模型的所有信息

2025年03月07日 16:51发布

2990阅读

Google试图与Gemini（其旗舰AI模型，应用程序和服务）旗起来浪潮。但是什么是双子座？如何使用它？它如何叠加到其他生成的AI工具，例如Openai的Chatgpt，Meta的Llama和Microsoft的Copilot？为了使同步最新的Gemini开发项目变得更加容易，我们将本方便的指南汇总在一起，随着新的Gemini模型，功能和有关Google Google计划的Gemini计划的新闻，我们将继续更新。什么是双子座？双子座是Google长期以来的下一代AI模型家族。由Google的AI Research Labs DeepMind和Google Research开发，它具有多种口味：双子座Ultra，非常大的模型。 Gemini Pro是一个大型模型 - 尽管比Ultra小。最新版本Gemini 2.0 Pro是Google当前的旗舰。 Gemini Flash，较快的Pro的“蒸馏”版本。双子座闪光灯，稍小，更快的versi在双子座闪光灯上。 Gemini Flash Thinky，具有“推理”功能的模型。 Gemini Nano，两个小型型号：Nano-1和功能稍强的Nano-2，旨在离线运行。所有双子座模型均经过培训为本地多式联运的培训 - 即能够与文本一起使用和分析。 Google表示，他们对各种公众，专有和许可的音频，图像和视频进行了预先训练和微调；一组代码库；和文字用不同的语言。这将双子座与Google自己的LAMDA之类的模型区分开来，该模型仅在文本数据上受过培训。 LAMDA无法理解或生成任何内容（例如，论文，电子邮件等），但双子座模型不一定是这种情况。例如，除文本外，Demini Flash和Gemini Pro的最新版本还可以在本质上输出图像和音频。我们将在这里注意到，公共数据的培训模型的道德和合法性，在某些情况下没有数据所有者的知识或同意是模糊的。 Google有一项AI赔偿政策，可以将某些Google Cloud客户置于诉讼中，但该政策包含货车。谨慎行事 - 特别是如果您打算在商业上使用双子座。双子座应用程序和双子座模型有什么区别？双子座是独立的，与网络和移动设备（以前为bard）上的双子座应用不同。 Gemini应用程序是连接到各种双子座型号的客户端，并在顶部将类似于聊天机器人的接口层层。将它们视为Google生成的AI的前端，类似于Chatgpt和Anthropic的Claude应用程序家族。图片来源：Google 双子座在网络上住在这里。在Android上，Gemini应用程序替换了现有的Google Assistant应用程序。在iOS上，Google和Google搜索应用程序是该平台的双子座客户端。在Android上，用户可以提出双子座覆盖层来询问任务关于他们屏幕上的内容的离子（例如，YouTube视频）。按下并持有支持的智能手机的电源按钮或说“嘿Google”召唤覆盖层。 Gemini应用程序可以接受图像以及语音命令和文本（包括PDF之类的文件，从Google Drive上传或导入）并生成图像。正如您所期望的那样，如果您在两个地方都登录了同一Google帐户，则与移动上的Gemini应用程序的对话随身携带到Gemini，反之亦然。双子座高级双子座应用程序并不是招募双子座模型在任务方面的帮助的唯一手段。慢慢地但可以肯定的是，Gemini-Imbud的功能正在进入Google Apps以及Gmail和Google Docs等主食。为了利用其中的大多数，您需要Google One AI高级计划。从技术上讲，Google One的一部分，AI高级计划每月的价格为20美元，并在Google Workspace应用程序中访问Gemini，例如文档，地图，滑梯，床单，开车和见面。它还可以使Google称为Gemini Advanced，这将公司更复杂的Gemini模型带入了双子座应用程序。图片来源：Google Gemini高级用户在这里和那里也获得了其他功能，例如优先访问新功能和模型；直接在双子座中运行和编辑Python代码的能力；并增加了NoteBookLM的限制，这是Google的工具，该工具将PDF变成了AI生成的播客。最近，Gemini Advanced获得了存储功能，该功能存储了用户的喜好，并允许双子座将旧的对话称为当前聊天的上下文。 GEMINI高级独家专辑之一，深入研究，利用“高级推理”的双子座模型来创建详细的简介。为了响应提示（例如，“我应该如何重新设计厨房？”），深入研究制定了多步研究计划，并搜索网络以制定全面的答案。 Gmini在Gmail，Docs，Chrome，Chrome，开发工具等在Gmail中，双子座生活在可以写电子邮件并总结消息线程的侧面面板中。您会在文档中找到相同的面板，它有助于编写和完善内容并集思广益新的想法。幻灯片中的双子座生成幻灯片和自定义图像。 Google中的Gemini跟踪和组织数据，创建表格和公式。 Gemini在Google Maps中，可以在其中汇总有关当地企业的评论，并提供建议，例如如何度过一天来访问外国城市。聊天机器人的范围也扩展到驱动器，它可以汇总文件和文件夹，并提供有关项目的快速事实。图片来源：Google Gemini最近以AI写作工具的形式来到Google的Chrome浏览器。您可以使用它来编写全新的内容或重写现有文本； Google表示，它将考虑您要提出建议的网页。在其他地方，您会在Google的数据库产品，云安全工具和应用程序开发平台（包括Firebase和Project IDX）以及Google Photos（Gemini处理自然语言搜索查询），YouTube（在其中有助于集思广益视频创意）等应用程序中，并满足（在哪里翻译字幕）。 Code Assist（以前是开发人员的二重奏AI），Google的AI驱动辅助工具用于代码完成和生成，正在卸载大量的计算抬高到Gemini。 Google的安全产品也是Gemini支撑的，例如Teant Intelligence中的Gemini，可以分析大部分潜在的恶意代码，并让用户对持续的威胁或妥协指标进行自然语言搜索。双子座扩展和宝石 Gemini高级用户可以创建宝石，台式机上的自定义聊天机器人以及由双子座型号提供动力的移动设备。宝石可以从自然语言描述中产生，例如，“您是我的跑步教练。给我一个日常的计划”，并与其他人分享用户或保密。图片来源：Google Gemini应用程序可以通过Google称为“双子座扩展名”来利用Google服务。 Gemini与Drive，Gmail，YouTube等集成在一起，以回复诸如“您可以总结我的最后三封电子邮件吗？”之类的查询。双子座直播深入的语音聊天一种称为Gemini Live的体验使用户可以与双子座进行“深入”的语音聊天。它可以在Mobile和Pixel Buds Pro 2的Gemini应用程序中找到，即使您的手机锁定也可以访问。图片来源：Google 借助Gemini Live启用，您可以在聊天机器人讲话时中断双子座，以提出一个澄清的问题，并且可以实时适应您的语音模式。 Live还旨在作为各种虚拟教练，帮助您为活动，头脑风暴的想法等排练。例如，LIVE可以建议在即将到来的求职面试中突出哪些技能，并给公开演讲指针。您可以在这里阅读我们对双子座的评论。青少年的双子座 Google为学生提供了以青少年为中心的双子座体验。以青少年为中心的双子座有“其他政策和保障措施”，包括量身定制的入职过程和AI扫盲指南。否则，它几乎与标准的双子座体验相同，直到在网络上看起来的“双重检查”功能，以查看双子座的响应是否准确。双子座模型可以做什么？由于双子座模型是多模式的，因此它们可以执行一系列多模式任务，从抄写语音到实时的字幕图像和视频。这些功能中有许多已经达到了产品阶段，而Google在不远的未来中承诺更多。当然，Google无法为当今的生成AI技术提供一些基本问题，例如其编码的偏见和构成物品的趋势（即幻觉）。它的竞争对手也没有但是，考虑使用或付款时，要记住这一点。双子座专业人士的功能 Google表示，其最新的Pro模型Gemini 2.0 Pro是编码和复杂提示的最佳选择。 2.0 Pro在测量编程，推理，数学和事实准确性的基准中优于其前身Gemini 1.5 Pro。在Google的Vertex AI平台中，开发人员可以通过微调或“接地”过程将Gemini Pro自定义为特定上下文和用例。例如，可以指示PRO（以及其他双子座模型）使用来自穆迪（Moody's），汤姆森·路透（Thomson Reuters），Zoominfo和MSCI等第三方提供商的数据，或者来自公司数据集或Google搜索的来源信息，而不是其更广泛的知识库。 Gemini Pro也可以连接到外部的第三方API，以执行特定的操作，例如自动化后台工作流程。 Google的AI Studio平台提供了用于使用Pro创建结构化聊天提示的模板。开发Elopers可以控制模型的创意范围，并提供示例以提供音调和样式说明，并调整Pro的安全设置。 Gemini Flash轻量级，而双子座闪光灯思考添加了推理 Gemini 2.0 Flash可以使用Google搜索和与外部API进行交互的工具，在测量编码和图像分析的基准测试上优于一些较大的Gemini 1.5型号。 Gemini Pro的分支，Flash小巧且高效 - 用于狭窄的高频生成AI工作负载。 Google说，Flash特别适合诸如摘要和聊天应用程序之类的任务，以及从长文档和表格中提取图像和视频字幕以及数据提取。同时，Gemini 2.0 Flash-Lite是一种更紧凑的Flash版本，优于Gemini 1.5 Flash，但以相同的价格和速度运行。去年12月，Google发布了Gemini 2.0 Flash的“思维”版本，该版本具有“推理”。” AI模型需要几秒钟才能通过问题向后工作，然后才能提高其可靠性。双子座Nano可以在手机上运行 Gemini Nano是Gemini的微小版本，足以直接在（某些）设备上运行，而不是将任务发送到某个地方的服务器。到目前为止，Nano为Pixel 8 Pro，Pixel 8，Pixel 9 Pro，Pixel 9和Samsung Galaxy S24提供了一些功能，包括录音机中的总结和Gboard中的Smart Reply。该录音机应用程序可让用户按下按钮录制和转录音频，其中包括一个由双子座驱动的对话，访谈，演示文稿和其他音频片段的摘要。用户即使没有信号或Wi-Fi连接，也会得到摘要，并且为了致敬隐私，没有数据将其手机留在处理过程中。图片来源：Google Nano还在Google的键盘更换Gboard中。在那里，它为明智的答复提供了支持，这有助于建议您要说的下一件事在诸如WhatsApp之类的消息传递应用程序中进行对话。未来版本的Android将在通话过程中提醒用户潜在的骗局。 Pixel手机上的新天气应用使用Gemini Nano生成量身定制的天气报告。 Talkback是Google的可访问性服务，使用Nano为低视频和盲人用户创建对象的听觉描述。双子座Ultra，MIA现在近几个月来，我们还没有看到Gemini Ultra的太多。该模型在Gemini应用程序中不可用，也没有在Google的Gemini API定价页面上列出。但是，这并不意味着Google将来不会将Ultra带回。双子座型号的价格是多少？ Gemini 1.5 Pro，1.5 Flash，2.0 Flash和2.0 Flash-Lite可通过Google的Gemini API提供用于构建应用程序和服务的。他们是您的付费。截至2月225日，这是基本定价（不包括附加组件）： Gemini 1.5 Pro：每1 m $ 1.25Illion输入令牌（提示最多128K令牌）或每100万个输入令牌（提示超过128K令牌）；每100万美元的产出代币（最高为128K代币）或每100万美元的产出代币（提示超过128K令牌），每100万美元的产出代币$ 5）双子座1.5 Flash：每100万个输入令牌（提前128K令牌），每100万个输入令牌（提示提示超过128K代币），每100万个每100万个输出代币，提示为128k代币）（最高为100万分百万的tokens比128 Kens（提示）比128k（提前128 k）（提示，超过128k） Gemini 2.0 Flash：每100万个输入令牌10美分，每100万个产量令牌40美分。对于音频，每100万个输入令牌每100万美分。 Gemini 2.0 Flash-Lite：每100万个输入令牌7.5美分，每100万个产出令牌30美分。令牌是原始数据的细分部分，例如“ fangath”一词中的音节“ fan”，“ tas”和“ tic”； 100万令牌相当于约750,000个单词。输入是指馈入模型的令牌，而输出则是指模型生成的令牌。 2.0 Pro定价尚未宣布，Nano仍在尽早访问。双子座是来iPhone的吗？可能。苹果曾表示，它正在谈判将双子座和其他第三方车型放在其Apple Intelligence Suite中的许多功能中使用。在WWDC 2024举行的主题演讲之后，Apple SVP Craig Federighi确认了与包括Gemini在内的模型合作的计划，但他没有泄露任何其他细节。该帖子最初发表于2024年2月16日，并定期更新。