Gemini(谷歌於2023年12月推出的人工智慧多模態大模型):谷歌AI發展歷程

Gemini是一款由Google DeepMind（谷歌母公司Alphabet下設立的人工智慧實驗室）於2023年12月6日發布的人工智慧模型，可同時識別文本、圖像、音頻、視頻和代碼五種類型信息，還可以理解並生成主流程式語言（如Python、Java、C++）的高質量代碼，並擁有全面的安全性評估。首個版本為Gemini 1.0，包括三個不同體量的模型：用於處理“高度複雜任務”的Gemini Ultra、用於處理多個任務的Gemini Nano和用於處理“終端上設備的特定任務”的Gemini Pro。

谷歌AI模型的研發進程從2012年就已開始；2022年8月推出高級語言學習模型PaLM；2023年5月Google I/O大會上Alphabet執行長桑達爾·皮查伊發布了PaLM2與Bard，同時宣布Gemini即將問世；12月6日在一段官方公布的視頻中，谷歌正式推出Gemini。

谷歌計畫逐步將Gemini整合到其搜尋、廣告、Chrome等其他服務中。從2023年12月13日開始，開發者和企業客戶可以通過Google的AI Studio和Google Cloud Vertex AI中的Gemini API訪問Gemini Pro。

2023年12月7日，科技界指出Gemini與ChatGPT測試方法存疑，且分數存在誇大嫌疑，同時發布會演示視頻也存在虛假剪輯問題。隨後，對於視頻“造假”一說，Gemini聯合創始人奧里奧爾·維尼亞爾斯予以否認。

2024年2月9日，谷歌宣布Gemini Ultra可免費使用，16日發布Gemini 1.5，21日發布開源模型Gemma。Gemma採用了與Gemini相同的技術和基礎架構，基於英偉達GPU和谷歌雲TPU等硬體平台進行最佳化，有20億、70億兩種參數規模。

基本介紹

軟體名稱：Gemini
軟體平台：Google DeepMind
上線時間：2023年12月6日(當地時間)
最近更新時間：2024年2月16日
軟體語言：英文
開發商：Google
軟體版本：Gemini 1.0
Gemini 1.5
所屬國家：美國
運用領域：人工智慧

谷歌AI發展歷程,2001年：機器學習幫助搜尋用戶糾正拼寫,2006年：谷歌翻譯,2015年：TensorFlow框架,2016年：AlphaGo獲勝,2017年：Transformer模型,2019年：BERT幫助搜尋理解查詢意圖,2020年：AlphaFold醫學套用,2023年：Gemini問世,2024年：Gemini推出,主要功能,五種模型,原生多模態,三種能力,性能測試,晶片TPU,實際套用,核心成員,科學委員會,主要競爭對手,Gemini聊天機器人,產品原理,語言模型,未來規劃,競爭格局,產業格局,巨頭布局,模型爭議,測試方法,虛假剪輯,產品事件,

谷歌AI發展歷程

從搜尋引擎到成為AI領域領導者，谷歌不僅重新定義了公司的發展軌跡，也對全球科技格局產生了深遠影響。以下是其AI技術發展歷程中的重大節點：

2001年：機器學習幫助搜尋用戶糾正拼寫

2001年，谷歌開始使用簡單版本的機器學習技術，來為網路搜尋提供拼寫建議。即使在用戶輸入不完整的情況下搜尋，谷歌仍可以為用戶提供所需的內容。

2006年：谷歌翻譯

2006年，谷歌推出了翻譯功能。從阿拉伯語到英語和英語到阿拉伯語的互譯開始，截至2023年，可支持全球總計133種語言。這項技術可以實現實時文本、圖像甚至對話翻譯，打破全球語言障礙的同時擴大了信息獲取的範圍。

2015年：TensorFlow框架

2015年，Google Brian團隊推出全新開源機器學習框架TensorFlow，使AI變得更易於訪問、可擴展且高效。這一框架加快了全球人工智慧研發的進程。TensorFlow是現如今的主流機器學習框架之一，已被用於開發廣泛的人工智慧應用程式，如圖像識別、自然語言處理和機器翻譯等。

2016年：AlphaGo獲勝

作為Google DeepMind挑戰賽的一部分，2016年，超過2億人線上看了AlphaGo成為第一個在圍棋比賽中擊敗人類世界冠軍的圍棋人機大戰。AlphaGo戰勝了世界上最好的圍棋棋手之一李世石，這一里程碑式的勝利證明了深度學習有潛力解決曾經被認為對計算機來說不可能解決的複雜問題，並表明人工智慧系統可以學習掌握需要戰略思維和創造力的複雜遊戲。

同年，谷歌TPU（張量處理單元）實現了更快、更高效的AI部署，TPU是谷歌專門為機器學習發明並針對TensorFlow進行最佳化的定製設計矽晶片。它可以更快地訓練和運行人工智慧模型，非常適合大規模人工智慧套用。TPU v5e版本於2023年8月發布，是迄今為止最具成本效益、多功能且可擴展的Cloud TPU。

谷歌官網晶片示例

2017年：Transformer模型

2017年，Google Research推出了Transformer模型。谷歌官方論文“Attention Is All You Need”介紹了Transformer——一種有助於語言理解的新神經網路架構。在Transformer出現之前，機器不太擅長理解長句子的含義，也無法看到相距較遠單詞之間的關聯。Transformer極大地改善了這一點，並成為當今語言理解和生成式人工智慧系統的基石。Transformer徹底改變了機器執行翻譯、文本摘要、問題回答甚至圖像生成和機器人技術的含義。

2019年：BERT幫助搜尋理解查詢意圖

2019年，谷歌對Transformers的研究促成了 Transformers 的雙向編碼器表示法（Bidirectional Encoder Representations from Transformers）（簡稱 BERT）的推出，它幫助搜尋能更好地理解用戶的查詢意圖。谷歌的BERT算法不是以單獨理解單詞為目標，而是幫助Google理解上下文中的單詞。這大大提高了整個搜尋的質量，使人們更容易自然地提出問題，而不是將關鍵字串聯在一起。

2020年：AlphaFold醫學套用

2020年，DeepMind憑藉其系統AlphaFold在人工智慧領域實現了飛躍，該系統被認為是“蛋白質摺疊問題”的解決方案。蛋白質是生命的基石，它的摺疊方式決定了其功能，錯誤摺疊的蛋白質可能會導致疾病的產生。50年來，科學家們一直試圖預測蛋白質如何摺疊，以幫助理解和治療疾病。2022年，AlphaFold做到了這一點：谷歌通過AlphaFold蛋白質結構資料庫，與科學界免費共享了2億個AlphaFold蛋白質結構，幾乎涵蓋地球上所有進行過基因組測序的生物。截至2022年，已有100多萬名研究人員利用該資料庫開展了各種研究，如加速新型瘧疾疫苗的研發、推動癌症藥物的發現和塑膠分解酶的開發等。

2023年：Gemini問世

2023年1月，為應對ChatGPT的挑戰，已隱退的谷歌聯合創始人拉里·佩奇（Larry Page）和謝爾蓋·布林（Sergey Brin）回歸，並將最佳化谷歌自身人工智慧能力的問題作為優先事項。2月，谷歌執行長桑達爾·皮查伊要求谷歌旗下用戶超10億的產品儘快接入生成式AI，由此催生了數十個生成式AI集成計畫。

2023年3月，谷歌推出Bard，在全球大部分地區提供40多種語言版本。Bard將與用戶每天使用的Google服務（如Gmail、文檔、雲端硬碟、航班、地圖和YouTube）相結合，為用戶完成旅行計畫、信息覆核等任務，提供更多幫助，如文本總結、書寫文檔或電子郵件。

2023年5月，谷歌推出PaLM 2，它最佳化了多語言、推理及編碼能力，比前代產品功能更強大、速度更快、效率更高，且已經為超過25種Google產品和功能提供支持，包括Bard、Gmail和Workspace中的生成式AI功能，以及SGE（谷歌將生成式AI深度集成到Google搜尋中的實驗）。谷歌還使用PaLM 2推進從醫療保健到網路安全等各方面的研究。

2023年9月，Gemini開啟小範圍內測；12月6日，谷歌正式發布Gemini，成為AI領域一項重大突破。

2024年：Gemini推出

2024年2月8日，谷歌Gemini體驗與谷歌助理業務副總裁暨總經理Sissie Hsiao在谷歌官網發表部落格指出，聊天機器人Bard將會直接稱為Gemini，網頁版支持40種語言，並將在Android和iOS的Google應用程式上推出新的Gemini應用程式。此外，谷歌還推出了Gemini Advanced，透過Ultra 1.0模型，Gemini Advanced能夠處理更複雜的任務與指令，像是程式編寫、邏輯推理、遵循細微與精確的指示，以及進行創意協作。

2024年2月16日，谷歌升級了Gemini系列模型，並發布用於早期測試的Gemini 1.5版本。Gemini 1.5建立在谷歌基礎模型開發和基礎設施之上，採用包括通過全新稀疏專家混合 (MoE) 架構，第一個版本Gemini 1.5 Pro配備了128000個token 上下文視窗，可推理100,000行代碼，提供有用的解決方案、修改和注釋，使Gemini 1.5的訓練和服務更加高效。

主要功能

五種模型

2023年12月6日，谷歌針對Gemini 1.0最佳化了三個不同體量的模型，分別套用於不同的場景；2024年2月16日，發布大模型Gemini 1.5；21日，放出基於Gemini的開源模型Gemma。

模型版本	模型規模	模型描述
Gemini 1.0	Gemini Ultra	雖然目前還沒有被廣泛使用，但谷歌將Gemini Ultra描述為其最強大的模型。可在各種高度複雜的任務（包括推理和多模態任務）中提供最先進的性能。由於採用了Gemini架構，它可以在TPU加速器上高效地提供大規模服務。該版本將於2024年在Bard中推出，並通過雲API提供服務（前提是經過“廣泛的信任和安全檢查”）。該模型被定位於擊敗ChatGPT 4.0。
	Gemini Pro	在成本和延遲方面性能最佳化的模型，可在廣泛的任務範圍內提供較優性能。該模型表現出強大的推理性能和廣泛的多模態能力。Gemini Pro在谷歌的數據中心運行，旨在支持公司AI聊天機器人Bard的最新版本，它能夠快速回響並理解複雜的查詢。該模型定位於擊敗ChatGPT 3.5。
	Gemini Nano	用於在數碼設備上運行的最高效模型，目前套用於谷歌的智慧型手機系統，特別是Google Pixel 8（谷歌智慧型手機)，旨在執行需要高效AI處理但不需要連線到外部伺服器的本地任務，比如在聊天套用中建議回復或總結文本，分別套用於Pixel 8錄音機套用中的自動摘要功能，以及Gboard鍵盤的智慧型回復部分。谷歌訓練了兩個Nano版本，參數分別為18億（Nano-1）和32.5億（Nano-2），分別針對低記憶體和高記憶體設備。它是通過從更大的Gemini模型中提取精髓進行訓練。該模型經過4位量化（量化是指將連續的模擬信號轉換為離散的數位訊號的過程；4位量化即數位訊號的每個採樣點數值表示為4位二進制數，其可以表示16個不同的數值）以進行部署，並提供最佳性能。
Gemini 1.5	Gemini 1.5 Pro	Gemini 1.5 建立在谷歌基礎模型開發和基礎設施之上，採用包括通過全新稀疏專家混合 (MoE) 架構，第一個版本Gemini 1.5 Pro 配備了128000個token 上下文視窗，可推理100,000 行代碼，提供有用的解決方案、修改和注釋使 Gemini 1.5 的訓練和服務更加高效。 Gemini 1.5 Pro性能水平與谷歌迄今為止最大的模型 1.0 Ultra 類似，並引入了長上下文理解方面的突破性實驗特徵，性能、文本長度均超越了GPT-4 Turbo。 2024年2月16日起，少數開發人員和企業客戶可以通過 AI Studio 和 Vertex AI 的私人預覽版在最多 100 萬個 token 的上下文視窗中進行嘗試 1.5 Pro 預覽版。
Gemma	Gemma	Gemma在全球範圍內開放使用，用戶可以在Kaggle、Hugging Face等平台上進行下載和試用，它可以直接在筆記本電腦或台式機上運行。 Gemma採用了與Gemini相同的技術和基礎架構，基於英偉達GPU和谷歌雲TPU等硬體平台進行最佳化，有20億、70億兩種參數規模，每個規模又分預訓練和指令微調兩個版本。Gemma 2B和7B模型分別在2T和6T的tokens上進行訓練，數據主要來自網路文檔、數學和代碼的英語數據。不同於Gemini，這些模型不是多模態的，也沒有針對多語言任務進行訓練。 Gemma在設計時將其AI原則放在首位，通過大量微調和人類反饋強化學習（RLHF）使指令微調模型與負責任的行為對齊，還通過手工紅隊測試、自動對抗性測試等對模型進行評估。

本模型描述來自於谷歌官網Gemini的60頁性能測試報告

原生多模態

模型最佳化思路，從多模態到原生多模態

傳統的多模態模型通常通過分別訓練處理各類信息類型的組件，然後將它們組合在一起的方式來構建。雖然這些模型在某些任務上表現不錯，比如描述圖像，但在處理更複雜的概念和推理時，效果並不理想。為了提升多模態模型的性能，谷歌採用了一種不同的策略，將Gemini設計成一個原生多模態模型。這意味著Gemini從一開始就在各種信息類型上進行了預訓練，然後通過額外的多模態數據微調，使其更好地理解和推理各種輸入。

三種能力

三種顯著最佳化的能力如下：

1、複雜的推理能力

Gemini 1.0的多模態推理能力有助於理解複雜的書面和視覺信息，它能在大規模的數據提取中，識別微小的差異點。通過閱讀、過濾和理解信息，從成千上萬的文檔中提取獨到的信息和見解，有利於未來在從科學到金融等眾多領域以數位化的速度實現新的突破。

以下圖中描述的教育場景為例：一位老師畫了一個滑雪者下坡的物理問題，使用Gemini多模態推理能力，模型能夠理解學生混亂的手寫答案，正確理解題目的表述，將問題和解決方案轉換為數學排版，識別學生在解決問題時出錯的具體推理步驟，然後給出一個經過深思熟慮的正確解決方案。這為教育領域提供了更多可能性。

圖片和示例於谷歌官網Gemini的60頁性能測試報

Gemini的多模態推理能力，可以生成重新排列子圖的matplotlib代碼，如下圖所示，多模態提示顯示在左上角的灰色區域；Gemini Ultra的回響，包括生成的代碼，顯示在右列的藍色區域；左下方的圖顯示了生成代碼的渲染版本。成功解決這個任務展示了該模型結合了多種能力：（1）識別圖中所描繪的函式；（2）通過逆向圖形推斷生成子圖的代碼；（3）按照指示將子圖放置在期望的位置；（4）抽象推理（推斷指數圖必須保持在原來的位置，因為正弦圖必須為三維圖騰出位置）。

谷歌官網示例

職位	姓名	簡介
執行長	戴密斯·哈薩比斯 Demis Hassabis	領導通用人工智慧系統的開發。
首席科學家	傑夫·迪恩 Jeff Dean	向執行長戴密斯·哈薩比斯 (Demis Hassabis) 匯報，是Google最早的員工之一，他因幫助創建了一些基礎技術而受到讚譽，這些技術推動了Google在2000年初的崛起。同時他也是Google Brain團隊的聯合創始人。2015年，參與了Google機器學習框架TensorFlow的開發。2018年開始，他一直擔任Google AI的負責人。在Alphabet的人工智慧團隊進行重組後，於2023年被任命為Alphabet的首席科學家。
研究副總裁	科雷·卡武克喬格魯 Koray Kavukcuoglu	在加入DeepMind之前，是NEC美國實驗室機器學習部門的研究人員。攻讀博士學位期間，在紐約大學Yann LeCun的小組（計算和生物學習實驗室）工作，致力於特徵提取器和目標識別多階段架構的無監督學習。
副總裁	祖賓·加赫拉馬尼 Zoubin Ghahraman	2020年，加入Google Brain，擔任高級研究總監。2003年至2012年期間，擔任卡內基梅隆大學計算機科學學院副研究教授。2003年至2012年期間，擔任卡內基梅隆大學計算機科學學院副研究教授。自2009年起，成為劍橋聖約翰學院的院士，是一位英國-伊朗研究員。

產品名稱	產品定位	產品官網	公司名稱	模型名稱	參數規模	發布時間
國外競爭對手
ChatGPT	AI語言模型, 多用途文本生成工具, 知識檢索整合平台, 互動式學習及教育工具。能力: 自然語言理解與生成, 多樣化文本套用, 廣泛的知識庫, 支持多語言, 定製化和可拓展性。	https://chat.openai.com	OpenAI	GPT3.5/GPT-4，Transformer	1750億	2022-11-30
Stability AI	圖像生成工具, 開源和社區嚮導。能力：文本到圖片的轉換, 高級算法套用, 用戶友好界面，社區驅動創新。	https://stability.ai	Stability AI	Stable Diffusion XL SDXL	—	2022-08-22
Anthropic	可理解和透明的AI，AI研究及創新。能力: 高級語言模型, 模型可解釋性, 透明，人工智慧倫理安全。	https://www.anthropic.com	Anthropic	The Anthropic Claude modes	1750億	2022-3
AI21Labs	企業級AI解決方案, ai文本生成與編輯工具，創新的自然語言處理技術。能力: 高級語言模型, 多樣化使用場景, 用戶友好界面。	https://www.ai21.com	AI 21 Labs	Jurassic	1780億	2020-10-27
Cohere	多用途AI平台, 易於集成的API, 企業級解決方案. 能力: 用戶友好接口, 多語言自持, 文本分析生成, 高級語言模型。	https://cohere.com/	Cohere	large language models (LLMs)	520億	2022-12
國內主要競爭對手
文心一言	具有自然語言處理、智慧型寫作、多模態互動和跨平台套用。能力：理解人類語言，進行智慧型推理和分析，生成高質量的文字輸出，並支持多種模態的互動方式和跨平台套用。	https://yiyan.baidu.com	百度	ERNIE Bot	2600億	2023-02-07
通義千問	成為一個通用的人工智慧助手，旨在為用戶提供全面的語言理解和生成能力。能力：它可以提供定義、解釋和建議，將文本從一種語言翻譯成另一種語言，總結文本，生成文本，寫故事，分析情緒，提供建議，開發算法，編寫代碼以及任何其他基於語言的任務。	https://tongyi.aliyun.com	阿里巴巴	QianWen	720億	2023-04-07
混元	為用戶提供高效、便捷、多樣化的智慧型服務。能力：語言理解和生成能力、圖像和視頻處理能力以及多模態互動能力，可以套用於自然語言處理、計算機視覺、語音識別等多個領域。	https://hunyuan.tencent.com	騰訊	渾元大模型	1750億	2023-09-07
360智腦	提供生成與創作、閱讀理解、多輪對話等多種能力的數字人製作和分享平台。能力：它提供了上傳和管理數字人的方便功能；大語言模型，具備跨模態生成能力，擁有文字、圖像、語音、視頻處理四大能力，可套用於文生圖、圖生圖、文生視頻等場景	https://chat.360.com/chat	360	360智腦4.0版	千億參數規模	2023-12-12
商量	商量AI是一款基於人工智慧技術的智慧型助手，旨在為用戶提供高效、便捷、個性化的服務。能力：自然語言處理能力，理解人類語言並進行語義分析和理解，同時具有智慧型推理能力，可以根據用戶輸入和歷史行為進行智慧型推薦。	https://chat.sensetime.com/wb/login	商湯	1800億	1800億	2023-4-10
訊飛星火	是科大訊飛研發的以中文為核心的新一代認知智慧型大模型。能力：內容生成能力，語言理解能力，知識問答能力，推理能力，多題型步驟級數學能力，代碼理解與生成能力。	https://xinghuo.xfyun.cn	科大訊飛	千億參數	1000億	2023-05月06
言犀	言犀的產品定位是“最懂產業的人工智慧套用平台”。能力：自然語言處理，語音生成和識別，情感智慧型，大規模數據處理能力，跨平台套用。	https://yanxi.jd.com	京東	千億參數	千億參數規模	2023-07-13
APUS大模型	APUS大模型的產品定位是致力於為中國打造AI大模型。能力：對文本、圖像、音頻、視頻的深入理解和生成能力，針對具體套用場景的垂直領域精煉模型，在產業端的落地套用，針對開發者的開放API接口和精煉模型。	https://www.apusai.com	APUS	—	千億參數規模	2023-4-18

Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)

基本介紹

谷歌AI發展歷程

2001年：機器學習幫助搜尋用戶糾正拼寫

2006年：谷歌翻譯

2015年：TensorFlow框架

2016年：AlphaGo獲勝

2017年：Transformer模型

2019年：BERT幫助搜尋理解查詢意圖

2020年：AlphaFold醫學套用

2023年：Gemini問世

2024年：Gemini推出

主要功能

五種模型

原生多模態

三種能力

性能測試

晶片TPU

實際套用

核心成員

科學委員會

主要競爭對手

Gemini聊天機器人

產品原理

語言模型

未來規劃

競爭格局

產業格局

巨頭布局

模型爭議

測試方法

虛假剪輯

產品事件

相關詞條

熱門詞條