Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)

Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)

本詞條是多義詞,共11個義項
更多義項 ▼ 收起列表 ▲

Gemini是一款由Google DeepMind(谷歌母公司Alphabet下設立的人工智慧實驗室)於2023年12月6日發布的人工智慧模型,可同時識別文本、圖像、音頻、視頻和代碼五種類型信息,還可以理解並生成主流程式語言(如Python、Java、C++)的高質量代碼,並擁有全面的安全性評估。首個版本為Gemini 1.0,包括三個不同體量的模型:用於處理“高度複雜任務”的Gemini Ultra、用於處理多個任務的Gemini Nano和用於處理“終端上設備的特定任務”的Gemini Pro。

谷歌AI模型的研發進程從2012年就已開始;2022年8月推出高級語言學習模型PaLM;2023年5月Google I/O大會上Alphabet執行長桑達爾·皮查伊發布了PaLM2與Bard,同時宣布Gemini即將問世;12月6日在一段官方公布的視頻中,谷歌正式推出Gemini。

谷歌計畫逐步將Gemini整合到其搜尋、廣告、Chrome等其他服務中。從2023年12月13日開始,開發者和企業客戶可以通過Google的AI Studio和Google Cloud Vertex AI中的Gemini API訪問Gemini Pro。

2023年12月7日,科技界指出Gemini與ChatGPT測試方法存疑,且分數存在誇大嫌疑,同時發布會演示視頻也存在虛假剪輯問題。隨後,對於視頻“造假”一說,Gemini聯合創始人奧里奧爾·維尼亞爾斯予以否認。

2024年2月9日,谷歌宣布Gemini Ultra可免費使用,16日發布Gemini 1.5,21日發布開源模型Gemma。Gemma採用了與Gemini相同的技術和基礎架構,基於英偉達GPU和谷歌雲TPU等硬體平台進行最佳化,有20億、70億兩種參數規模。

基本介紹

  • 軟體名稱:Gemini 
  • 軟體平台:Google DeepMind
  • 上線時間:2023年12月6日(當地時間)
  • 最近更新時間:2024年2月16日 
  • 軟體語言:英文
  • 開發商Google
  • 軟體版本:Gemini 1.0
    Gemini 1.5 
  • 所屬國家:美國
  • 運用領域人工智慧
谷歌AI發展歷程,2001年:機器學習幫助搜尋用戶糾正拼寫,2006年:谷歌翻譯,2015年:TensorFlow框架,2016年:AlphaGo獲勝,2017年:Transformer模型,2019年:BERT幫助搜尋理解查詢意圖,2020年:AlphaFold醫學套用,2023年:Gemini問世,2024年:Gemini推出,主要功能,五種模型,原生多模態,三種能力,性能測試,晶片TPU,實際套用,核心成員,科學委員會,主要競爭對手,Gemini聊天機器人,產品原理,語言模型,未來規劃,競爭格局,產業格局,巨頭布局,模型爭議,測試方法,虛假剪輯,產品事件,

谷歌AI發展歷程

從搜尋引擎到成為AI領域領導者,谷歌不僅重新定義了公司的發展軌跡,也對全球科技格局產生了深遠影響。以下是其AI技術發展歷程中的重大節點:

2001年:機器學習幫助搜尋用戶糾正拼寫

2001年,谷歌開始使用簡單版本的機器學習技術,來為網路搜尋提供拼寫建議。即使在用戶輸入不完整的情況下搜尋,谷歌仍可以為用戶提供所需的內容。

2006年:谷歌翻譯

2006年,谷歌推出了翻譯功能。從阿拉伯語到英語和英語到阿拉伯語的互譯開始,截至2023年,可支持全球總計133種語言。這項技術可以實現實時文本、圖像甚至對話翻譯,打破全球語言障礙的同時擴大了信息獲取的範圍。

2015年:TensorFlow框架

2015年,Google Brian團隊推出全新開源機器學習框架TensorFlow,使AI變得更易於訪問、可擴展且高效。這一框架加快了全球人工智慧研發的進程。TensorFlow是現如今的主流機器學習框架之一,已被用於開發廣泛的人工智慧應用程式,如圖像識別、自然語言處理和機器翻譯等。

2016年:AlphaGo獲勝

作為Google DeepMind挑戰賽的一部分,2016年,超過2億人線上看了AlphaGo成為第一個在圍棋比賽中擊敗人類世界冠軍的圍棋人機大戰。AlphaGo戰勝了世界上最好的圍棋棋手之一李世石,這一里程碑式的勝利證明了深度學習有潛力解決曾經被認為對計算機來說不可能解決的複雜問題,並表明人工智慧系統可以學習掌握需要戰略思維和創造力的複雜遊戲。
同年,谷歌TPU(張量處理單元)實現了更快、更高效的AI部署,TPU是谷歌專門為機器學習發明並針對TensorFlow進行最佳化的定製設計矽晶片。它可以更快地訓練和運行人工智慧模型,非常適合大規模人工智慧套用。TPU v5e版本於2023年8月發布,是迄今為止最具成本效益、多功能且可擴展的Cloud TPU。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
谷歌官網晶片示例

2017年:Transformer模型

2017年,Google Research推出了Transformer模型。谷歌官方論文“Attention Is All You Need”介紹了Transformer——一種有助於語言理解的新神經網路架構。在Transformer出現之前,機器不太擅長理解長句子的含義,也無法看到相距較遠單詞之間的關聯。Transformer極大地改善了這一點,並成為當今語言理解和生成式人工智慧系統的基石。Transformer徹底改變了機器執行翻譯、文本摘要、問題回答甚至圖像生成和機器人技術的含義。

2019年:BERT幫助搜尋理解查詢意圖

2019年,谷歌對Transformers的研究促成了 Transformers 的雙向編碼器表示法(Bidirectional Encoder Representations from Transformers)(簡稱 BERT)的推出,它幫助搜尋能更好地理解用戶的查詢意圖。谷歌的BERT算法不是以單獨理解單詞為目標,而是幫助Google理解上下文中的單詞。這大大提高了整個搜尋的質量,使人們更容易自然地提出問題,而不是將關鍵字串聯在一起。

2020年:AlphaFold醫學套用

2020年,DeepMind憑藉其系統AlphaFold在人工智慧領域實現了飛躍,該系統被認為是“蛋白質摺疊問題”的解決方案。蛋白質是生命的基石,它的摺疊方式決定了其功能,錯誤摺疊的蛋白質可能會導致疾病的產生。50年來,科學家們一直試圖預測蛋白質如何摺疊,以幫助理解和治療疾病。2022年,AlphaFold做到了這一點:谷歌通過AlphaFold蛋白質結構資料庫,與科學界免費共享了2億個AlphaFold蛋白質結構,幾乎涵蓋地球上所有進行過基因組測序的生物。截至2022年,已有100多萬名研究人員利用該資料庫開展了各種研究,如加速新型瘧疾疫苗的研發、推動癌症藥物的發現和塑膠分解酶的開發等。

2023年:Gemini問世

2023年1月,為應對ChatGPT的挑戰,已隱退的谷歌聯合創始人拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)回歸,並將最佳化谷歌自身人工智慧能力的問題作為優先事項。2月,谷歌執行長桑達爾·皮查伊要求谷歌旗下用戶超10億的產品儘快接入生成式AI,由此催生了數十個生成式AI集成計畫。
2023年3月,谷歌推出Bard,在全球大部分地區提供40多種語言版本。Bard將與用戶每天使用的Google服務(如Gmail、文檔、雲端硬碟、航班、地圖和YouTube)相結合,為用戶完成旅行計畫、信息覆核等任務,提供更多幫助,如文本總結、書寫文檔或電子郵件。
2023年5月,谷歌推出PaLM 2,它最佳化了多語言、推理及編碼能力,比前代產品功能更強大、速度更快、效率更高,且已經為超過25種Google產品和功能提供支持,包括Bard、Gmail和Workspace中的生成式AI功能,以及SGE(谷歌將生成式AI深度集成到Google搜尋中的實驗)。谷歌還使用PaLM 2推進從醫療保健到網路安全等各方面的研究。
2023年9月,Gemini開啟小範圍內測;12月6日,谷歌正式發布Gemini,成為AI領域一項重大突破。

2024年:Gemini推出

2024年2月8日,谷歌Gemini體驗與谷歌助理業務副總裁暨總經理Sissie Hsiao在谷歌官網發表部落格指出,聊天機器人Bard將會直接稱為Gemini,網頁版支持40種語言,並將在Android和iOS的Google應用程式上推出新的Gemini應用程式。此外,谷歌還推出了Gemini Advanced,透過Ultra 1.0模型,Gemini Advanced能夠處理更複雜的任務與指令,像是程式編寫、邏輯推理、遵循細微與精確的指示,以及進行創意協作。
2024年2月16日,谷歌升級了Gemini系列模型,並發布用於早期測試的Gemini 1.5版本。Gemini 1.5建立在谷歌基礎模型開發和基礎設施之上,採用包括通過全新稀疏專家混合 (MoE) 架構,第一個版本Gemini 1.5 Pro配備了128000個token 上下文視窗,可推理100,000行代碼,提供有用的解決方案、修改和注釋,使Gemini 1.5的訓練和服務更加高效。

主要功能

五種模型

2023年12月6日,谷歌針對Gemini 1.0最佳化了三個不同體量的模型,分別套用於不同的場景;2024年2月16日,發布大模型Gemini 1.5;21日,放出基於Gemini的開源模型Gemma。
模型版本
模型規模
模型描述
Gemini 1.0
Gemini Ultra
雖然目前還沒有被廣泛使用,但谷歌將Gemini Ultra描述為其最強大的模型。可在各種高度複雜的任務(包括推理和多模態任務)中提供最先進的性能。由於採用了Gemini架構,它可以在TPU加速器上高效地提供大規模服務。該版本將於2024年在Bard中推出,並通過雲API提供服務(前提是經過“廣泛的信任和安全檢查”)。該模型被定位於擊敗ChatGPT 4.0。
Gemini Pro
在成本和延遲方面性能最佳化的模型,可在廣泛的任務範圍內提供較優性能。該模型表現出強大的推理性能和廣泛的多模態能力。Gemini Pro在谷歌的數據中心運行,旨在支持公司AI聊天機器人Bard的最新版本,它能夠快速回響並理解複雜的查詢。該模型定位於擊敗ChatGPT 3.5。
Gemini Nano
用於在數碼設備上運行的最高效模型,目前套用於谷歌的智慧型手機系統,特別是Google Pixel 8(谷歌智慧型手機),旨在執行需要高效AI處理但不需要連線到外部伺服器的本地任務,比如在聊天套用中建議回復或總結文本,分別套用於Pixel 8錄音機套用中的自動摘要功能,以及Gboard鍵盤的智慧型回復部分。谷歌訓練了兩個Nano版本,參數分別為18億(Nano-1)和32.5億(Nano-2),分別針對低記憶體和高記憶體設備。它是通過從更大的Gemini模型中提取精髓進行訓練。該模型經過4位量化(量化是指將連續的模擬信號轉換為離散的數位訊號的過程;4位量化即數位訊號的每個採樣點數值表示為4位二進制數,其可以表示16個不同的數值)以進行部署,並提供最佳性能。
Gemini 1.5
Gemini 1.5 Pro
Gemini 1.5 建立在谷歌基礎模型開發和基礎設施之上,採用包括通過全新稀疏專家混合 (MoE) 架構,第一個版本Gemini 1.5 Pro 配備了128000個token 上下文視窗,可推理100,000 行代碼,提供有用的解決方案、修改和注釋使 Gemini 1.5 的訓練和服務更加高效。
Gemini 1.5 Pro性能水平與谷歌迄今為止最大的模型 1.0 Ultra 類似,並引入了長上下文理解方面的突破性實驗特徵,性能、文本長度均超越了GPT-4 Turbo。
2024年2月16日起,少數開發人員和企業客戶可以通過 AI Studio 和 Vertex AI 的私人預覽版在最多 100 萬個 token 的上下文視窗中進行嘗試 1.5 Pro 預覽版。
Gemma
Gemma
Gemma在全球範圍內開放使用,用戶可以在Kaggle、Hugging Face等平台上進行下載和試用,它可以直接在筆記本電腦或台式機上運行。
Gemma採用了與Gemini相同的技術和基礎架構,基於英偉達GPU和谷歌雲TPU等硬體平台進行最佳化,有20億、70億兩種參數規模,每個規模又分預訓練和指令微調兩個版本。Gemma 2B和7B模型分別在2T和6T的tokens上進行訓練,數據主要來自網路文檔、數學和代碼的英語數據。不同於Gemini,這些模型不是多模態的,也沒有針對多語言任務進行訓練。
Gemma在設計時將其AI原則放在首位,通過大量微調和人類反饋強化學習(RLHF)使指令微調模型與負責任的行為對齊,還通過手工紅隊測試、自動對抗性測試等對模型進行評估。
本模型描述來自於谷歌官網Gemini的60頁性能測試報告

原生多模態

模型最佳化思路,從多模態到原生多模態
傳統的多模態模型通常通過分別訓練處理各類信息類型的組件,然後將它們組合在一起的方式來構建。雖然這些模型在某些任務上表現不錯,比如描述圖像,但在處理更複雜的概念和推理時,效果並不理想。為了提升多模態模型的性能,谷歌採用了一種不同的策略,將Gemini設計成一個原生多模態模型。這意味著Gemini從一開始就在各種信息類型上進行了預訓練,然後通過額外的多模態數據微調,使其更好地理解和推理各種輸入。

三種能力

三種顯著最佳化的能力如下:
1、複雜的推理能力
Gemini 1.0的多模態推理能力有助於理解複雜的書面和視覺信息,它能在大規模的數據提取中,識別微小的差異點。通過閱讀、過濾和理解信息,從成千上萬的文檔中提取獨到的信息和見解,有利於未來在從科學到金融等眾多領域以數位化的速度實現新的突破。
以下圖中描述的教育場景為例:一位老師畫了一個滑雪者下坡的物理問題,使用Gemini多模態推理能力,模型能夠理解學生混亂的手寫答案,正確理解題目的表述,將問題和解決方案轉換為數學排版,識別學生在解決問題時出錯的具體推理步驟,然後給出一個經過深思熟慮的正確解決方案。這為教育領域提供了更多可能性。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
圖片和示例於谷歌官網Gemini的60頁性能測試報
Gemini的多模態推理能力,可以生成重新排列子圖的matplotlib代碼,如下圖所示,多模態提示顯示在左上角的灰色區域;Gemini Ultra的回響,包括生成的代碼,顯示在右列的藍色區域;左下方的圖顯示了生成代碼的渲染版本。成功解決這個任務展示了該模型結合了多種能力:(1)識別圖中所描繪的函式;(2)通過逆向圖形推斷生成子圖的代碼;(3)按照指示將子圖放置在期望的位置;(4)抽象推理(推斷指數圖必須保持在原來的位置,因為正弦圖必須為三維圖騰出位置)。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
谷歌官網示例
2、理解文本、圖像、音頻等內容的能力
經過訓練,Gemini 1.0可以同時識別和理解文本、圖像、音頻及更多內容,因此它能更好地理解細微信息,回答與複雜主題相關的問題,且尤其擅長解釋數學和物理等複雜學科的推理。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
本圖片來自於谷歌官網Gemini的60頁性能測試報告
如上圖所示,Gemini支持以交錯的方式輸入文本、圖像、音頻和視頻序列(在輸入序列中用不同顏色的標記表示),它能夠輸出交錯的圖像和文本回響,並且能處理夾雜著各種音頻和視覺輸入的文本輸入,例如自然圖像、圖表、螢幕截圖、PDF和視頻,並能夠生成文本和圖像輸出。與其他多模態模型重要的一個區別是,這些模型從一開始就是多模態的,且可以使用離散圖像標記原生輸出圖像。
3、高級編碼能力
谷歌的第一版Gemini可以理解、解釋和生成主流的程式語言(如Python、Java、C++和Go)的高質量代碼,能夠跨語言工作並推理複雜的信息。在此基礎上,Gemini Ultra在多個編碼基準測試中表現優異,包括行業標準的HumanEval和谷歌內部的Natural2Code數據集。
此外,Gemini可用作更高級編碼系統的引擎,包括先前推出的AlphaCode。通過Gemini的專門版本,谷歌創建了更先進的代碼生成系統AlphaCode 2,該系統擅長解決超出編碼範圍、涉及複雜數學和理論計算機科學的競爭性編程問題。經過與原始AlphaCode在相同平台上進行評估,AlphaCode 2展現出巨大進步,可解決的問題數量幾乎是原來的兩倍。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
AlohaCode2 system
下圖為編程競賽平台Codeforces上AlphaCode 2(一種人工智慧編程模型)的性能預估排名。可以看到,大部分人類參賽者的得分分布在較低的百分位數區域,而AlphaCode 2的得分,則位於85%以上的百分位區域,這意味著它的性能超過了85%的人類參賽者。谷歌鼓勵內部員工使用AI工具提高代碼生成能力。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)

性能測試

谷歌自身對Gemini模型進行了測試,並評估了三種模型在各類任務中的性能。從自然圖像、音頻和視頻理解到數學推理,Gemini Ultra在大型語言模型 (LLM) 研發中廣泛使用的32個學術基準中的30個基準,性能都超過了當前最先進的結果。
如下圖所示,Gemini Ultra的得分率高達90.0%,是第一個在MMLU(大規模多任務語言理解)上超過人類專家的模型,該模型綜合使用數學、物理、歷史、法律、醫學和倫理學等57個學科來測試世界知識和解決問題的能力。Gemini在文本和編碼等一系列基準測試中超越了ChatGPT。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)

晶片TPU

與新模型一起亮相的,還有新版本的TPU晶片TPU v5p,TPU晶片又稱張量處理器,旨在減少訓練大語言模型相關的時間投入。TPU是谷歌為神經網路設計的專用晶片,經過最佳化可加快機器學習模型的訓練和推斷速度,谷歌於2016年起開始推出第一代TPU。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
谷歌TPU晶片參數比較
與TPU v4相比,TPU v5p的浮點運算性能提升了兩倍,高頻寬記憶體方面提升了3倍。使用谷歌的600 GB/s晶片間互連,可以將8960個v5p加速器耦合在一個Pod(通常指一個包含多個晶片的集群或模組)中,從而更快或更高精度地訓練模型。作為參考,該值比TPU v5e大35倍,是TPU v4的兩倍多。
TPU v5p是截至2023年最強大的、能夠提供超高性能、支持95GB的高頻寬記憶體、同時以2.76 TB/s的速度傳輸數據的晶片。這意味著TPU v5p可以比TPU v4更快地訓練大型語言模型,如訓練GPT-3(1750億參數)這樣的大語言模型速度比TPU v4快2.8倍。
不過,這種更高的性能和可擴展性也是有代價的——每個TPU v5p加速器的運行費用為每小時4.2美元,而TPU v4加速器的運行費用為每小時3.22美元,TPU v5e加速器則為每小時1.2美元。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
谷歌TPU晶片訓練大模型的參數比較
谷歌DeepMind首席科學家傑夫·迪恩(Jeff Dean)指出,相較使用TPU v4晶片,使用TPU v5p晶片的大語言模型(LLM)訓練工作的負載速度提高了兩倍,且TPU v5p晶片對機器學習框架(JAX、PyTorch、TensorFlow)和編排工具的強大支持使得能夠更高效地擴展。通過第二代SparseCores,嵌入密集型工作負載的性能有了顯著提高。TPU對於在Gemini等尖端模型上進行大規模的研究和工程工作至關重要。

實際套用

從發布會當天開始,Pixel 8 Pro手機的兩項功能將由Gemini Nano提供支持,分別是錄影機套用中的自動摘要功能以及Gboard鍵盤的智慧型回復部分。Gemini Pro已與谷歌聊天機器人Bard相結合,可實現高級推理、規劃、理解能力。預計在2024年年初,谷歌將推出Bard Advanced,使用Gemini Ultra模型。
Gemini AI是一個強大的工具,有潛力用於各種套用,如:

核心成員

2023年4月20日,Google和Alphabet執行長桑達爾·皮查伊 (Sundar Pichai) 以及DeepMind執行長戴密斯·哈薩比斯 (Demis Hassabis) 宣布:DeepMind和Google Research的Brain團隊將聯手成為一個單一的、專注的部門,稱為Google DeepMind,核心成員如下:
職位
姓名
簡介
執行長
領導通用人工智慧系統的開發。
首席科學家
向執行長戴密斯·哈薩比斯 (Demis Hassabis) 匯報,是Google最早的員工之一,他因幫助創建了一些基礎技術而受到讚譽,這些技術推動了Google在2000年初的崛起。同時他也是Google Brain團隊的聯合創始人。2015年,參與了Google機器學習框架TensorFlow的開發。2018年開始,他一直擔任Google AI的負責人。在Alphabet的人工智慧團隊進行重組後,於2023年被任命為Alphabet的首席科學家。
研究副總裁
科雷·卡武克喬格魯
Koray Kavukcuoglu
在加入DeepMind之前,是NEC美國實驗室機器學習部門的研究人員。攻讀博士學位期間,在紐約大學Yann LeCun的小組(計算和生物學習實驗室)工作,致力於特徵提取器和目標識別多階段架構的無監督學習。
副總裁
祖賓·加赫拉馬尼
Zoubin Ghahraman
2020年,加入Google Brain,擔任高級研究總監。2003年至2012年期間,擔任卡內基梅隆大學計算機科學學院副研究教授。2003年至2012年期間,擔任卡內基梅隆大學計算機科學學院副研究教授。自2009年起,成為劍橋聖約翰學院的院士,是一位英國-伊朗研究員。

科學委員會

成立以監督Google DeepMind的研究進展和方向,該委員會將由研究副總裁科雷·卡武克喬格魯(Koray Kavukcuoglu)領導。

主要競爭對手

產品名稱
產品定位
產品官網
公司名稱
模型名稱
參數規模
發布時間
國外競爭對手
AI語言模型, 多用途文本生成工具, 知識檢索整合平台, 互動式學習及教育工具。能力: 自然語言理解與生成, 多樣化文本套用, 廣泛的知識庫, 支持多語言, 定製化和可拓展性。
https://chat.openai.com
OpenAI
GPT3.5/GPT-4,Transformer
1750億
2022-11-30
Stability AI
圖像生成工具, 開源和社區嚮導。 能力:文本到圖片的轉換, 高級算法套用, 用戶友好界面,社區驅動創新。
https://stability.ai
Stability AI
Stable Diffusion XL SDXL
2022-08-22
Anthropic
可理解和透明的AI,AI研究及創新。能力: 高級語言模型, 模型可解釋性, 透明,人工智慧倫理安全。
https://www.anthropic.com
Anthropic
The Anthropic Claude modes
1750億
2022-3
AI21Labs
企業級AI解決方案, ai文本生成與編輯工具,創新的自然語言處理技術。能力: 高級語言模型, 多樣化使用場景, 用戶友好界面。
https://www.ai21.com
AI 21 Labs
Jurassic
1780億
2020-10-27
Cohere
多用途AI平台, 易於集成的API, 企業級解決方案. 能力: 用戶友好接口, 多語言自持, 文本分析生成, 高級語言模型。
https://cohere.com/
Cohere
large language models (LLMs)
520億
2022-12
國內主要競爭對手
具有自然語言處理、智慧型寫作、多模態互動和跨平台套用。能力:理解人類語言,進行智慧型推理和分析,生成高質量的文字輸出,並支持多種模態的互動方式和跨平台套用。
https://yiyan.baidu.com
百度
ERNIE Bot
2600億
2023-02-07
通義千問
成為一個通用的人工智慧助手,旨在為用戶提供全面的語言理解和生成能力。能力:它可以提供定義、解釋和建議,將文本從一種語言翻譯成另一種語言,總結文本,生成文本,寫故事,分析情緒,提供建議,開發算法,編寫代碼以及任何其他基於語言的任務。
https://tongyi.aliyun.com
阿里巴巴
QianWen
720億
2023-04-07
混元
為用戶提供高效、便捷、多樣化的智慧型服務。能力:語言理解和生成能力、圖像和視頻處理能力以及多模態互動能力,可以套用於自然語言處理、計算機視覺、語音識別等多個領域。
https://hunyuan.tencent.com
騰訊
渾元大模型
1750億
2023-09-07
360智腦
提供生成與創作、閱讀理解、多輪對話等多種能力的數字人製作和分享平台。能力:它提供了上傳和管理數字人的方便功能;大語言模型,具備跨模態生成能力,擁有文字、圖像、語音、視頻處理四大能力,可套用於文生圖、圖生圖、文生視頻等場景
https://chat.360.com/chat
360
360智腦4.0版
千億參數規模
2023-12-12
商量
商量AI是一款基於人工智慧技術的智慧型助手,旨在為用戶提供高效、便捷、個性化的服務。能力:自然語言處理能力,理解人類語言並進行語義分析和理解,同時具有智慧型推理能力,可以根據用戶輸入和歷史行為進行智慧型推薦。
https://chat.sensetime.com/wb/login
商湯
1800億
1800億
2023-4-10
訊飛星火
是科大訊飛研發的以中文為核心的新一代認知智慧型大模型。能力:內容生成能力,語言理解能力,知識問答能力,推理能力,多題型步驟級數學能力,代碼理解與生成能力。
https://xinghuo.xfyun.cn
科大訊飛
千億參數
1000億
2023-05月06
言犀
言犀的產品定位是“最懂產業的人工智慧套用平台”。能力:自然語言處理,語音生成和識別,情感智慧型,大規模數據處理能力,跨平台套用。
https://yanxi.jd.com
京東
千億參數
千億參數規模
2023-07-13
APUS大模型
APUS大模型的產品定位是致力於為中國打造AI大模型。能力:對文本、圖像、音頻、視頻的深入理解和生成能力,針對具體套用場景的垂直領域精煉模型,在產業端的落地套用,針對開發者的開放API接口和精煉模型。
https://www.apusai.com
APUS
千億參數規模
2023-4-18

Gemini聊天機器人

產品原理

Google Bard是由Google AI開發的大型語言模型(LLM)聊天機器人,它在大量文本和代碼數據集上進行訓練,可以生成文本、翻譯語言、編寫不同類型的創意內容,並以多種信息方式回答問題。 Bard的開發是為了應對OpenAI公司推出的ChatGPT聊天機器人。2023年3月,首次以有限規模推出,隨後,在2023年5月,擴展到更多國家。2024年2月8日,谷歌Gemini體驗與谷歌助理業務副總裁暨總經理Sissie Hsiao在谷歌官網發表部落格指出,聊天機器人Bard將會直接稱為Gemini,網頁版支持40種語言,並將在Android和iOS的Google應用程式上推出新的Gemini應用程式。
Bard電腦互動界面如下圖所示:
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
Bard手機界面互動示意圖
Bard由研究型大型語言模型(LLM)提供支持,可以將LLM視為一個預測引擎,當得到一個提示時,它會從下一個可能出現的單詞中一次選擇一個單詞來生成回響;它每次會選擇差異化的單詞,產生創意性的回答,因此具有一定的靈活性,使用LLM的人越多,LLM在預測的預測能力越強。
雖然LLM是一項前沿技術,但也有缺點,例如,由於LLMs從廣泛的信息中學習,而這些信息反映了現實世界中的偏見和刻板印象,因此這些偏見和刻板印象有時會出現在輸出結果中;另外,在展示信息時,也可能提供不準確、誤導性或虛假的信息,例如,當它被要求分享幾種簡易室內植物時,Bard給出了一些方案,但也弄錯了植物的學名。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
如圖所示,在這個回應中,Bard犯了個錯誤, ZZ植物的學名實際上是Zamioculcas zamiifolia,而不是 Zamioculcas zamioculcas。
目前Google Bard已經有外掛程式可用。可在多種應用程式下直接使用Bard。如:Spotify(音樂)、沃爾瑪(零售)、Adobe Firefly(圖像創作)、Google Docs(文檔編輯)、Google Maps(出行導航)。

語言模型

LLM是谷歌大型語言模型家族,它包含多個不同語言。Bard最初建立在LaMDA系列的基礎上,後來過渡到了基於PaLM 2的模型上。Bard的語言模型疊代:
有趣的是,據谷歌稱,ChatGPT的語言模型GPT-3也是基於Transformer構建的。谷歌決定使用自己的LLM,即LaMDA和PaLM 2,這是谷歌的一個大膽決定,因為主流的一些AI聊天機器人,包括ChatGPT和必應聊天、都是用的GPT語言模型

未來規劃

Google對Bard的未來有多項計畫,包括:
1)讓Bard變得更加貼近生活、更加全球化 以更多語言提供給世界各地更多的人。
2)提高Bard的能力Google正在繼續培訓和提高Bard生成文本、翻譯語言、編寫不同類型的創意內容以及以信息豐富的方式回答問題的能力。
3)使Bard與其他Google產品和服務更加集成努力讓用戶更輕鬆地從其他Google產品(例如Gmail、Docs和Drive)中訪問和使用Bard。
4)為Bard開發新功能和工具Google正在探索讓Bard對用戶更加有用和多功能的方法,例如開發代碼生成、創意寫作和研究協助的新功能。
Google的目標是使Bard成為一款強大且多功能的AI工具,可供各行各業的人們使用,以提高工作效率、創造力和見識。Google為Bard的未來套用方向具體示例如下:
1)Bard擴展
Google正在開發Bard擴展,這是可以與Bard集成以添加新特性和功能的第三方應用程式。例如,Bard擴展可用於生成視頻的實時字幕或創建個性化的行銷活動。
2)開發者能力
Google通過提供API和文檔,讓開發人員更輕鬆地使用Bard構建應用程式。這將使開發人員能夠創建新的、創新的方式來使用Bard,例如聊天機器人、虛擬助手和教育工具。
3)為研究員提供便利
Google正在努力開發數據分析和可視化的新功能,讓Bard對研究人員更加便利。這將使研究人員能夠使用Bard從數據中獲得新的視角,並更有效地傳達觀點。

競爭格局

產業格局

巨頭主導,垂類分化
網際網路巨頭具備先發優勢,晶片層、模型層、套用層布局完備。網際網路巨頭在AI領域投入已久,百度2014年即成立人工智慧實驗室,阿里、騰訊、位元組跳動也於2016年成立人工智慧實驗室,此後各家在晶片層、模型層及套用層持續探索,不斷完善布局,在研發、模型、數據、套用等方面已積累顯著的先發優勢。
算法模型:追隨海外技術進展,研發突破是競爭關鍵。從技術路線來看,國內大模 型主要追隨海外進展。基於谷歌在人工智慧領域更高的影響力以及BERT開原始碼,前期中國企業在大模型領域的探索更多參考BERT路線。隨著ChatGPT在人機對話領域的超預期表現驗證了高質量數據+反饋激勵(大模型預訓練+小數據微調)的有效性,國內大模型技術路線也逐漸向GPT方向收斂。儘管模型架構設計的不同對特定任務上的表現有一定影響,但國內大模型廠商在技術上基本同源,從而導致了現階段較為相似的模型能力,下一階段對於GPT方向的研發突破將是競爭關鍵。
算力:網際網路廠商在算力資源上具備優勢。隨著模型參數和複雜度的提升,大模型對算力的需求也在加速增長。當前國內已發布的大模型中,參數規模達到千億及以上的廠商僅為10個左右,一定程度上體現出各廠商之間算力能力的差異。
數據:優質開源中文數據集稀缺,自有數據及處理能力構成模型訓練壁壘。得益於開源共創的網際網路生態,海外已有大量優質、結構化的開源資料庫,文本來源既包含嚴 謹的學術寫作、百科知識,也包含文學作品、新聞媒體、社交網站、流行內容等,更加豐富的語料數據能夠提高模型在不同情景下的對話能力。而受制於搭建數據集較高的成本以及尚未成熟的開源生態,國內開源數據集在數據規模和語料質量上相比海外仍有較大差距,數據來源較為單一,且更新頻率較低,從而導致模型的訓練效果受限。因此, 大模型廠商的自有數據和處理能力構成模型訓練效果差異化的核心。
資源投入:網際網路廠商重研發投入,資金及人才實力領先。大模型的訓練需要較高且可持續的研發投入,頭部網際網路企業兼具高資本密度和高人才密度優勢。
場景:業務豐富多元,網際網路廠商天然具備落地實踐場景。考慮到數據隱私和安全合規,初期通用大模型在行業落地時可能會面臨一定的信任問題,從而導致較高的獲客成本。而頭部網際網路平台基於自身在電商、搜尋、遊戲、金融等領域豐富的業務積累,天然具備落地實踐場景。在提高產品效率的同時,也有望率先形成示範效應,從而有助於外部客戶和套用的拓展。
格局推演:網際網路巨頭有望保持領先地位,中小廠商或將面臨路徑選擇。
綜合上述分析,結合行業競爭要素,並參考海外當前競爭格局,國內大模型賽道有望形成與海外相似的產業趨勢,兼具技術、資金、人才和場景優勢的頭部網際網路企業有望 成為大模型領域的重要玩家,而中小廠商或將面臨路徑選擇。一方面,中小廠商可以利用自身在垂類場景和數據層面積累的優勢,成為聚焦垂類的核心特色玩家;另一方面, 基於訓練和用戶調用帶來的算力需求的激增,考慮到資源優勢和經濟性,中小廠商或將 尋求雲廠商的支持和合作。

巨頭布局

短看技術突破, 長看生態壁壘
阿里巴巴:2014年即成立了數據科學與技術研究院,2016年成立人工智慧實驗室,2017年成立達摩院,後續成立AI晶片自研團隊作為算力支持,並陸續發布了中文社區最大規模預訓練語言模型PLUG和多模態大模型M6。除自研投入外,阿里也在AI核心產業環節積極進行對外投資,在晶片領域投資寒武紀、深鑒科技等,機器視覺和深度學習領域投資商湯科技、曠視科技等,套用領域投資小鵬、小i機器人等。
百度:2011年在矽谷開設辦公室,並在2017年提出“All in AI”的公司戰略。從AI技術體系來看,百度是國內少數在AI領域全棧自研布局的公司之一,在晶片層、框架層、模型層和套用層均有自研投入。晶片層,百度已有兩代自研崑崙芯實現量產,預計第三代崑崙芯將於2024年初實現規模上市;框架層,百度飛槳經過6年開發並逐漸成熟後,成為中國首個開源開放、 功能完備的端到端深度學習平台,截至2022年11月,百度飛槳已有535萬開發者,服務了20萬家企事業單位,創建了67萬個模型;模型層,百度最早於2019年推出文心大模型並不斷疊代,並於2021年發布百億級大模型文心ERNIE 3.0和千億級大模型文心ERNIE 3.0 Titan;套用層,百度推出生成式AI對話產品文心一言以及面向企業客戶的文心千帆大模型平台,通過實踐場景驗證大模型能力。百度全棧自研布局的優勢在於各層之間的反饋有望進一步驅動技術能力的最佳化,提升疊代效率。2023年以來,隨著ChatGPT引發新一輪AI產業熱潮,百度亦加速在AIGC及多模態大模型領域的布局, 先後投資text-to-video生成技術與社區的初創企業Morph Studio、人工智慧公司西湖心辰及多模態大模型公司生數科技。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
騰訊:重視AI發展,內生+外延雙輪並驅。騰訊2016年成立AI Lab,並在2017年提出 “make AI everywhere”的戰略願景,2018年建立以人工智慧與前沿科技為基礎的兩大實驗室矩陣。對外投資方面,截至2022年底,騰訊共投資53家國內AI公司,多次投資AI算力晶片公司燧原科技、企業級認知智慧型服務平台明略科技等,並在2023年投資深言科技、MiniMax、光年之外等大模型企業。
位元組跳動:2016年成立人工智慧實驗室,將其定位為公司內部的研究所和技術服務商,為平台輸出的大規模內容提供AI技術支持。這段時間,AI研究成果主要與業務相結合,研發重點集中在機器翻譯、智慧型語音、視頻圖像和多模態等領域,而大模型相關積累相對薄弱。2023年成立大模型團隊,搜尋、智創兩部門牽頭。語言大模型團隊由搜尋部門牽頭,圖片大模型團隊則由產品研發與工程架構部下屬的智慧型創作團隊牽頭。

模型爭議

測試方法

Gemini與ChatGPT測試方法存疑,且分數存在誇大嫌疑
谷歌稱Gemini的MMLU的得分率高於GPT-4時,顯示GPT-4的得分率是86.4%,但根據谷歌發布的60頁技術報告,Gemini Ultra的MMLU測試結果下有 “CoT@32” 的小字注釋,表示其使用了思維鏈提示技巧,嘗試了32次並從中選擇最好結果。而作為對比的GPT-4卻是無提示詞技巧給5個示例,在這個標準下,Gemini Ultra的測試結果其實是83.7%,低於GPT-4的86.4%。
同樣使用CoT@32的方法,即使成績仍低於Gemini Ultra,GPT-4的得分率也達到了87.29%。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)

虛假剪輯

Gemini的演示視頻存在剪輯效果
在推出Gemini後,谷歌發布了一個時長六分鐘的演示視頻,展現了測試員和Gemini的一些有趣互動,其中包括讓Gemini識別圖片並用多種語言描述、讓Gemini利用一張地圖設計智力問答、和Gemini玩杯子遊戲和推理小遊戲等等。在整個過程中,Gemini的反應速度都非常快,還會生成音頻和圖片來輔助回答,並用上一些口語化乃至幽默化的表達。
但很快,網友發現此視頻不是實時錄製,而是經過了剪輯。視頻演示中向Gemini展示靜態圖像時,同時有聲音讀出向Gemini發出的人工提示詞。這與谷歌似乎暗示的完全不同:當Gemini實時觀察周圍的世界並做出反應時,一個人可以與Gemini進行流暢的對話。
谷歌在一篇部落格文章中解釋了多模態互動過程,基本上也間接承認了只有使用靜態圖片和多段提示詞拼湊,才能達成演示視頻中的效果。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
官網截圖
如上圖,在文章中,谷歌承認,不同於視頻中對於猜拳手勢的快速反應,只有在向Gemini同時展示這三個手勢並提示其這是遊戲時,Gemini才會得出猜拳遊戲的結論。
沃頓商學院教授伊桑·莫利克(Ethan Mollick)也在X平台上進行了演示,如果是使用靜態圖片和多段提示詞,完全可以通過ChatGPT Plus來複製Gemini的表現,如下圖所示。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
在質疑發酵後,谷歌DeepMind產品副總裁伊萊·柯林斯(Eli Collins)對外媒回應稱,視頻中的畫鴨子演示(畫一個鴨子的簡筆畫,Gemini可以對每一步驟做出正確的解釋)確實是研究級別的功能,還未出現在谷歌的實際產品中。
谷歌DeepMind研究和深度學習負責人副總裁奧里奧爾·維尼亞爾斯(Oriol Vinyals)也在X(原推特)平台上發布長文,解釋了團隊是如何製作該視頻的:“視頻中的所有用戶提示和輸出都是真實的,只是為了簡潔而進行了縮短。” 維尼亞爾斯還表示:“該視頻展示了使用Gemini構建的多模態用戶體驗是什麼樣子。我們這樣做是為了激勵開發人員。”
在谷歌宣布推出“雙子星”AI大模型後,不少網民通過問答系統向AI下達指令,但他們發現,這個系統在生成圖像時,刻意避免展示白人的形象。此外,該系統還因為執行“多元化”價值觀鬧出了不少笑話。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
如上圖所示,一名外國網民在社交媒體發文表示,當自己要求“雙子星”生成一張“白人家庭”的圖片時,系統表示自己“無法生成針對特定族群的圖片”,理由是“此類內容可能存在歧視、刻板印象”。而當該網民要求生成一張“黑人家庭”的圖片時,“雙子星”則正常按照要求輸出了圖片。
更荒誕的是,有網民稱自己讓“雙子星”生成“1943年德軍士兵”的圖片時,系統居然向其展示了由黑人、亞裔和白人女性身穿納粹德軍制服的照片,而這顯然和歷史事實不符。
Gemini(谷歌於2023年12月推出的人工智慧多模態大模型)
隨著越來越多網民在網上抱怨類似的問題後,“雙子星”系統負責人傑克·克拉夫奇克對美國福克斯新聞等媒體承認,“雙子星”之所以出現這些問題,是因為谷歌一直力圖讓該系統“呈現多元化社會”,而對於網友列舉的各種問題,克拉夫奇克表示谷歌團隊“正在加緊更正這些情況”。

產品事件

2024年2月24日據美聯社報導,對於用戶反饋谷歌公司推出的人工智慧(AI)模型Gemini在生成人物圖像時出現疑似“反白人”的問題,谷歌高級副總裁普拉巴卡爾·拉加萬23日進行了道歉。谷歌稱,將暫時停止Gemini運行生成人物圖像的功能。

相關詞條

熱門詞條

聯絡我們