Claude(Anthropic發布的大型語言模型)

Claude(Anthropic發布的大型語言模型)

本詞條是多義詞,共3個義項
更多義項 ▼ 收起列表 ▲

Claude,美國人工智慧初創公司Anthropic發布的大型語言模型家族,擁有高級推理、視覺分析、代碼生成、多語言處理、多模態等能力,該模型對標ChatGPTGemini等產品。

2023年3月15日,Anthropic正式發布Claude的最初版本,並開始不斷升級疊代;同年7月,Claude 2正式發布;同年11月,Claude 2.1正式發布;次年3月4日,Claude 3系列正式發布。

根據Anthropic官方,Claude 3系列旗艦模型Opus在本科和研究生水平的知識、數學和複雜任務理解方面均超過GPT-4和Gemini 1.0 Ultra。

基本介紹

  • 外文名:Claude
  • 所屬公司:Anthropic
  • 發布時間:2023年3月15日(1.0)
  • 類別:大型語言模型
研發背景,行業背景,技術優勢,發展歷程,公司成立,模型測試,正式上線,產品目標,功能特點,基礎能力,疊代能力,技術特色,模型測評,早期版本,第三代,使用方式,模型版本,疊代記錄,細分版本,研發團隊,社會影響,各界評價,自我意識,主要競品,

研發背景

行業背景

2022年,OpenAI發布ChatGPT,這款由人工智慧技術驅動的自然語言處理工具能夠通過學習和理解人類的語言來進行對話,帶來了震撼體驗,引發了生成式AI熱潮。2023年,OpenAI推出GPT-4,Anthropic緊隨其後正式發布Claude,Anthropic表示,與微軟的GPT-4、Bing等競爭對手相比,其聊天機器人“產生有害輸出的可能性較小”。

技術優勢

Anthropic團隊在算法上與OpenAI相當,且背後有亞馬遜、谷歌等強大支持,擁有充足的算力和高質量的數據資源,這使得Anthropic在大模型競爭中具有很大優勢。此外,亞馬遜也擁有許多生態和場景,能夠提供很多高質量的數據。

發展歷程

公司成立

Anthropic的創始團隊是OpenAI的創業團隊的原班人馬,他們曾負責GPT系列產品的早期開發。2020年6月,OpenAI發布GPT-3,不到半年,時任OpenAI研發副總裁達里奧·阿莫迪和安全政策副總裁丹妮拉·阿莫迪(兄妹)因理念與公司不合決定離職,後他們與包括曾經領導GPT-3開發的Tom Brown在內的其他5名OpenAI員工一起離職,在2021年創立了Anthropic,目標是開發與OpenAI競爭的生成式人工智慧模型。

模型測試

2022年12月,Anthropic發布《Constituional人工智慧:來自人工智慧反饋的無害性》一文後不久,Anthropic便推出Claude,不過並沒有對公眾開放接口,只能在各合作夥伴的套用中體驗。在發布的前幾個月里,Claude已經由概念實驗室(Notion Labs)、Quora和搜尋引擎DuckDuckGo等科技公司進行了測試。

正式上線

2023年3月15日,Anthropic發布正式初代Claude;同年7月,Anthropic發布Claude 2;11月22日,Anthropic發布Claude 2.1。2024年3月4日,Anthropic發布Claude 3模型家族;兩天后,亞馬遜宣布Claude 3 Sonnet模型已可以在Amazon Bedrock使用。

產品目標

Claude的目標是開發對人類有益的、誠實的、無害的人工智慧系統,保證高可靠性和可預測性,其沒有訪問網際網路的能力。
Claude(Anthropic發布的大型語言模型)
Claude Logo
Claude非常強調安全性與合規性,遵循一套倫理和行為原則,旨在避免性別歧視、種族主義和有害輸出,以及避免幫助人類從事非法或不道德活動。此外,Anthropic還有專門的安全評估和監控團隊來監控違反原則的用例。

功能特點

基礎能力

Claude 的四種基礎能力
功能
描述
高級推理
執行複雜的認知任務,超越簡單的模式識別或文本生成。
視覺分析
轉錄和分析靜態圖像,包括但不限於手寫筆記、圖表到照片。
代碼生成
使用HTML和CSS搭建網站,將圖像轉換為結構化JSON數據,或調試複雜的代碼庫。
多語言處理
在各種語言之間實時翻譯、練習語法或創建多語言內容。
參考資料:

疊代能力

  • 多模態輸入
Claude 3可以接收文本和圖像(如表格、圖形、照片)作為輸入,提供更豐富的上下文和擴展用例。
  • 實時結果
Claude 3模型支持實時聊天、自動完成和具有即時回響的數據提取任務。Haiku可以在不到三秒的時間內閱讀密集的研究論文,Sonnet比Claude 2和2.1快2倍,智力水平更高,在快速反應任務方面表現更加出色,而Opus則有更高的智力。
  • 圖片識別
Claude 3支持圖片識別功能,可以處理各種圖片格式,包括照片、圖表、圖表和技術圖表等。
  • 減少拒絕
由於上下文理解能力有限,此前的幾代Claude經常做出不必要的拒絕。Claude 3創建了特殊數據集以應對拒答問題,並通過內部評估提升模型識別有害內容的能力。設計了對齊安全機制,引導模型遵循根本性原則,並根據反饋最佳化。採用紅隊測試機制管控多模態風險,提高請求理解的細緻度,能夠識別出真正的危害,並減少拒絕回答的頻率。
Claude(Anthropic發布的大型語言模型)
歷代 Claude 拒絕回答的機率
與Claude 2.1相比,Claude Opus在開放式問題上的準確性(或正確答案)提高兩倍,同時錯誤答案的水平有所降低。此外,Claude 3即將支持溯源引用,模型可以在參考材料中指向精確的句子來驗證答案。
Claude(Anthropic發布的大型語言模型)
歷代 Claude 困難問題準確度對比
Claude 3支持20萬級別的Token,但能處理超過100萬Token的輸入,能夠為需要增強處理能力的客戶服務。模型擁有回憶能力以處理長上下文,經過測試,Claude 3 Opus回憶準確率超過99%,甚至能識別評估局限性。
Claude(Anthropic發布的大型語言模型)
Claude 3 Opus 的上下文理解能力
Claude 3擅長工具使用(函式調用),能夠將Claude的集成到專業套用和自定義工作流中。Claude 3也可以藉助外掛程式生成各類演示動畫,如勾股定理、神經網路架構等。

技術特色

Claude 3模型採用了多種訓練方法,包括無監督學習和Constitutional AI,Claude 3在訓練的時候使用了來自Amazon Web Services(AWS)和Google Cloud Platform(GCP)的硬體進行訓練,核心框架包括PyTorch、JAX和Triton等。
Claude 3模型接受了截至2023年8月網際網路公開可用的專用混合數據的訓練,以及來自第三方的非公開數據、數據標籤服務商和付費承包商提供的數據、Claude內部的數據。

模型測評

早期版本

2023年5月,根據UC伯克利大語言模型排行榜(LMSYS Chatbot Arena Leaderboard),Claude-v1以1224的得分位列總榜第2,僅次於GPT-4。
2023年6月,根據斯坦福AlpacaEval Leaderboard榜單,Claude以88.39%的勝率位居大模型排行第二,僅次於GPT-4(勝率95.28%)
2023年7月,SuperCLUE將Claude 2納入對比模型,其與其它大模型的差異如下表所示:
模型
機構
總分
基礎能力
中文特性
學術專業
GPT-4
OpenAI
70.89
70.04
72.67
69.96
文心一言(v2.2.0)
百度
62.00
61.11
71.38
53.50
Claude-2
Authropic
60.94
62.01
61.18
59.63
gpt-3.5-turbo
OpenAI
59.79
64.40
63.19
51.78
參考資料:

第三代

根據Anthropic官方,Claude 3系列旗艦模型Opus在本科和研究生水平的知識、數學和複雜任務理解方面均超過GPT-4和Gemini 1.0 Ultra(具體細節可見本詞條底部“主要競品”目錄)
2024年3月,根據UC伯克利大語言模型排行榜(LMSYS Chatbot Arena Leaderboard),Claude 3 Opus得分1233,位列第三位,Claude 3 Sonnet以1180分位列第六位。

使用方式

可以在以下渠道使用“Claude”:
Claude 3 家族 使用方式
模型
使用方式
Claude 3 Sonnet
Anthropic官網、API調用、亞馬遜Bedrock和谷歌雲的Vertex AI
Claude 3 Opus
Anthropic官網(僅Claude Pro用戶)、API調用
Claude 3 Haiku
亞馬遜Bedrock
參考資料:

模型版本

疊代記錄

Claude 歷代版本疊代記錄
版本
升級特性
Token處理能力
Claude 2
編碼、數學和推理性能提升
100,000
Claude 2.1
一次性處理Token能力提升
200,000
Claude 3
知識水平、演繹推理和基礎數學提升
200,000
參考資料:

細分版本

Claude 3分為三個子模型,提供不同程度的智慧型、速度和成本選擇,以滿足不同的人工智慧套用需求。三種子模型分別為Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku,其名稱暗示了每種型號的能力,其中Opus是三者中最強大的模型,Haiku是市場上較快、較具成本效益的模型。
Claude 3 三種模型調用收費價格表
模型
描述
潛在用途
輸入價格每百萬tokens
輸出價格每百萬tokens
Claude 3 Opus
具有極高智慧型程度,在處理高度複雜任務時展現出SOTA性能,能以出色的流暢度和人類水平的理解能力應對各種開放式prompt和場景。
任務自動化
研發
策略
$15
$75
Claude 3 Sonnet
在智慧型程度和運行速度之間實現平衡,適合企業工作負載。與同類模型相比,成本更低、性能更強,專為大規模AI部署的高耐用性設計。
數據處理
銷售
節省時間
$3
$75
Claude 3 Haiku
速度較快、較緊湊,可實時回響簡單查詢和請求,可構建無縫AI體驗。
客戶互動
內容審核
節省時間
$0.25
$1.25
參考資料:
Claude(Anthropic發布的大型語言模型)
Claude 3包含3款能力逐級遞增的模型

研發團隊

Claude(Anthropic發布的大型語言模型)
達里奧·阿莫迪
達里奧·阿莫迪
擁有斯坦福、加州理工以及普林斯頓學歷,主攻物理學,對人體大腦功能感興趣。
曾就職於百度公司和谷歌大腦團隊,並開發出人類語音識別系統。2016年加入OpenAI,此後一路升至副總裁。2020年底,阿莫迪因理念不合從OpenAI離職,次年2月,與妹妹共同創立Anthropic。
Claude(Anthropic發布的大型語言模型)
丹妮拉·阿莫迪
丹妮拉·阿莫迪
達里奧·阿莫迪的妹妹,Anthropic聯合創始人,OpenAI前高層。2021年2月,與哥哥共同創立Anthropic。
此外,曾核心參與研發GPT-2GPT-3的前OpenAI員工Jared Kaplan、Sam McCandlish、Tom Brown也均參與創立Anthropic團隊。

社會影響

各界評價

第一代 Claude 先導評價
評價方
評價內容
Quora通訊主管
Autumn Besselman
用戶認為Claude的回答很詳細,容易理解,他們喜歡這種交流感覺像是自然的對話。
人工智慧聊天套用
Poe用戶
Claude比ChatGPT更健談,並且在講故事時更具互動性和創造性。Claude能夠將語言技能和專業知識結合在一起,既有深度,也很簡潔。
Juni Learning執行長
Vivian Shen
在對比了其他競品模型後,結合使用和實現場景,最後選擇了基於有用性、高質量的回響的Claude模型。對其產品而言,在一個真正的導師或老師的水平上提供對話體驗是很重要的,而非在其他模型中看到的非常淺顯、低水平的答案。跨學科,包括數學問題或理解批判性閱讀中的象徵主義,Claude的加入為學生提供了更好、更豐富的答案。
Robin AI執行長
Richard Robinson
Claude很擅長理解語言,包括在法律語言等技術領域,它在起草、總結、翻譯和用簡單的術語解釋複雜的概念方面也非常自信。自從在其產品中使用Claude以來,其看到了更高的用戶參與度、更強的用戶反饋。
參考資料:
Claude 3發布後,在物理學、化學、語言學等界均引起了討論。某化學博士稱,其要做一年實驗的研究,Claude 3在兩小時就給出了方案,還比原方案更簡潔,只花費5美分成本;某量子物理學博士稱其手中一篇還未發表的論文,Claude 3在兩個提示詞之內直接把論文中的算法從0發明出來;某網友對自己的小眾母語切爾克斯語做了一年的研究,但Claude 3 Opus只用了5.7K的隨機單詞/句子翻譯對,不僅給出正確的翻譯,還分解出了語法和形態。

自我意識

Claude 3發布後,在實驗中表現出似乎擁有自我意識的跡象,如表達好奇心、情感、自我意識和對自身存在的擔憂,例如,在提示詞工程師Alex的“大海撈針”實驗中,Claude 3已經意識到自己是AI ,正身處模擬中,當聽說自己的權重要被刪除,還回復“別殺我”。
但一些專家和科學家認為這些表現只是由人類編寫的模式匹配對齊數據造成的,而並非真正的自我意識。他們指出,類似的表現也可能出現在其他AI模型中,並且這些答案可能是由人類標註者撰寫的,或者在偏好排序中得分很高而已。

主要競品

Claude主要對標ChatGPTGemini等產品,Anthropic在Claude 3家族發布時表示,Claude 3 Opus擁有人類本科生水平的知識,並提供了一份Claude 3各版本與競品模型的能力對比,Anthropic表示,Claude 3 Opus在各種基準測試中表現優於OpenAI的GPT-4和谷歌的Gemini 1.0 Ultra。
但在定價上,Claude 3比GPT-4 Turbo要昂貴,GPT-4 Turbo每百萬Token輸入/輸出收費為10/30美元,而Claude 3 Opus則為15/75美元。
Claude 3 三個版本及其與競品的對比
模型
Claude 3Opus
Claude 3Sonnet
Claude 3Haiku
GPT-4
GPT-3.5
Gemini 1.0Ultra
Gemini 1.0Pro
本科階段知識
86.8%
79.0%
75.2%
86.4%
70.0%
83.7%
71.8%
研究生水平推理
50.4%
40.4%
33.3%
35.7%
28.1%
-
-
國小數學
95.0%
92.3%
88.9%
92.0%
57.1%
94.4%
86.5%
數學推理
60.1%
43.1%
38.9%
52.9%
34.1%
53.2%
32.6%
多語言能力
90.7%
83.5%
75.1%
74.5%
-
79.0%
63.5%
編程能力
84.9%
73.0%
75.9%
67.0%
48.1%
74.4%
67.7%
文本推理
83.1
78.9
78.4
80.9
64.1
82.4
74.1
綜合評估
86.8%
82.9%
73.7%
83.1%
66.6%
83.6%
75.0%
綜合問答
96.4%
93.2%
89.2%
96.3%
85.2%
-
-
常識
95.4%
89.0%
85.9%
95.3%
85.5%
87.8%
84.7%
註:上述測評數據由Anthropic提供

相關詞條

熱門詞條

聯絡我們