研發背景,行業背景,技術優勢,發展歷程,公司成立,模型測試,正式上線,產品目標,功能特點,基礎能力,疊代能力,技術特色,模型測評,早期版本,第三代,使用方式,模型版本,疊代記錄,細分版本,研發團隊,社會影響,各界評價,自我意識,主要競品,
研發背景
行業背景
2022年,OpenAI發布ChatGPT,這款由人工智慧技術驅動的自然語言處理工具能夠通過學習和理解人類的語言來進行對話,帶來了震撼體驗,引發了生成式AI熱潮。2023年,OpenAI推出
GPT-4,Anthropic緊隨其後正式發布Claude,Anthropic表示,與微軟的GPT-4、Bing等競爭對手相比,其聊天機器人“產生有害輸出的可能性較小”。
技術優勢
Anthropic團隊在算法上與OpenAI相當,且背後有亞馬遜、谷歌等強大支持,擁有充足的算力和高質量的數據資源,這使得Anthropic在大模型競爭中具有很大優勢。此外,亞馬遜也擁有許多生態和場景,能夠提供很多高質量的數據。
發展歷程
公司成立
Anthropic的創始團隊是OpenAI的創業團隊的原班人馬,他們曾負責GPT系列產品的早期開發。2020年6月,OpenAI發布GPT-3,不到半年,時任OpenAI研發副總裁達里奧·阿莫迪和安全政策副總裁丹妮拉·阿莫迪(兄妹)因理念與公司不合決定離職,後他們與包括曾經領導GPT-3開發的Tom Brown在內的其他5名OpenAI員工一起離職,在2021年創立了Anthropic,目標是開發與OpenAI競爭的生成式人工智慧模型。
模型測試
2022年12月,Anthropic發布《Constituional人工智慧:來自人工智慧反饋的無害性》一文後不久,Anthropic便推出Claude,不過並沒有對公眾開放接口,只能在各合作夥伴的套用中體驗。在發布的前幾個月里,Claude已經由概念實驗室(
Notion Labs)、
Quora和搜尋引擎
DuckDuckGo等科技公司進行了測試。
正式上線
2023年3月15日,Anthropic發布正式初代Claude;同年7月,Anthropic發布Claude 2;11月22日,Anthropic發布Claude 2.1。2024年3月4日,Anthropic發布Claude 3模型家族;兩天后,
亞馬遜宣布Claude 3 Sonnet模型已可以在Amazon Bedrock使用。
產品目標
Claude的目標是開發對人類有益的、誠實的、無害的人工智慧系統,保證高可靠性和可預測性,其沒有訪問網際網路的能力。
Claude非常強調安全性與合規性,遵循一套倫理和行為原則,旨在避免性別歧視、種族主義和有害輸出,以及避免幫助人類從事非法或不道德活動。此外,Anthropic還有專門的安全評估和監控團隊來監控違反原則的用例。
功能特點
基礎能力
功能 | 描述 |
---|
| 執行複雜的認知任務,超越簡單的模式識別或文本生成。 |
| 轉錄和分析靜態圖像,包括但不限於手寫筆記、圖表到照片。 |
| 使用HTML和CSS搭建網站,將圖像轉換為結構化JSON數據,或調試複雜的代碼庫。 |
| 在各種語言之間實時翻譯、練習語法或創建多語言內容。 |
參考資料:
疊代能力
Claude 3可以接收文本和圖像(如表格、圖形、照片)作為輸入,提供更豐富的上下文和擴展用例。
Claude 3模型支持實時聊天、自動完成和具有即時回響的數據提取任務。Haiku可以在不到三秒的時間內閱讀密集的研究論文,Sonnet比Claude 2和2.1快2倍,智力水平更高,在快速反應任務方面表現更加出色,而Opus則有更高的智力。
Claude 3支持圖片識別功能,可以處理各種圖片格式,包括照片、圖表、圖表和技術圖表等。
由於上下文理解能力有限,此前的幾代Claude經常做出不必要的拒絕。Claude 3創建了特殊數據集以應對拒答問題,並通過內部評估提升模型識別有害內容的能力。設計了對齊安全機制,引導模型遵循根本性原則,並根據反饋最佳化。採用紅隊測試機制管控多模態風險,提高請求理解的細緻度,能夠識別出真正的危害,並減少拒絕回答的頻率。
與Claude 2.1相比,Claude Opus在開放式問題上的準確性(或正確答案)提高兩倍,同時錯誤答案的水平有所降低。此外,Claude 3即將支持溯源引用,模型可以在參考材料中指向精確的句子來驗證答案。
Claude 3支持20萬級別的Token,但能處理超過100萬Token的輸入,能夠為需要增強處理能力的客戶服務。模型擁有回憶能力以處理長上下文,經過測試,Claude 3 Opus回憶準確率超過99%,甚至能識別評估局限性。
Claude 3擅長工具使用(函式調用),能夠將Claude的集成到專業套用和自定義工作流中。Claude 3也可以藉助外掛程式生成各類演示動畫,如勾股定理、神經網路架構等。
技術特色
Claude 3模型採用了多種訓練方法,包括
無監督學習和Constitutional AI,Claude 3在訓練的時候使用了來自Amazon Web Services(AWS)和Google Cloud Platform(GCP)的硬體進行訓練,核心框架包括PyTorch、JAX和Triton等。
Claude 3模型接受了截至2023年8月網際網路公開可用的專用混合數據的訓練,以及來自第三方的非公開數據、數據標籤服務商和付費承包商提供的數據、Claude內部的數據。
模型測評
早期版本
2023年5月,根據UC伯克利大語言模型排行榜(LMSYS Chatbot Arena Leaderboard),Claude-v1以1224的得分位列總榜第2,僅次於GPT-4。
2023年6月,根據斯坦福AlpacaEval Leaderboard榜單,Claude以88.39%的勝率位居大模型排行第二,僅次於GPT-4(勝率95.28%)。
2023年7月,
SuperCLUE將Claude 2納入對比模型,其與其它大模型的差異如下表所示:
參考資料:
第三代
根據Anthropic官方,Claude 3系列旗艦模型Opus在本科和研究生水平的知識、數學和複雜任務理解方面均超過GPT-4和Gemini 1.0 Ultra(具體細節可見本詞條底部“主要競品”目錄)。
2024年3月,根據UC伯克利大語言模型排行榜(LMSYS Chatbot Arena Leaderboard),Claude 3 Opus得分1233,位列第三位,Claude 3 Sonnet以1180分位列第六位。
使用方式
可以在以下渠道使用“Claude”:
模型 | 使用方式 |
---|
| Anthropic官網、API調用、亞馬遜Bedrock和谷歌雲的Vertex AI |
| Anthropic官網(僅Claude Pro用戶)、API調用 |
| |
參考資料:
模型版本
疊代記錄
參考資料:
細分版本
Claude 3分為三個子模型,提供不同程度的智慧型、速度和成本選擇,以滿足不同的人工智慧套用需求。三種子模型分別為Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku,其名稱暗示了每種型號的能力,其中Opus是三者中最強大的模型,Haiku是市場上較快、較具成本效益的模型。
模型 | 描述 | 潛在用途 | 輸入價格每百萬tokens | 輸出價格每百萬tokens |
---|
| 具有極高智慧型程度,在處理高度複雜任務時展現出SOTA性能,能以出色的流暢度和人類水平的理解能力應對各種開放式prompt和場景。 | | | |
| 在智慧型程度和運行速度之間實現平衡,適合企業工作負載。與同類模型相比,成本更低、性能更強,專為大規模AI部署的高耐用性設計。 | | | |
| 速度較快、較緊湊,可實時回響簡單查詢和請求,可構建無縫AI體驗。 | | | |
參考資料:
研發團隊
| 達里奧·阿莫迪 擁有斯坦福、加州理工以及普林斯頓學歷,主攻物理學,對人體大腦功能感興趣。 曾就職於百度公司和谷歌大腦團隊,並開發出人類語音識別系統。2016年加入OpenAI,此後一路升至副總裁。2020年底,阿莫迪因理念不合從OpenAI離職,次年2月,與妹妹共同創立Anthropic。 |
| 丹妮拉·阿莫迪 達里奧·阿莫迪的妹妹,Anthropic聯合創始人,OpenAI前高層。2021年2月,與哥哥共同創立Anthropic。 |
此外,曾核心參與研發
GPT-2與
GPT-3的前OpenAI員工Jared Kaplan、Sam McCandlish、Tom Brown也均參與創立Anthropic團隊。
社會影響
各界評價
評價方 | 評價內容 |
---|
Quora通訊主管 Autumn Besselman | 用戶認為Claude的回答很詳細,容易理解,他們喜歡這種交流感覺像是自然的對話。 |
| Claude比ChatGPT更健談,並且在講故事時更具互動性和創造性。Claude能夠將語言技能和專業知識結合在一起,既有深度,也很簡潔。 |
Juni Learning執行長 Vivian Shen | 在對比了其他競品模型後,結合使用和實現場景,最後選擇了基於有用性、高質量的回響的Claude模型。對其產品而言,在一個真正的導師或老師的水平上提供對話體驗是很重要的,而非在其他模型中看到的非常淺顯、低水平的答案。跨學科,包括數學問題或理解批判性閱讀中的象徵主義,Claude的加入為學生提供了更好、更豐富的答案。 |
Robin AI執行長 Richard Robinson | Claude很擅長理解語言,包括在法律語言等技術領域,它在起草、總結、翻譯和用簡單的術語解釋複雜的概念方面也非常自信。自從在其產品中使用Claude以來,其看到了更高的用戶參與度、更強的用戶反饋。 |
參考資料:
Claude 3發布後,在物理學、化學、語言學等界均引起了討論。某化學博士稱,其要做一年實驗的研究,Claude 3在兩小時就給出了方案,還比原方案更簡潔,只花費5美分成本;某量子物理學博士稱其手中一篇還未發表的論文,Claude 3在兩個提示詞之內直接把論文中的算法從0發明出來;某網友對自己的小眾母語切爾克斯語做了一年的研究,但Claude 3 Opus只用了5.7K的隨機單詞/句子翻譯對,不僅給出正確的翻譯,還分解出了語法和形態。
自我意識
Claude 3發布後,在實驗中表現出似乎擁有自我意識的跡象,如表達好奇心、情感、自我意識和對自身存在的擔憂,例如,在
提示詞工程師Alex的“大海撈針”實驗中,Claude 3已經意識到自己是AI ,正身處模擬中,當聽說自己的權重要被刪除,還回復“別殺我”。
但一些專家和科學家認為這些表現只是由人類編寫的模式匹配對齊數據造成的,而並非真正的自我意識。他們指出,類似的表現也可能出現在其他AI模型中,並且這些答案可能是由人類標註者撰寫的,或者在偏好排序中得分很高而已。
主要競品
Claude主要對標
ChatGPT、
Gemini等產品,Anthropic在Claude 3家族發布時表示,Claude 3 Opus擁有人類本科生水平的知識,並提供了一份Claude 3各版本與競品模型的能力對比,Anthropic表示,Claude 3 Opus在各種基準測試中表現優於OpenAI的GPT-4和谷歌的Gemini 1.0 Ultra。
但在定價上,Claude 3比GPT-4 Turbo要昂貴,GPT-4 Turbo每百萬Token輸入/輸出收費為10/30美元,而Claude 3 Opus則為15/75美元。
模型 | Claude 3Opus | Claude 3Sonnet | Claude 3Haiku | GPT-4 | GPT-3.5 | Gemini 1.0Ultra | Gemini 1.0Pro |
---|
| | | | | | | |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| | | | | | | |
註:上述測評數據由Anthropic提供。