GPT-4o

GPT-4o

GPT-4o的名稱中“o”代表Omni,即全能的意思,凸顯了其多功能的特性,GPT-4o是OpenAI為聊天機器人ChatGPT發布的語言模型,“可以實時對音頻、視覺和文本進行推理,新模型使ChatGPT能夠處理50種不同的語言,同時提高了速度和質量,並能夠讀取人的情緒。可以在短至 232 毫秒的時間內回響音頻輸入,平均為 320 毫秒,與人類的回響時間相似。

台北時間2024年5月14日凌晨,OpenAI宣布推出GPT-4o,GPT-4o在處理速度上提升了高達200%,同時在價格上也實現了50%的下降,GPT-4o所有功能包括視覺、聯網、記憶、執行代碼以及GPT Store等,將對所有用戶免費開放。5月15日,OpenAI聯合創始人兼執行長山姆·奧特曼就GPT-4o說明稱,儘管GPT-4o的文本模式已經發布,但語音模式還未發布。

基本介紹

  • 外文名:GPT-4o
  • 發布時間:2024年5月14日(台北時間)
  • 開發者:OpenAI公司 
  • 產品類型:人工智慧模型 
發展歷史,主要功能,模型特點,套用範圍,開發團隊,

發展歷史

2024年5月14日,OpenAI宣布推出其最新旗艦生成式AI模型GPT-4o。GPT-4o的文本和圖像功能開始在ChatGPT中免費推出,Plus用戶可以享受到5倍的調用額度。
當地時間2024年5月15日,OpenAI聯合創始人兼執行長山姆·奧特曼就GPT-4o說明稱,儘管GPT-4o的文本模式已經發布,但語音模式還未發布。
2024年5月,在巴黎科技活動上,OpenAI開發者體驗負責人帶來了更多GPT-4o精彩演示,根據地圖導航,修改代碼。
當地時間2024年7月18日,OpenAI推出名為“GPT-4o mini”的迷你AI模型,該模型是GPT-4o的一個分支。
當地時間2024年7月30日,OpenAI宣布,即日起開始向部分ChatGPT Plus用戶開放GPT-4o高級語音模式,並計畫於秋季向所有Plus付費用戶開放。當地時間8月20日,OpenAI宣布推出GPT-4o微調自定義版本。

主要功能

GPT-4o新模型能夠處理50種不同的語言,提高了速度和質量,並能夠讀取人的情緒。
GPT-4o是邁向更自然人機互動的一步,它可以接受文本、音頻和圖像三者組合作為輸入,並生成文本、音頻和圖像的任意組合輸出,“與現有模型相比,GPT-4o在圖像和音頻理解方面尤其出色。”
在GPT-4o之前,用戶使用語音模式與ChatGPT對話時,GPT-3.5的平均延遲為2.8秒,GPT-4為5.4秒,音頻在輸入時還會由於處理方式丟失大量信息,讓GPT-4無法直接觀察音調、說話的人和背景噪音,也無法輸出笑聲、歌唱聲和表達情感。
與之相比,GPT-4o可以在232毫秒內對音頻輸入做出反應,與人類在對話中的反應時間相近。在錄播視頻中,兩位高管做出了演示:機器人能夠從急促的喘氣聲中理解“緊張”的含義,並且指導他進行深呼吸,還可以根據用戶要求變換語調。
性能方面,根據傳統基準測試,GPT-4o在文本、推理和編碼等方面實現了與GPT-4 Turbo級別相當的性能,同時在多語言、音頻和視覺功能方面的表現分數也創下了新高。
圖像輸入方面,研究人員啟動攝像頭,要求實時完成一道方程題,新模型輕鬆完成了任務;研究人員還展示了它對一張氣溫圖表進行實時解讀的能力。
它在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配,在非英語文本上的性能顯著提高,同時 API 的速度也更快,成本降低了 50%。

模型特點

GPT-4o 的特別之處在於它以極為自然的互動方式為每個人帶來了 GPT-4 級別的智慧型,包括免費用戶。
在 GPT-4o 上,OpenAI 跨文本、視覺和音頻端到端地訓練了一個新模型,這意味著所有輸入和輸出都由同一神經網路處理。
GPT-4o
發布會上GPT-4o互動演示畫面
GPT-4o 可以跨文本、音頻和視頻進行實時推理,這是向更自然的人機互動(甚至是人 - 機器 - 機器互動)邁出的重要一步。
GPT-4o 在理解和生成圖像方面的能力比任何現有模型都要好得多,此前很多不可能的任務都變得「易如反掌」。
GPT-4o 還擁有 3D 視覺內容生成的能力,能夠從 6 個生成的圖像進行 3D 重建。
GPT-4o 可以接收文本、音頻和圖像的任意組合作為輸入,並實時生成文本、音頻和圖像的任意組合輸出 。
GPT-4o 對文本越獄攻擊的安全性比之前有所提升,但文本模態越獄攻擊可遷移性強,可通過多模態形式攻擊;新引入的音頻模態為 GPT-4o 的越獄攻擊暴露了新的攻擊面;當前的黑盒多模態越獄攻擊方法幾乎無效,但實驗表明 GPT-4o 多模態層面的安全性弱於 GPT-4V。

套用範圍

該模型將在未來幾周內分階段集成至 OpenAI 的各個產品之中。即使是ChatGPT Free(免費)用戶也可以有機會體驗GPT-4o,但當達到限額時,ChatGPT將自動切換到GPT-3.5。
GPT-4o 是面向未來人機互動範式的全新大模型,具有文本、語音、圖像三種模態的理解力,反應極快還帶有感情,也很通人性。
高考全卷評測
2024年6月,據上海人工智慧實驗室官微,司南評測體系OpenCompass選取6個開源模型及OpenAI的GPT-4o開展首個大模型高考“語數外”全卷能力測試。評測採用全國新課標I卷,參與評測的所有開源模型,開源時間均早於高考,確保評測 “閉卷”性。同時,成績由具有高考評卷經驗的教師人工評判,更加接近真實閱卷標準。首個大模型高考全卷評測結果顯示,阿里通義千問Qwen2-72B、OpenAI的GPT-4o及書生·浦語2.0文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲,對應得分率分別為72.1%、70.5%和70.4%。大部分模型在“語言”本質上的表現良好,語文平均得分率為67%,英語更是達到了81%。而數學則是所有大模型的短板,平均得分率僅為36%;InternLM2-20B-WQX取得了75分的最高分,超過所有受測模型。然而仍未達到及格水平。

開發團隊

OpenAI Omni Team
OpenAI Omni Team
成員姓名
簡介
職務

Prafulla Dhariwal
他在本科畢業之後就以研究實習生的身份直接加入了OpenAI。一直在OpenAI工作到現在。在他的整個研究生涯中,參與過強化學習,無監督學習,Scaling Law等幾乎所有的機器學習的前沿研究,也參與了包括DALL·E 2,GPT-3,DALL·E 3等關鍵的項目。
團隊領導
GPT-4o
James Betker
他在加入OpenAI之前曾經在Garmin和谷歌工作過。
負責圖像,音頻,數據和後期訓練等各個方面的團隊核心
GPT-4o
Rowan Zellers
他參與了GPT-4等數個OpenAI的項目,之前的研究方向也集中在多模態上。
視頻負責人
GPT-4o
Alexis Conneau
他來自法國,畢業於法國最頂尖的工程師大學,之後加入了Meta,在FAIR獲得了自己的博士學位。然後在谷歌和Meta AI工作了一段時間之後,加入了OpenAI。在谷歌和Meta,他參與影響過10億用戶的項目和產品。論文也在EMNLP上拿過最佳論文獎。
音頻方向的負責人
GPT-4o
Li JING
這位畢業於北大物理系的華人小哥曾經參與了DALLE-,Sora。這次GPT-4o的發布也有他的貢獻。他本科畢業於北京大學物理系,博士畢業於麻省理工學院。他自己曾經創過業,也在Meta全職工作過2年半,在2022年加入了OpenAI。
做出關鍵貢獻人員
GPT-4o
Jiahui Yu
他本科畢業於中科大,博士畢業於UIUC。他現在是OpenAI感知團隊的負責人。他曾經是谷歌Gemini多模態的負責人之一,2023年被OpenAI挖了過來。
做出關鍵貢獻人員
GPT-4o
Yu Zhang
他本科畢業於上海交大,博士畢業於MIT。他在微軟亞研院實習過,之後加入了谷歌DeepMind,從2023年起加入了OpenAI。
做出關鍵貢獻人員
GPT-4o
HUIWEN Chang
她本科畢業於清華大學,之後在普林斯頓大學獲得了博士學位。在加入OpenAI之前,一直在谷歌擔任研究科學家。
做出關鍵貢獻人員
GPT-4o
Qiming Yuan
他在GPT-4o團隊中負責語言的預訓練數據處理,本科畢業於清華大學,碩士畢業於德州奧斯丁。在2018年加入OpenAI之前,他曾經在Dropbox和微軟工作過。
負責語言的預訓練數據處理
GPT-4o
參考資料:

相關詞條

熱門詞條

聯絡我們