GPT-4o:發展歷史,主要功能,模型特點,套用範圍,開發團隊,

GPT-4o

GPT-4o的名稱中“o”代表Omni，即全能的意思，凸顯了其多功能的特性，GPT-4o是OpenAI為聊天機器人ChatGPT發布的語言模型，“可以實時對音頻、視覺和文本進行推理，新模型使ChatGPT能夠處理50種不同的語言，同時提高了速度和質量，並能夠讀取人的情緒。可以在短至 232 毫秒的時間內回響音頻輸入，平均為 320 毫秒，與人類的回響時間相似。

台北時間2024年5月14日凌晨，OpenAI宣布推出GPT-4o，GPT-4o在處理速度上提升了高達200%，同時在價格上也實現了50%的下降，GPT-4o所有功能包括視覺、聯網、記憶、執行代碼以及GPT Store等，將對所有用戶免費開放。5月15日，OpenAI聯合創始人兼執行長山姆·奧特曼就GPT-4o說明稱，儘管GPT-4o的文本模式已經發布，但語音模式還未發布。

基本介紹

外文名：GPT-4o
發布時間：2024年5月14日(台北時間)
開發者：OpenAI公司
產品類型：人工智慧模型

發展歷史,主要功能,模型特點,套用範圍,開發團隊,

發展歷史

2024年5月14日，OpenAI宣布推出其最新旗艦生成式AI模型GPT-4o。GPT-4o的文本和圖像功能開始在ChatGPT中免費推出，Plus用戶可以享受到5倍的調用額度。

當地時間2024年5月15日，OpenAI聯合創始人兼執行長山姆·奧特曼就GPT-4o說明稱，儘管GPT-4o的文本模式已經發布，但語音模式還未發布。

2024年5月，在巴黎科技活動上，OpenAI開發者體驗負責人帶來了更多GPT-4o精彩演示，根據地圖導航，修改代碼。

當地時間2024年7月18日，OpenAI推出名為“GPT-4o mini”的迷你AI模型，該模型是GPT-4o的一個分支。

當地時間2024年7月30日，OpenAI宣布，即日起開始向部分ChatGPT Plus用戶開放GPT-4o高級語音模式，並計畫於秋季向所有Plus付費用戶開放。當地時間8月20日，OpenAI宣布推出GPT-4o微調自定義版本。

主要功能

GPT-4o新模型能夠處理50種不同的語言，提高了速度和質量，並能夠讀取人的情緒。

GPT-4o是邁向更自然人機互動的一步，它可以接受文本、音頻和圖像三者組合作為輸入，並生成文本、音頻和圖像的任意組合輸出，“與現有模型相比，GPT-4o在圖像和音頻理解方面尤其出色。”

在GPT-4o之前，用戶使用語音模式與ChatGPT對話時，GPT-3.5的平均延遲為2.8秒，GPT-4為5.4秒，音頻在輸入時還會由於處理方式丟失大量信息，讓GPT-4無法直接觀察音調、說話的人和背景噪音，也無法輸出笑聲、歌唱聲和表達情感。

與之相比，GPT-4o可以在232毫秒內對音頻輸入做出反應，與人類在對話中的反應時間相近。在錄播視頻中，兩位高管做出了演示：機器人能夠從急促的喘氣聲中理解“緊張”的含義，並且指導他進行深呼吸，還可以根據用戶要求變換語調。

性能方面，根據傳統基準測試，GPT-4o在文本、推理和編碼等方面實現了與GPT-4 Turbo級別相當的性能，同時在多語言、音頻和視覺功能方面的表現分數也創下了新高。

圖像輸入方面，研究人員啟動攝像頭，要求實時完成一道方程題，新模型輕鬆完成了任務；研究人員還展示了它對一張氣溫圖表進行實時解讀的能力。

它在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配，在非英語文本上的性能顯著提高，同時 API 的速度也更快，成本降低了 50%。

模型特點

GPT-4o 的特別之處在於它以極為自然的互動方式為每個人帶來了 GPT-4 級別的智慧型，包括免費用戶。

在 GPT-4o 上，OpenAI 跨文本、視覺和音頻端到端地訓練了一個新模型，這意味著所有輸入和輸出都由同一神經網路處理。

發布會上GPT-4o互動演示畫面

GPT-4o 可以跨文本、音頻和視頻進行實時推理，這是向更自然的人機互動（甚至是人 - 機器 - 機器互動）邁出的重要一步。

GPT-4o 在理解和生成圖像方面的能力比任何現有模型都要好得多，此前很多不可能的任務都變得「易如反掌」。

GPT-4o 還擁有 3D 視覺內容生成的能力，能夠從 6 個生成的圖像進行 3D 重建。

GPT-4o 可以接收文本、音頻和圖像的任意組合作為輸入，並實時生成文本、音頻和圖像的任意組合輸出。

GPT-4o 對文本越獄攻擊的安全性比之前有所提升，但文本模態越獄攻擊可遷移性強，可通過多模態形式攻擊；新引入的音頻模態為 GPT-4o 的越獄攻擊暴露了新的攻擊面；當前的黑盒多模態越獄攻擊方法幾乎無效，但實驗表明 GPT-4o 多模態層面的安全性弱於 GPT-4V。

套用範圍

該模型將在未來幾周內分階段集成至 OpenAI 的各個產品之中。即使是ChatGPT Free（免費）用戶也可以有機會體驗GPT-4o，但當達到限額時，ChatGPT將自動切換到GPT-3.5。

GPT-4o 是面向未來人機互動範式的全新大模型，具有文本、語音、圖像三種模態的理解力，反應極快還帶有感情，也很通人性。

高考全卷評測

2024年6月，據上海人工智慧實驗室官微，司南評測體系OpenCompass選取6個開源模型及OpenAI的GPT-4o開展首個大模型高考“語數外”全卷能力測試。評測採用全國新課標I卷，參與評測的所有開源模型，開源時間均早於高考，確保評測 “閉卷”性。同時，成績由具有高考評卷經驗的教師人工評判，更加接近真實閱卷標準。首個大模型高考全卷評測結果顯示，阿里通義千問Qwen2-72B、OpenAI的GPT-4o及書生·浦語2.0文曲星（InternLM2-20B-WQX）成為本次大模型高考的前三甲，對應得分率分別為72.1%、70.5%和70.4%。大部分模型在“語言”本質上的表現良好，語文平均得分率為67%，英語更是達到了81%。而數學則是所有大模型的短板，平均得分率僅為36%；InternLM2-20B-WQX取得了75分的最高分，超過所有受測模型。然而仍未達到及格水平。

開發團隊

OpenAI Omni Team

OpenAI Omni Team

成員姓名	簡介	職務
Prafulla Dhariwal	他在本科畢業之後就以研究實習生的身份直接加入了OpenAI。一直在OpenAI工作到現在。在他的整個研究生涯中，參與過強化學習，無監督學習，Scaling Law等幾乎所有的機器學習的前沿研究，也參與了包括DALL·E 2，GPT-3，DALL·E 3等關鍵的項目。	團隊領導
James Betker	他在加入OpenAI之前曾經在Garmin和谷歌工作過。	負責圖像，音頻，數據和後期訓練等各個方面的團隊核心
Rowan Zellers	他參與了GPT-4等數個OpenAI的項目，之前的研究方向也集中在多模態上。	視頻負責人
Alexis Conneau	他來自法國，畢業於法國最頂尖的工程師大學，之後加入了Meta，在FAIR獲得了自己的博士學位。然後在谷歌和Meta AI工作了一段時間之後，加入了OpenAI。在谷歌和Meta，他參與影響過10億用戶的項目和產品。論文也在EMNLP上拿過最佳論文獎。	音頻方向的負責人
Li JING	這位畢業於北大物理系的華人小哥曾經參與了DALLE-，Sora。這次GPT-4o的發布也有他的貢獻。他本科畢業於北京大學物理系，博士畢業於麻省理工學院。他自己曾經創過業，也在Meta全職工作過2年半，在2022年加入了OpenAI。	做出關鍵貢獻人員
Jiahui Yu	他本科畢業於中科大，博士畢業於UIUC。他現在是OpenAI感知團隊的負責人。他曾經是谷歌Gemini多模態的負責人之一，2023年被OpenAI挖了過來。	做出關鍵貢獻人員
Yu Zhang	他本科畢業於上海交大，博士畢業於MIT。他在微軟亞研院實習過，之後加入了谷歌DeepMind，從2023年起加入了OpenAI。	做出關鍵貢獻人員
HUIWEN Chang	她本科畢業於清華大學，之後在普林斯頓大學獲得了博士學位。在加入OpenAI之前，一直在谷歌擔任研究科學家。	做出關鍵貢獻人員
Qiming Yuan	他在GPT-4o團隊中負責語言的預訓練數據處理，本科畢業於清華大學，碩士畢業於德州奧斯丁。在2018年加入OpenAI之前，他曾經在Dropbox和微軟工作過。	負責語言的預訓練數據處理
參考資料：