GPT-3.5

GPT-3.5

GPT-3.5 是 OpenAI 設計的一系列 NLP 模型中的第四個。此前還出現了 GPT-1、GPT-2 和 GPT-3

在 2022 年,OpenAI 的預訓練語言模型之路,又出現了顛覆式的疊代,產生了技術路線上的又一次方向性變化。

GPT 3.5 基於人工標註數據 + 強化學習的推理和生成。在人工標註訓練數據的基礎上,再使用強化學習來增強預訓練模型的能力。強化學習,簡單理解就是做對了獎勵、做錯了懲罰,不斷根據系統的打分來更新參數,從而產生越來越高質量的回答。所以人們在互動中發現,ChatGPT 會承認錯誤、會修改自己的答覆,這正是因為它具備從人類的反饋中強化學習並重新思考的能力。

基本介紹

定義,原理,套用,

定義

GPT-3.5 是 OpenAI 設計的一系列 NLP 模型中的第四個。

原理

在人工標註訓練數據的基礎上,再使用強化學習來增強預訓練模型的能力。

套用

ChatGPT 會承認錯誤、會修改自己的答覆,這正是因為它具備從人類的反饋中強化學習並重新思考的能力。

相關詞條

熱門詞條

聯絡我們