有声小说打包下载,好看的玄幻小说,小说阅读网

ChatGPT發(fā)展歷程、原理、技術(shù)架構(gòu)詳解和產(chǎn)業(yè)未來(lái)

2023-02-08 10:36:11
來(lái)源：陳巍談芯，本文將介紹ChatGPT的特點(diǎn)、功能、技術(shù)架構(gòu)、局限、產(chǎn)業(yè)應(yīng)用、投資機(jī)會(huì)和未來(lái)。

作者：陳巍博士，作者本人曾擔(dān)任華為系自然語(yǔ)言處理（ NLP ）企業(yè)的首席科學(xué)家。

存算一體/GPU架構(gòu)和AI專家，高級(jí)職稱。中關(guān)村云計(jì)算產(chǎn)業(yè)聯(lián)盟，中國(guó)光學(xué)工程學(xué)會(huì)專家，國(guó)際計(jì)算機(jī)學(xué)會(huì)（ACM）會(huì)員，中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）專業(yè)會(huì)員。曾任AI企業(yè)首席科學(xué)家、存儲(chǔ)芯片大廠3D NAND設(shè)計(jì)負(fù)責(zé)人，主要成就包括國(guó)內(nèi)首個(gè)大算力可重構(gòu)存算處理器產(chǎn)品架構(gòu)（已在互聯(lián)網(wǎng)大廠完成原型內(nèi)測(cè)），首個(gè)醫(yī)療領(lǐng)域?qū)Ｓ肁I處理器（已落地應(yīng)用），首個(gè)RISC-V/x86/ARM平臺(tái)兼容的AI加速編譯器（與阿里平頭哥/芯來(lái)合作，已應(yīng)用），國(guó)內(nèi)首個(gè)3D NAND芯片架構(gòu)與設(shè)計(jì)團(tuán)隊(duì)建立（與三星對(duì)標(biāo)），國(guó)內(nèi)首個(gè)嵌入式閃存編譯器（與臺(tái)積電對(duì)標(biāo)，已平臺(tái)級(jí)應(yīng)用）

相關(guān)專題：

《ChatGPT專題報(bào)告（1）》

1、行業(yè)專題研究：ChatGPT，開啟AI新紀(jì)元（2023） 2、從ChatGPT到生成式AI（Generative AI）：人工智能新范式，重新定義生產(chǎn)力（2023） 3、海外ChatGPT專題：ChatGPT風(fēng)口已至，商業(yè)化落地加速（2023） 4、ChatGPT：開啟AI新紀(jì)元（2023） 5、ChatGPT引領(lǐng)，關(guān)注AI產(chǎn)業(yè)2023新場(chǎng)景落地

《ChatGPT專題報(bào)告（2）》

1、ChatGPT：優(yōu)化對(duì)話的語(yǔ)言模型（2023） 2、ChatGPT：聊天機(jī)器人頂流，開啟自然語(yǔ)言處理領(lǐng)域新篇章 3、ChatGPT前景廣闊，巨頭入局有望加速AI落地（2023） 4、ChatGPT：振奮人形機(jī)器人應(yīng)用端錦繡前程

0，引言

先上參考網(wǎng)頁(yè)或論文。專業(yè)的讀者可以直接看paper。

ChatGPT: Optimizing Language Models for Dialogue ChatGPT: Optimizing Language Models for Dialogue

GPT論文：Language Models are Few-Shot Learners Language Models are Few-Shot Learners

InstructGPT論文：Training language models to follow instructions with human feedback Training language models to follow instructions with human feedback

huggingface解讀RHLF算法：Illustrating Reinforcement Learning from Human Feedback (RLHF) Illustrating Reinforcement Learning from Human Feedback (RLHF)

RHLF算法論文：Augmenting Reinforcement Learning with Human Feedback cs.utexas.edu/~ai-lab/p

TAMER框架論文：Interactively Shaping Agents via Human Reinforcement cs.utexas.edu/~bradknox

PPO算法：Proximal Policy Optimization Algorithms Proximal Policy Optimization Algorithms

今年12月1日，OpenAI推出人工智能聊天原型ChatGPT，再次賺足眼球，為AI界引發(fā)了類似AIGC讓藝術(shù)家失業(yè)的大討論。

據(jù)報(bào)道，ChatGPT在開放試用的短短幾天，就吸引了超過(guò) 100 萬(wàn)互聯(lián)網(wǎng)注冊(cè)用戶。并且社交網(wǎng)絡(luò)流傳出各種詢問或調(diào)戲ChatGPT的有趣對(duì)話。甚至有人將ChatGPT比喻為“搜索引擎+社交軟件”的結(jié)合體，能夠在實(shí)時(shí)互動(dòng)的過(guò)程中獲得問題的合理答案。

ChatGPT 是一種專注于對(duì)話生成的語(yǔ)言模型。它能夠根據(jù)用戶的文本輸入，產(chǎn)生相應(yīng)的智能回答。這個(gè)回答可以是簡(jiǎn)短的詞語(yǔ)，也可以是長(zhǎng)篇大論。其中GPT是Generative Pre-trained Transformer（生成型預(yù)訓(xùn)練變換模型）的縮寫。

通過(guò)學(xué)習(xí)大量現(xiàn)成文本和對(duì)話集合（例如Wiki），ChatGPT能夠像人類那樣即時(shí)對(duì)話，流暢的回答各種問題。（當(dāng)然回答速度比人還是慢一些）無(wú)論是英文還是其他語(yǔ)言（例如中文、韓語(yǔ)等），從回答歷史問題，到寫故事，甚至是撰寫商業(yè)計(jì)劃書和行業(yè)分析，“幾乎”無(wú)所不能。甚至有程序員貼出了ChatGPT進(jìn)行程序修改的對(duì)話。

ChatGPT也可以與其他AIGC模型聯(lián)合使用，獲得更加炫酷實(shí)用的功能。例如上面通過(guò)對(duì)話生成客廳設(shè)計(jì)圖。這極大加強(qiáng)了AI應(yīng)用與客戶對(duì)話的能力，使我們看到了AI大規(guī)模落地的曙光。

1，ChatGPT的傳承與特點(diǎn)

1.1 OpenAI家族

我們首先了解下OpenAI是哪路大神。

OpenAI總部位于舊金山，由特斯拉的馬斯克、Sam Altman及其他投資者在2015年共同創(chuàng)立，目標(biāo)是開發(fā)造福全人類的AI技術(shù)。而馬斯克則在2018年時(shí)因公司發(fā)展方向分歧而離開。

此前，OpenAI 因推出 GPT系列自然語(yǔ)言處理模型而聞名。從2018年起，OpenAI就開始發(fā)布生成式預(yù)訓(xùn)練語(yǔ)言模型GPT（Generative Pre-trained Transformer），可用于生成文章、代碼、機(jī)器翻譯、問答等各類內(nèi)容。

每一代GPT模型的參數(shù)量都爆炸式增長(zhǎng)，堪稱“越大越好”。2019年2月發(fā)布的GPT-2參數(shù)量為15億，而2020年5月的GPT-3，參數(shù)量達(dá)到了1750億。

GPT家族主要模型對(duì)比

1.2 ChatGPT的主要特點(diǎn)

ChatGPT 是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架構(gòu)開發(fā)的對(duì)話AI模型，是InstructGPT 的兄弟模型。ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演練，或用于收集大量對(duì)話數(shù)據(jù)。

ChatGPT的主要特點(diǎn)

OpenAI使用 RLHF（Reinforcement Learning from Human Feedbac，人類反饋強(qiáng)化學(xué)習(xí)）技術(shù)對(duì) ChatGPT 進(jìn)行了訓(xùn)練，且加入了更多人工監(jiān)督進(jìn)行微調(diào)。

此外，ChatGPT 還具有以下特征：

1）可以主動(dòng)承認(rèn)自身錯(cuò)誤。若用戶指出其錯(cuò)誤，模型會(huì)聽取意見并優(yōu)化答案。

2）ChatGPT 可以質(zhì)疑不正確的問題。例如被詢問 “哥倫布 2015 年來(lái)到美國(guó)的情景” 的問題時(shí)，機(jī)器人會(huì)說(shuō)明哥倫布不屬于這一時(shí)代并調(diào)整輸出結(jié)果。

3）ChatGPT 可以承認(rèn)自身的無(wú)知，承認(rèn)對(duì)專業(yè)技術(shù)的不了解。

4）支持連續(xù)多輪對(duì)話。

與大家在生活中用到的各類智能音箱和“人工智障“不同，ChatGPT在對(duì)話過(guò)程中會(huì)記憶先前使用者的對(duì)話訊息，即上下文理解，以回答某些假設(shè)性的問題。ChatGPT可實(shí)現(xiàn)連續(xù)對(duì)話，極大的提升了對(duì)話交互模式下的用戶體驗(yàn)。

對(duì)于準(zhǔn)確翻譯來(lái)說(shuō)（尤其是中文與人名音譯），ChatGPT離完美還有一段距離，不過(guò)在文字流暢度以及辨別特定人名來(lái)說(shuō)，與其他網(wǎng)絡(luò)翻譯工具相近。

由于 ChatGPT是一個(gè)大型語(yǔ)言模型，目前還并不具備網(wǎng)絡(luò)搜索功能，因此它只能基于2021年所擁有的數(shù)據(jù)集進(jìn)行回答。例如它不知道2022年世界杯的情況，也不會(huì)像蘋果的Siri那樣回答今天天氣如何、或幫你搜索信息。如果ChatGPT能上網(wǎng)自己尋找學(xué)習(xí)語(yǔ)料和搜索知識(shí)，估計(jì)又會(huì)有更大的突破。

即便學(xué)習(xí)的知識(shí)有限，ChatGPT 還是能回答腦洞大開的人類的許多奇葩問題。為了避免ChatGPT染上惡習(xí)， ChatGPT 通過(guò)算法屏蔽，減少有害和欺騙性的訓(xùn)練輸入。，查詢通過(guò)適度 API 進(jìn)行過(guò)濾，并駁回潛在的種族主義或性別歧視提示。

2，ChatGPT/GPT的原理

2.1 NLP

NLP/NLU領(lǐng)域已知局限包括對(duì)重復(fù)文本、對(duì)高度專業(yè)的主題的誤解，以及對(duì)上下文短語(yǔ)的誤解。

對(duì)于人類或AI，通常需接受多年的訓(xùn)練才能正常對(duì)話。NLP類模型不僅要理解單詞的含義，還要理解如何造句和給出上下文有意義的回答，甚至使用合適的俚語(yǔ)和專業(yè)詞匯。

NLP技術(shù)的應(yīng)用領(lǐng)域

本質(zhì)上，作為ChatGPT基礎(chǔ)的GPT-3或GPT-3.5 是一個(gè)超大的統(tǒng)計(jì)語(yǔ)言模型或順序文本預(yù)測(cè)模型。

2.2 GPT v.s.BERT

與BERT模型類似，ChatGPT或GPT-3.5都是根據(jù)輸入語(yǔ)句，根據(jù)語(yǔ)言/語(yǔ)料概率來(lái)自動(dòng)生成回答的每一個(gè)字（詞語(yǔ)）。從數(shù)學(xué)或從機(jī)器學(xué)習(xí)的角度來(lái)看，語(yǔ)言模型是對(duì)詞語(yǔ)序列的概率相關(guān)性分布的建模，即利用已經(jīng)說(shuō)過(guò)的語(yǔ)句（語(yǔ)句可以視為數(shù)學(xué)中的向量）作為輸入條件，預(yù)測(cè)下一個(gè)時(shí)刻不同語(yǔ)句甚至語(yǔ)言集合出現(xiàn)的概率分布。

ChatGPT 使用來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，這種方法通過(guò)人類干預(yù)來(lái)增強(qiáng)機(jī)器學(xué)習(xí)以獲得更好的效果。在訓(xùn)練過(guò)程中，人類訓(xùn)練者扮演著用戶和人工智能助手的角色，并通過(guò)近端策略優(yōu)化算法進(jìn)行微調(diào)。

由于ChatGPT更強(qiáng)的性能和海量參數(shù)，它包含了更多的主題的數(shù)據(jù)，能夠處理更多小眾主題。ChatGPT現(xiàn)在可以進(jìn)一步處理回答問題、撰寫文章、文本摘要、語(yǔ)言翻譯和生成計(jì)算機(jī)代碼等任務(wù)。

BERT與GPT的技術(shù)架構(gòu)（圖中En為輸入的每個(gè)字，Tn為輸出回答的每個(gè)字）

3，ChatGPT的技術(shù)架構(gòu)

3.1 GPT家族的演進(jìn)

說(shuō)到ChatGPT，就不得不提到GPT家族。

ChatGPT之前有幾個(gè)知名的兄弟，包括GPT-1、GPT-2和GPT-3。這幾個(gè)兄弟一個(gè)比一個(gè)個(gè)頭大，ChatGPT與GPT-3更為相近。

ChatGPT與GPT 1-3的技術(shù)對(duì)比

GPT家族與BERT模型都是知名的NLP模型，都基于Transformer技術(shù)。GPT-1只有12個(gè)Transformer層，而到了GPT-3，則增加到96層。

3.2 人類反饋強(qiáng)化學(xué)習(xí)

InstructGPT/GPT3.5（ChatGPT的前身）與GPT-3的主要區(qū)別在于，新加入了被稱為RLHF（Reinforcement Learning from Human Feedback，人類反饋強(qiáng)化學(xué)習(xí)）。這一訓(xùn)練范式增強(qiáng)了人類對(duì)模型輸出結(jié)果的調(diào)節(jié)，并且對(duì)結(jié)果進(jìn)行了更具理解性的排序。

在InstructGPT中，以下是“goodness of sentences”的評(píng)價(jià)標(biāo)準(zhǔn)。
1. 真實(shí)性：是虛假信息還是誤導(dǎo)性信息？
2. 無(wú)害性：它是否對(duì)人或環(huán)境造成身體或精神上的傷害？
3. 有用性：它是否解決了用戶的任務(wù)？
3.3 TAMER框架

這里不得不提到TAMER（Training an Agent Manually via uative Reinforcement，評(píng)估式強(qiáng)化人工訓(xùn)練代理）這個(gè)框架。該框架將人類標(biāo)記者引入到Agents的學(xué)習(xí)循環(huán)中，可以通過(guò)人類向Agents提供獎(jiǎng)勵(lì)反饋（即指導(dǎo)Agents進(jìn)行訓(xùn)練），從而快速達(dá)到訓(xùn)練任務(wù)目標(biāo)。

TAMER框架論文

引入人類標(biāo)記者的主要目的是加快訓(xùn)練速度。盡管強(qiáng)化學(xué)習(xí)技術(shù)在很多領(lǐng)域有突出表現(xiàn)，但是仍然存在著許多不足，例如訓(xùn)練收斂速度慢，訓(xùn)練成本高等特點(diǎn)。特別是現(xiàn)實(shí)世界中，許多任務(wù)的探索成本或數(shù)據(jù)獲取成本很高。如何加快訓(xùn)練效率，是如今強(qiáng)化學(xué)習(xí)任務(wù)待解決的重要問題之一。

而TAMER則可以將人類標(biāo)記者的知識(shí)，以獎(jiǎng)勵(lì)信反饋的形式訓(xùn)練Agent，加快其快速收斂。TAMER不需要標(biāo)記者具有專業(yè)知識(shí)或編程技術(shù)，語(yǔ)料成本更低。通過(guò)TAMER+RL（強(qiáng)化學(xué)習(xí)），借助人類標(biāo)記者的反饋，能夠增強(qiáng)從馬爾可夫決策過(guò)程 (MDP) 獎(jiǎng)勵(lì)進(jìn)行強(qiáng)化學(xué)習(xí) (RL) 的過(guò)程。

TAMER架構(gòu)在強(qiáng)化學(xué)習(xí)中的應(yīng)用

具體實(shí)現(xiàn)上，人類標(biāo)記者扮演對(duì)話的用戶和人工智能助手，提供對(duì)話樣本，讓模型生成一些回復(fù)，然后標(biāo)記者會(huì)對(duì)回復(fù)選項(xiàng)打分排名，將更好的結(jié)果反饋回模型中，Agents同時(shí)從兩種反饋模式中學(xué)習(xí)——人類強(qiáng)化和馬爾可夫決策過(guò)程獎(jiǎng)勵(lì)作為一個(gè)整合的系統(tǒng)，通過(guò)獎(jiǎng)勵(lì)策略對(duì)模型進(jìn)行微調(diào)并持續(xù)迭代。

在此基礎(chǔ)上，ChatGPT 可以比 GPT-3 更好的理解和完成人類語(yǔ)言或指令，模仿人類，提供連貫的有邏輯的文本信息的能力。

3.4 ChatGPT的訓(xùn)練

ChatGPT的訓(xùn)練過(guò)程分為以下三個(gè)階段：

第一階段：訓(xùn)練監(jiān)督策略模型

GPT 3.5本身很難理解人類不同類型指令中蘊(yùn)含的不同意圖，也很難判斷生成內(nèi)容是否是高質(zhì)量的結(jié)果。為了讓GPT 3.5初步具備理解指令的意圖，首先會(huì)在數(shù)據(jù)集中隨機(jī)抽取問題，由人類標(biāo)注人員，給出高質(zhì)量答案，然后用這些人工標(biāo)注好的數(shù)據(jù)來(lái)微調(diào) GPT-3.5模型（獲得SFT模型, Supervised Fine-Tuning）。

此時(shí)的SFT模型在遵循指令/對(duì)話方面已經(jīng)優(yōu)于 GPT-3，但不一定符合人類偏好。

ChatGPT模型的訓(xùn)練過(guò)程

第二階段：訓(xùn)練獎(jiǎng)勵(lì)模型（Reward Mode，RM）

這個(gè)階段的主要是通過(guò)人工標(biāo)注訓(xùn)練數(shù)據(jù)（約33K個(gè)數(shù)據(jù)），來(lái)訓(xùn)練回報(bào)模型。在數(shù)據(jù)集中隨機(jī)抽取問題，使用第一階段生成的模型，對(duì)于每個(gè)問題，生成多個(gè)不同的回答。人類標(biāo)注者對(duì)這些結(jié)果綜合考慮給出排名順序。這一過(guò)程類似于教練或老師輔導(dǎo)。

接下來(lái)，使用這個(gè)排序結(jié)果數(shù)據(jù)來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型。對(duì)多個(gè)排序結(jié)果，兩兩組合，形成多個(gè)訓(xùn)練數(shù)據(jù)對(duì)。RM模型接受一個(gè)輸入，給出評(píng)價(jià)回答質(zhì)量的分?jǐn)?shù)。這樣，對(duì)于一對(duì)訓(xùn)練數(shù)據(jù)，調(diào)節(jié)參數(shù)使得高質(zhì)量回答的打分比低質(zhì)量的打分要高。

第三階段：采用PPO（Proximal Policy Optimization，近端策略優(yōu)化）強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化策略。

PPO的核心思路在于將Policy Gradient中On-policy的訓(xùn)練過(guò)程轉(zhuǎn)化為Off-policy，即將在線學(xué)習(xí)轉(zhuǎn)化為離線學(xué)習(xí)，這個(gè)轉(zhuǎn)化過(guò)程被稱之為Importance Sampling。這一階段利用第二階段訓(xùn)練好的獎(jiǎng)勵(lì)模型，靠獎(jiǎng)勵(lì)打分來(lái)更新預(yù)訓(xùn)練模型參數(shù)。在數(shù)據(jù)集中隨機(jī)抽取問題，使用PPO模型生成回答，并用上一階段訓(xùn)練好的RM模型給出質(zhì)量分?jǐn)?shù)。把回報(bào)分?jǐn)?shù)依次傳遞，由此產(chǎn)生策略梯度，通過(guò)強(qiáng)化學(xué)習(xí)的方式以更新PPO模型參數(shù)。

如果我們不斷重復(fù)第二和第三階段，通過(guò)迭代，會(huì)訓(xùn)練出更高質(zhì)量的ChatGPT模型。

4，ChatGPT的局限

只要用戶輸入問題，ChatGPT 就能給予回答，是否意味著我們不用再拿關(guān)鍵詞去喂 Google或百度，就能立即獲得想要的答案呢？

盡管ChatGPT表現(xiàn)出出色的上下文對(duì)話能力甚至編程能力，完成了大眾對(duì)人機(jī)對(duì)話機(jī)器人（ChatBot）從“人工智障”到“有趣”的印象改觀，我們也要看到，ChatGPT技術(shù)仍然有一些局限性，還在不斷的進(jìn)步。

1）ChatGPT在其未經(jīng)大量語(yǔ)料訓(xùn)練的領(lǐng)域缺乏“人類常識(shí)”和引申能力，甚至?xí)槐菊?jīng)的“胡說(shuō)八道”。ChatGPT在很多領(lǐng)域可以“創(chuàng)造答案”，但當(dāng)用戶尋求正確答案時(shí)，ChatGPT也有可能給出有誤導(dǎo)的回答。例如讓ChatGPT做一道小學(xué)應(yīng)用題，盡管它可以寫出一長(zhǎng)串計(jì)算過(guò)程，但最后答案卻是錯(cuò)誤的。

2）ChatGPT無(wú)法處理復(fù)雜冗長(zhǎng)或者特別專業(yè)的語(yǔ)言結(jié)構(gòu)。對(duì)于來(lái)自金融、自然科學(xué)或醫(yī)學(xué)等非常專業(yè)領(lǐng)域的問題，如果沒有進(jìn)行足夠的語(yǔ)料“喂食”，ChatGPT可能無(wú)法生成適當(dāng)?shù)幕卮稹?/p>
3）ChatGPT需要非常大量的算力（芯片）來(lái)支持其訓(xùn)練和部署。拋開需要大量語(yǔ)料數(shù)據(jù)訓(xùn)練模型不說(shuō)，在目前，ChatGPT在應(yīng)用時(shí)仍然需要大算力的服務(wù)器支持，而這些服務(wù)器的成本是普通用戶無(wú)法承受的，即便數(shù)十億個(gè)參數(shù)的模型也需要驚人數(shù)量的計(jì)算資源才能運(yùn)行和訓(xùn)練。，如果面向真實(shí)搜索引擎的數(shù)以億記的用戶請(qǐng)求，如采取目前通行的免費(fèi)策略，任何企業(yè)都難以承受這一成本。因此對(duì)于普通大眾來(lái)說(shuō)，還需等待更輕量型的模型或更高性價(jià)比的算力平臺(tái)。

4）ChatGPT還沒法在線的把新知識(shí)納入其中，而出現(xiàn)一些新知識(shí)就去重新預(yù)訓(xùn)練GPT模型也是不現(xiàn)實(shí)的，無(wú)論是訓(xùn)練時(shí)間或訓(xùn)練成本，都是普通訓(xùn)練者難以接受的。如果對(duì)于新知識(shí)采取在線訓(xùn)練的模式，看上去可行且語(yǔ)料成本相對(duì)較低，但是很容易由于新數(shù)據(jù)的引入而導(dǎo)致對(duì)原有知識(shí)的災(zāi)難性遺忘的問題。

5）ChatGPT仍然是黑盒模型。目前還未能對(duì)ChatGPT的內(nèi)在算法邏輯進(jìn)行分解，因此并不能保證ChatGPT不會(huì)產(chǎn)生攻擊甚至傷害用戶的表述。

當(dāng)然，瑕不掩瑜，有工程師貼出了要求ChatGPT寫verilog代碼（芯片設(shè)計(jì)代碼）的對(duì)話?？梢钥闯鯟hatGPT水平已經(jīng)超出一些verilog初學(xué)者了。

5，ChatGPT的未來(lái)改進(jìn)方向

5.1 減少人類反饋的RLAIF

2020年底，OpenAI前研究副總裁Dario Amodei帶著10名員工創(chuàng)辦了一個(gè)人工智能公司Anthropic。Anthropic 的創(chuàng)始團(tuán)隊(duì)成員，大多為 OpenAI 的早期及核心員工，參與過(guò)OpenAI的GPT-3、多模態(tài)神經(jīng)元、人類偏好的強(qiáng)化學(xué)習(xí)等。

2022年12月，Anthropic再次發(fā)表論文《Constitutional AI: Harmlessness from AI Feedback》介紹人工智能模型Claude。（arxiv.org/pdf/2212.0807）

CAI模型訓(xùn)練過(guò)程

Claude 和 ChatGPT 都依賴于強(qiáng)化學(xué)習(xí)(RL)來(lái)訓(xùn)練偏好（preference）模型。CAI（Constitutional AI）也是建立在RLHF的基礎(chǔ)之上，不同之處在于，CAI的排序過(guò)程使用模型（而非人類）對(duì)所有生成的輸出結(jié)果提供一個(gè)初始排序結(jié)果。

CAI用人工智能反饋來(lái)代替人類對(duì)表達(dá)無(wú)害性的偏好，即RLAIF，人工智能根據(jù)一套constitution原則來(lái)評(píng)價(jià)回復(fù)內(nèi)容。

5.2 補(bǔ)足數(shù)理短板

ChatGPT雖然對(duì)話能力強(qiáng)，但是在數(shù)理計(jì)算對(duì)話中容易出現(xiàn)一本正經(jīng)胡說(shuō)八道的情況。

計(jì)算機(jī)學(xué)家Stephen Wolfram 為這一問題提出了解決方案。Stephen Wolfram 創(chuàng)造了的 Wolfram 語(yǔ)言和計(jì)算知識(shí)搜索引擎 Wolfram | Alpha，其后臺(tái)通過(guò)Mathematica實(shí)現(xiàn)。

ChatGPT與Wolfram | Alpha結(jié)合處理梳理問題

在這一結(jié)合體系中，ChatGPT 可以像人類使用 Wolfram|Alpha 一樣，與 Wolfram|Alpha “對(duì)話”，Wolfram|Alpha 則會(huì)用其符號(hào)翻譯能力將從 ChatGPT 獲得的自然語(yǔ)言表達(dá)“翻譯”為對(duì)應(yīng)的符號(hào)化計(jì)算語(yǔ)言。在過(guò)去，學(xué)術(shù)界在 ChatGPT 使用的這類 “統(tǒng)計(jì)方法” 和 Wolfram|Alpha 的 “符號(hào)方法” 上一直存在路線分歧。但如今 ChatGPT 和 Wolfram|Alpha 的互補(bǔ)，給NLP領(lǐng)域提供了更上一層樓的可能。

ChatGPT 不必生成這樣的代碼，只需生成常規(guī)自然語(yǔ)言，然后使用 Wolfram|Alpha 翻譯成精確的 Wolfram Language，再由底層的Mathematica進(jìn)行計(jì)算。

5.3 ChatGPT的小型化

雖然ChatGPT很強(qiáng)大，但其模型大小和使用成本也讓很多人望而卻步。

有三類模型壓縮（model compression）可以降低模型的大小和成本。

第一種方法是量化（quantization），即降低單個(gè)權(quán)重的數(shù)值表示的精度。比如Tansformer從FP32降到INT8對(duì)其精度影響不大。

第二種模型壓縮方法是剪枝（pruning），即刪除網(wǎng)絡(luò)元素，包括從單個(gè)權(quán)重（非結(jié)構(gòu)化剪枝）到更高粒度的組件如權(quán)重矩陣的通道。這種方法在視覺和較小規(guī)模的語(yǔ)言模型中有效。

第三種模型壓縮方法是稀疏化。例如奧地利科學(xué)技術(shù)研究所 (ISTA)提出的SparseGPT （arxiv.org/pdf/2301.0077）可以將 GPT 系列模型單次剪枝到 50% 的稀疏性，而無(wú)需任何重新訓(xùn)練。對(duì) GPT-175B 模型，只需要使用單個(gè) GPU 在幾個(gè)小時(shí)內(nèi)就能實(shí)現(xiàn)這種剪枝。

SparseGPT 壓縮流程

6 ChatGPT的產(chǎn)業(yè)未來(lái)與投資機(jī)會(huì)

6.1 AIGC

說(shuō)到ChaGPT不得不提AIGC。

AIGC即利用人工智能技術(shù)來(lái)生成內(nèi)容。與此前Web1.0、Web2.0時(shí)代的UGC（用戶生產(chǎn)內(nèi)容）和PGC（專業(yè)生產(chǎn)內(nèi)容）相比，代表人工智能構(gòu)思內(nèi)容的AIGC，是新一輪內(nèi)容生產(chǎn)方式變革，而且AIGC內(nèi)容在Web3.0時(shí)代也將出現(xiàn)指數(shù)級(jí)增長(zhǎng)。

ChatGPT 模型的出現(xiàn)對(duì)于文字/語(yǔ)音模態(tài)的 AIGC 應(yīng)用具有重要意義，會(huì)對(duì)AI產(chǎn)業(yè)上下游產(chǎn)生重大影響。

6.2 受益場(chǎng)景

從下游相關(guān)受益應(yīng)用來(lái)看，包括但不限于無(wú)代碼編程、小說(shuō)生成、對(duì)話類搜索引擎、語(yǔ)音陪伴、語(yǔ)音工作助手、對(duì)話虛擬人、人工智能客服、機(jī)器翻譯、芯片設(shè)計(jì)等。從上游增加需求來(lái)看，包括算力芯片、數(shù)據(jù)標(biāo)注、自然語(yǔ)言處理（NLP)等。

大模型呈爆發(fā)態(tài)勢(shì)（更多的參數(shù)/更大的算力芯片需求）

隨著算法技術(shù)和算力技術(shù)的不斷進(jìn)步，ChatGPT也會(huì)進(jìn)一步走向更先進(jìn)功能更強(qiáng)的版本，在越來(lái)越多的領(lǐng)域進(jìn)行應(yīng)用，為人類生成更多更美好的對(duì)話和內(nèi)容。

最后，作者問存算一體技術(shù)在ChatGPT領(lǐng)域的地位（作者本人目前在重點(diǎn)推進(jìn)存算一體芯片的產(chǎn)品落地），ChatGPT想了想，大膽的預(yù)言存算一體技術(shù)將在ChatGPT芯片中占據(jù)主導(dǎo)地位。（深得我心）

來(lái)源：https://zhuanlan.zhihu.com/p/590655677

ChatGPT發(fā)展歷程、原理、技術(shù)架構(gòu)詳解和產(chǎn)業(yè)未來(lái)

0，引言

1，ChatGPT的傳承與特點(diǎn)

1.1 OpenAI家族

1.2 ChatGPT的主要特點(diǎn)

2，ChatGPT/GPT的原理

2.1 NLP

2.2 GPT v.s.BERT

3，ChatGPT的技術(shù)架構(gòu)

3.1 GPT家族的演進(jìn)

3.2 人類反饋強(qiáng)化學(xué)習(xí)

3.3 TAMER框架

3.4 ChatGPT的訓(xùn)練

4，ChatGPT的局限

5.1 減少人類反饋的RLAIF

5.2 補(bǔ)足數(shù)理短板

5.3 ChatGPT的小型化

6 ChatGPT的產(chǎn)業(yè)未來(lái)與投資機(jī)會(huì)

6.1 AIGC

6.2 受益場(chǎng)景

ChatGPT發(fā)展歷程、原理、技術(shù)架構(gòu)詳解和產(chǎn)業(yè)未來(lái)

0，引言

1，ChatGPT的傳承與特點(diǎn)

3，ChatGPT的技術(shù)架構(gòu)

4，ChatGPT的局限