01 幾個(gè)問(wèn)題
AIGC 近期成了熱點(diǎn),不少小玩法開(kāi)始出現(xiàn)在小紅書(shū),比較流行的是頭像二次元化,效果較好。高端局一般會(huì)用 Stable Diffusion,MidJourney 這樣的工具來(lái)生成 AI 畫(huà)作。
AIGC 是 Artificial Inteligence Generated Content (人工智能生成內(nèi)容)的簡(jiǎn)稱,實(shí)際當(dāng)然不止是畫(huà)畫(huà)。包括聲音、圖像、視頻,是都可以用類似的技術(shù)生成的。(可以在這里看到一些視頻的示例:https://imagen.research.google/video/)
作為破圈的先鋒,AIGC 的畫(huà)作還是更令人震撼:

(Dall-E2 的官網(wǎng):https://openai.com/dall-e-2/)

(少楠用 Midjourney 繪制的圖像,輸入的描述是:Ultra realistic tree with green beech leaves, stunning forests in the background, sunrise light, art by Greg Rutkowski + Alphonse Mucha + Rien Portvliet, 8k --ar 16:9 --testp)
于是,有關(guān) AIGC ,引來(lái)了幾個(gè)有意思的問(wèn)題的討論:
- AIGC 能否替代真正的創(chuàng)作者?
- AIGC 是否意味著人工智能的質(zhì)變?
- AIGC 能解決哪些問(wèn)題?不能解決哪些問(wèn)題?
我自己有一些觀察,跟大家分享下。
02 機(jī)器學(xué)習(xí)原理
我大學(xué)讀研時(shí)的老本行就是機(jī)器學(xué)習(xí),做過(guò)一些項(xiàng)目,略有了解,試著用白話簡(jiǎn)單說(shuō)下機(jī)器學(xué)習(xí)的邏輯。
我們可以設(shè)想一下,科學(xué)家觀測(cè)一個(gè)現(xiàn)象后,總結(jié)出定律的方法。
古代科學(xué)家認(rèn)為天圓地方,這是最直觀的推測(cè),因?yàn)樘?yáng)月亮星星的運(yùn)轉(zhuǎn)用這個(gè)解釋是合理的;后來(lái)觀測(cè)到了地球是球型,那地心說(shuō)就是直觀的邏輯;再后來(lái)觀測(cè)到了更多天文現(xiàn)象,就知道太陽(yáng)才是太陽(yáng)系中心,地球是公轉(zhuǎn)中做自轉(zhuǎn)的。
這個(gè)演進(jìn)是符合一個(gè)邏輯的:依據(jù)當(dāng)前的信息,解釋一個(gè)現(xiàn)象,用最簡(jiǎn)單的方式。新的現(xiàn)象出現(xiàn),解釋不了了,再加入別的因子讓它變復(fù)雜,再解釋新的現(xiàn)象。
機(jī)器學(xué)習(xí)正是如此。
我們要識(shí)別一個(gè)人會(huì)不會(huì)買口紅,最直觀的方法就是判斷 ta 的性別,是女性,就有更大的概率會(huì)買口紅。人的屬性千變?nèi)f化,但性別就是我們判斷「買口紅」這個(gè)命題的「特征提取」。我們找到這個(gè)規(guī)律以后,就能用性別作為特征,建立模型。
輸入用戶資料 - 提取性別并判斷 - 輸出
現(xiàn)實(shí)情況更加復(fù)雜,可能男性也會(huì)買,往往是在逢年過(guò)節(jié)的時(shí)候送禮用。那么性別(男)+購(gòu)買日期(臨近節(jié)日),也能成為重要的特征,我們就要引入新的特征向量,即購(gòu)買日期。
輸入用戶資料 - 提取性別&購(gòu)買日期并判斷 - 輸出
根據(jù)新的用戶資料和購(gòu)買行為,我們持續(xù)會(huì)發(fā)現(xiàn)新的特征有利于我們的判斷。于是就引入更多新的特征,比如除了公共節(jié)假日,可能還要看用戶女朋友/家人的生日;比如女性里面,購(gòu)買口紅概率更大的,可能會(huì)出現(xiàn)在某個(gè)年齡段,等等。這樣「特征」就越來(lái)越多。
輸入用戶資料 - 提取性別&購(gòu)買日期&年齡&....... 并判斷 - 輸出
我們輸出的結(jié)論肯定就越來(lái)越準(zhǔn)確。這就是機(jī)器學(xué)習(xí)運(yùn)作的基本邏輯。
即然要提取這么多特征做判斷,就要看不同的特征影響輸出的程度有多大。性別和年齡可能權(quán)重大一些,其它的可能權(quán)重小一些。怎么判斷呢?肯定不能人為,那就要訓(xùn)練一個(gè)模型。
機(jī)器學(xué)習(xí)的模型就是投入我們認(rèn)為篩選出來(lái)的特征維度(性別、年齡等)、大量的正向和負(fù)向的案例(訓(xùn)練集),讓機(jī)器學(xué)習(xí)出一個(gè)極度復(fù)雜的公式,公式來(lái)解釋每個(gè)特征影響結(jié)果的程度。
這里面訓(xùn)練集的規(guī)模就成了重點(diǎn),案例越多肯定越準(zhǔn)確。在過(guò)去的時(shí)代,很多訓(xùn)練集是需要人工標(biāo)注的,標(biāo)注員會(huì)跟富士康的工人一樣算是勞動(dòng)密集型的工作,去判斷這個(gè)案例是正的還是負(fù)的。比如文字識(shí)別,這個(gè)字是哪個(gè)字?圖像分類識(shí)別,這是貓還是狗?一段翻譯,是否翻譯準(zhǔn)確?
這也是為何互聯(lián)網(wǎng)公司團(tuán)隊(duì)往往擁有最好的「算法」。當(dāng)我們提到算法好的時(shí)候,大部分情況下其實(shí)講的是這個(gè)公司的機(jī)器學(xué)習(xí)模型準(zhǔn)確度高,這個(gè)準(zhǔn)確度來(lái)源于公司收集的大量用戶行為數(shù)據(jù),用戶是在用準(zhǔn)確的行為免費(fèi)幫企業(yè)做標(biāo)注,比如購(gòu)買消費(fèi)行為、瀏覽點(diǎn)擊行為,等等。
此為機(jī)器學(xué)習(xí)的原理。當(dāng)然這是白話說(shuō)的,具體怎么提取特征、怎么判斷權(quán)重和因子間相互的影響、怎么分類、怎么建模等等,其實(shí)是很復(fù)雜的技術(shù)操作。
03 深度學(xué)習(xí)與 AIGC 原理
機(jī)器學(xué)習(xí)發(fā)展到 21 世紀(jì),計(jì)算機(jī)的性能大幅提升,開(kāi)始演化出深度學(xué)習(xí)(Deep Learning)。
深度學(xué)習(xí)之所以是「深度的」,就因?yàn)?strong>除了能學(xué)習(xí)模型怎么做精確,還能學(xué)習(xí)怎么建模本身。
前面講的案例里,我們要識(shí)別一個(gè)人會(huì)不會(huì)買口紅,還是從「生活觀察」出發(fā),去猜想,誒,這個(gè)特征是不是有關(guān)系?那個(gè)特征是不是有關(guān)系?
深度學(xué)習(xí)的邏輯不需要判斷,就是一股腦把所有的信息,轉(zhuǎn)化成數(shù)據(jù)投入進(jìn)深度學(xué)習(xí)的模型里去,它會(huì)自己去判斷哪個(gè)有用、哪個(gè)沒(méi)用。
這樣的好處是很顯然的:能覆蓋更多的特征、能采集更多的數(shù)據(jù)。并且由于深度學(xué)習(xí)的算法是可以疊加很多層次的,就能解決更復(fù)雜的場(chǎng)景、更復(fù)雜的數(shù)據(jù)。
所以深度學(xué)習(xí)的效果會(huì)明顯變好。

(一個(gè) 卷積神經(jīng)網(wǎng)絡(luò),即 convolutional neural network 、CNN 的示意圖,來(lái)源 CSDN)
像我們舉的例子,還是單一維度的判斷,會(huì)不會(huì)買口紅。而深度學(xué)習(xí)就可以到圖像領(lǐng)域、視頻領(lǐng)域了,可以處理大量像素的色值、位置等等問(wèn)題。
但深度學(xué)習(xí)也會(huì)存在一個(gè)問(wèn)題,就是既然繞過(guò)了人為提取特征、人為判斷規(guī)律,就會(huì)讓深度學(xué)習(xí)的模型,幾乎不存在可解釋性。就相當(dāng)于這是一個(gè)黑盒,我們知道它每次能給出準(zhǔn)確的答案,卻不知道它為什么給;甚至我們拆開(kāi)盒子,看到里面大量的函數(shù)、公式和邏輯,也會(huì)覺(jué)得莫名其妙——有可能要判斷會(huì)不會(huì)買口紅,有個(gè)因子是這人右腳的腳趾頭是不是有胎記。
在深度學(xué)習(xí)領(lǐng)域中,2014 年橫空出世了一款全新的算法,生成對(duì)抗網(wǎng)絡(luò)(GAN, Generative adversarial network)。它在后來(lái)的 AIGC 領(lǐng)域所向披靡,大受歡迎,效果極佳。而它的原理甚至很有文學(xué)性。
GAN 解決這個(gè)問(wèn)題的方式是,放一個(gè)老師,跟學(xué)生博弈。模型就像一個(gè)學(xué)生,給出考題的答案,老師來(lái)判斷正誤,直到滿意;老師滿意以后,學(xué)生對(duì)老師不滿意了,覺(jué)得這些題太簡(jiǎn)單,老師你得出點(diǎn)更難的題目,我還得繼續(xù)提升成績(jī)呢,于是老師也要進(jìn)步,給新的考題,直到學(xué)生幾乎答不出來(lái);接下來(lái)學(xué)生繼續(xù)努力學(xué)習(xí)、答題,到了閾值后,老師繼續(xù)學(xué)習(xí)、出題......循環(huán)往復(fù),就像 GAN 的名字里所述,對(duì)抗的模式來(lái)共同提升。
這個(gè)算法的邏輯就是:競(jìng)爭(zhēng)才能使人成長(zhǎng)。

(在原始圖像基礎(chǔ)上,用 GAN 生成的一些實(shí)例。來(lái)源:https://gitcode.net/mirrors/yenchenlin/pix2pix-tensorflow)
它的具體實(shí)現(xiàn)當(dāng)然又更加復(fù)雜了。我們只需要知道,它在圖像方面,有最出色的表現(xiàn),很適合基于原始內(nèi)容(噪音)、補(bǔ)充和豐富細(xì)節(jié)。
GAN 是 AIGC 最常用的機(jī)器學(xué)習(xí)算法之一,另外一個(gè)常用的是 diffusion model,在某些方面很像,比如也是適合基于原始內(nèi)容(噪音)來(lái)生成內(nèi)容。文章一開(kāi)頭的那幾張圖,就是基于 diffusion model 原理的。
所以總結(jié)下就是,機(jī)器學(xué)習(xí)的發(fā)展過(guò)程中,大大簡(jiǎn)化了人工參與的環(huán)節(jié)和步驟、豐富了輸入和輸出的維度及準(zhǔn)確性,繼而從「會(huì)不會(huì)買口紅」這樣簡(jiǎn)單的問(wèn)題,進(jìn)化到了可以生成一幅寵物的照片、一段以假亂真的視頻、一條模仿某人的聲音。(推薦英劇《真相捕捉》,講的是圍繞 Deepfake 這類技術(shù)的罪案故事。)
這個(gè)過(guò)程中,很多公式和模型的復(fù)雜性已經(jīng)到了難以解釋,甚至無(wú)法去遍歷和閱讀的程度。聊到這,可能諸位也能有一種感受:這些年機(jī)器學(xué)習(xí)的進(jìn)展飛快,不過(guò)仍然都圍繞在最初機(jī)器學(xué)習(xí)的原理上——通過(guò)海量的數(shù)據(jù)訓(xùn)練機(jī)器,讓機(jī)器能更好地預(yù)測(cè)概率。
04 統(tǒng)計(jì)、概率、訓(xùn)練與經(jīng)驗(yàn)主義
我們換個(gè)視角,用更形象的表述,可能有助于理解機(jī)器學(xué)習(xí)是怎么實(shí)現(xiàn)我們看到的人工智能的。
自然語(yǔ)言處理/機(jī)器翻譯領(lǐng)域,我們目光所及的翻譯工具,用的方式可以這么理解,比如是中文翻譯到英文,機(jī)器做的事情是:
當(dāng)給出的第一個(gè)中文詞出現(xiàn)的時(shí)候,翻譯是哪個(gè)英文詞的概率更大?
當(dāng)給出的第二個(gè)中文詞,出現(xiàn)在第一個(gè)中文詞后面的時(shí)候,翻譯是哪個(gè)英文詞的概率更大?
......
類比到 AIGC 領(lǐng)域,比如我們要畫(huà)一個(gè)小狗,機(jī)器做的事情是:
當(dāng)給出的關(guān)鍵詞是小狗的時(shí)候,第一個(gè)像素點(diǎn)在哪個(gè)位置、哪個(gè)顏色的概率更大?
......
當(dāng)畫(huà)完臉部后,它有沒(méi)有耳朵?
有的話,有幾只耳朵的概率更大?
當(dāng)應(yīng)該要有左耳的時(shí)候,它的第一個(gè)像素點(diǎn)出現(xiàn)在哪個(gè)位置、是哪個(gè)顏色的概率更大?
......
機(jī)器在過(guò)程中,雖然用的是模型,實(shí)際上模型都是基于統(tǒng)計(jì)概率的模型。機(jī)器更像是在瘋狂回憶它記住的所有過(guò)往的畫(huà)作里,所有小狗的形象,力圖讓結(jié)果更接近「大概率」。
這也是為什么在各個(gè) AI 繪圖的工具里,關(guān)鍵詞給的越精確,畫(huà)作就會(huì)越成立。因?yàn)榫_意味著縮小了范圍,同樣類型畫(huà)作的風(fēng)格、樣貌是更接近的,畫(huà)作的模仿效果就會(huì)更好。
這里訓(xùn)練出來(lái)的統(tǒng)計(jì)概率模型的過(guò)程,恰似古代的雜技工作者,讓寵物做計(jì)算題的方式。當(dāng)出現(xiàn)哪幾個(gè)數(shù)字的時(shí)候,應(yīng)該選擇怎樣的答案,寵物是靠背的,這個(gè)是統(tǒng)計(jì)概率的問(wèn)題,不是數(shù)學(xué)計(jì)算的問(wèn)題。訓(xùn)練的過(guò)程給的獎(jiǎng)懲,跟機(jī)器學(xué)習(xí)是一樣的(機(jī)器學(xué)習(xí)里也有獎(jiǎng)懲概念)。
這也是機(jī)器學(xué)習(xí)里的神經(jīng)網(wǎng)絡(luò),跟人的神經(jīng)網(wǎng)絡(luò)目前看差異最大的地方。我們很好地運(yùn)用了計(jì)算機(jī)夸張的性能和存儲(chǔ)能力,讓它擁有巨型的統(tǒng)計(jì)概率模型,來(lái)存儲(chǔ)海量數(shù)據(jù)訓(xùn)練集得到的記憶結(jié)果,但說(shuō)到底,它有的還是圍繞統(tǒng)計(jì)和概率的。
這也意味著,它是完全經(jīng)驗(yàn)主義的。AlphaGo 可以參考天下古往今來(lái)所有的棋譜,但下不出沒(méi)見(jiàn)過(guò)的棋譜;Novel AI 可以參考所有的小說(shuō),但不會(huì)用沒(méi)見(jiàn)過(guò)的詞組和表述。
只不過(guò)在 AIGC 的領(lǐng)域,內(nèi)容的復(fù)雜性,在觀感上,就弱化了我們對(duì)統(tǒng)計(jì)概率邏輯的認(rèn)識(shí),以為這個(gè)就是機(jī)器天馬行空做出來(lái)的。其實(shí)機(jī)器還是在采納大量過(guò)往畫(huà)作基礎(chǔ)上做「創(chuàng)作」的,但的確不同的拼湊和處理,會(huì)出現(xiàn)意想不到的效果,這是因?yàn)楫?huà)作本身就是對(duì)現(xiàn)實(shí)世界的抽象,若離若即效果最佳。
如果是在書(shū)寫(xiě)長(zhǎng)篇小說(shuō)、拍攝一部邏輯完整的電影方面,就要吃力太多了。
05 幾個(gè)問(wèn)題的解答
我們?cè)倩氐阶畛醯膯?wèn)題,試著解答一下。
- AIGC 能解決哪些問(wèn)題?不能解決哪些問(wèn)題?
如前文所說(shuō),AIGC 可以解決的,是從歷史里做總結(jié)和學(xué)習(xí),憑借統(tǒng)計(jì)概率,解決已被解決過(guò)的問(wèn)題。
不能解決的,則是創(chuàng)造新的事物、總結(jié)規(guī)律、解釋世界的問(wèn)題。
- AIGC 能否替代真正的創(chuàng)作者?
一定程度上會(huì)。
哪怕只是經(jīng)驗(yàn)主義、原理與 AlphaGo 并無(wú)本質(zhì)區(qū)別,AIGC 也有很大的價(jià)值,那就是在某些足以亂真的領(lǐng)域,替代掉很多人工的成本。
比如 AIGC 的畫(huà)作,如今就能替代不少插畫(huà)。很多自媒體的朋友已經(jīng)在用它們替代無(wú)版權(quán)圖片作為封面了。
老話說(shuō),讀書(shū)破萬(wàn)卷,下筆如有神。AIGC 的文本工具,其實(shí)就是替我們讀了萬(wàn)卷書(shū)的助手。比如我們要寫(xiě)作,它幫我們生成一段人物小傳作為參考、幫我們提供一些場(chǎng)景描述作為素材,就大有幫助。
只不過(guò),對(duì)于很多真正需要「創(chuàng)造」的場(chǎng)景,AIGC 就愛(ài)莫能助了。例如,機(jī)器學(xué)習(xí)的訓(xùn)練集若是在三年前的,肯定就無(wú)法寫(xiě)出疫情故事、也難以想象疫情中我們常人都很難預(yù)知的場(chǎng)景。
幾年前就出現(xiàn)過(guò) AIGC 替代作者的說(shuō)法,不過(guò)如今再看,應(yīng)用比較多的還是在短新聞方面。它能很好地基于概率給出一篇「不錯(cuò)」的新聞通稿,但這也是過(guò)往短新聞格式一致、風(fēng)格類似,較好模仿。觀點(diǎn)、態(tài)度、延伸的想法,自然是很難用統(tǒng)計(jì)概率去捉摸的。
- AIGC 是否意味著人工智能的質(zhì)變?
沒(méi)有。
AIGC 的邏輯,與半個(gè)世紀(jì)前統(tǒng)計(jì)機(jī)器學(xué)習(xí)的根本邏輯并無(wú)二致,還是基于統(tǒng)計(jì)概率的,基于訓(xùn)練集去猜測(cè)的。哪怕 Siri 里偶爾出現(xiàn)精妙的回答,那也是曾經(jīng)有對(duì)話真正發(fā)生過(guò),Siri 從概率出發(fā)模仿的而已。
哪怕 AI 繪制的最拍案叫絕的畫(huà)作,也是基于人類歷史所有畫(huà)作的基礎(chǔ)創(chuàng)作的,還是人類作品的雜交。哪怕藝術(shù)性很高,也不代表 AI 有了「智慧」。
人類是可以歸納、演繹、總結(jié)背后邏輯的,這點(diǎn)機(jī)器依然做不到。甚至隨著機(jī)器學(xué)習(xí)的黑盒越來(lái)越黑、模型越來(lái)越難以解釋,讓機(jī)器在更擅長(zhǎng)做統(tǒng)計(jì)和記憶的路上一去不返,放棄了做解釋、研究規(guī)律。
不過(guò)說(shuō)到這里,也可以反問(wèn)一句:是否通過(guò)統(tǒng)計(jì)概率就真的無(wú)法產(chǎn)生智能?這個(gè)目前看很難,但未必一定是假命題。人類自己的神經(jīng)網(wǎng)絡(luò)都還是朝陽(yáng)研究學(xué)科,這就得留給時(shí)間去解答了。

小程序
掃碼打開(kāi)微信小程序
APP下載
掃碼下載市場(chǎng)部網(wǎng) App




