近年來,以大模型為代表的AI技術發展迅猛,掀起一波席卷全球的AI發展熱潮。關注AI發展狀況的人不限于AI的研發者、推廣者和AI發展的評論者、人文社科研究者,更包括深感生活將被AI深刻影響的普通公眾。AI發展的問題不再是純粹技術問題,而是成為某種意義上的公共議題。在最近OpenAI發布Sora、馬斯克開源Grok等一系列相關事件中,這一點表現得非常清楚。在各種相關公共討論中,AI發展現狀尤其受到關注,其中的基本問題是:當前AI發展的大方向是否有問題,未來應該朝什么方向前進。為此,組織計算機、經濟學、馬克思主義理論和哲學等領域的八位學者,對AI發展現狀進行跨學科反思以期拋磚引玉,求教于方家。
本系列文章共8篇,轉載自《科學·經濟·社會》2024年第2期,本文《價值對齊是人類通往未來的“必經之路”嗎?》為第4篇。在文中,閆宏秀和李洋認為必須正視人類期望的價值對齊,對人之為人的守護必須是價值對齊的基準生命線,也只有基于此的價值對齊才是人類通往未來必經之路。
人工智能技術正在通過輸入海量數據和經驗,經由機器學習不斷進步。目前,人工智能技術已經走到了邁入“通用”智能的關口。這意味著可能即將出現與人類思維近似的智能機器,其具有進行學習、解決問題以及規劃未來的能力,并將分享“人”作為行動主體的地位。如何確保人工智能技術捕捉并符合人類的社會規范和價值觀、理解人的意圖以及以人類想要的方式行事,已成為計算機科學領域最核心、最緊迫的問題之一,稱為價值對齊(value alignment)。恰如《對齊問題》的作者布萊恩·克里斯汀(Brian Christian)所示,“機器學習表面是技術問題,但越來越多地涉及人類問題。”價值對齊是人機(技)融合必須解決的一個問題。從價值對齊作為一種人與機(技)聯盟的意義上來看,其一直是技術發展的目標之一。事實上,在人類發展的漫長歷史中,人類不斷尋求將自己的身體和精神范圍擴大到環境的局限之外,特別是通過開發技術來滿足自身的需求和欲望,企圖增強和超越“人”的能力。在此尋求的進程中,作為技術發展的目標之一的人機(技)融合即二者的聯盟恰恰就是人類對技術的一種期望。已經走過了六十多年的人工智能技術則將這種期望推向了人類未來的關鍵期,此時,該如何看待這種期望呢?
一、正視人類期望的價值對齊
面對人工智能領域的巨大成就,當代哲學家盧克·穆爾豪瑟(Luke Muehlhauser)和尼克·博斯特羅姆(Nick Bostrom)警惕人類應對技術保持克制,他們曾指出:“一個超級智能的人工智能可能會很快變得優于人類……我們可能無法與它或其后代進行談判,就像黑猩猩無法與人類進行談判一樣。”兩位學者隱喻這樣一個事實:如果“通用”智能真的出現,它們可能對人類并不友好。在面臨潛在風險和挑戰的背景下,研究者們就如何確保智能系統的可靠性、穩健性、安全性、可解釋性和公平性等問題進行了一系列討論,結果指向人工智能的決策和行為可能與人類的價值觀和利益存在偏差,這種偏差可能源于系統在訓練過程中使用到的數據、算法以及模型的局限性,因此,亟須正視作為人類期望的價值對齊是否依然有用與有效。
首先,高度重視價值對齊無用論。由于哲學和價值論學科中關于人類價值觀的性質和內容的分歧尚未解決,因此如何在監管和設計人工智能時實現價值對齊也毫無意義。但在這種簡單的邏輯關系中,潛在地把技術置于中性地位,而正是這種技術中性思想正在威脅著真正的價值對齊。價值對齊中的價值不僅是指人的價值,也是指技術的價值。德國哲學家馬丁·海德格爾(Martin Heidegger)曾說:“正是這種人們至今仍舊深信不疑的關于技術的中性把握,使我們對技術的本質仍然茫然無知。”如果未來的人工智能在人類福祉方面是中立的,被編程為它只想解決一些計算上極具挑戰性的技術問題,并且它只關心解決這個技術問題。這樣做的結果就會使人工智能形成了這樣一種信念,即解決這個問題的最有效且唯一方法是將整個世界變成一臺巨型計算機,進而導致所有人類大腦的計算資源都被人工智能劫持并用于該技術目的。最終,人工智能將會造就一幅世界末日的未來場景。如此看來,這種人工智能盡管持有與人類福祉中立的態度,但是結果上卻對人類生存構成了嚴重的威脅。換言之,即使人工智能不必事先對人類懷有敵意,人類對它的技術中立觀和價值對齊無用論就已經是對自身的毀滅。
其次,積極探尋價值對齊的出發點。人類構建智能技術的一個重要動機是希望它能夠與人合作,增強人類的能力,找到并解決人沒有和不能解決的問題。因此,如果將技術錨定在人類問題的解決方案概念上,人應該向技術敞開歡迎的大門。但針對“技術工具論”,漢娜·阿倫特(Hannah Arendt)在《人的境況》一書中曾有過關于“工具制造者”的反思:“技藝人設計和發明器具是為了建立一個物的世界,而且器具的合用和精確程度都是由他想要創造的產品的‘客觀’目的決定的,而不是由他的主觀需求和要求決定的。”同時,德國哲學家阿諾德·蓋倫(Arnold Gehlen)也說過:“技術在這種高度普遍的意義上,就是人類自身本質的最重要的部分。”深省兩位學者的分析可以發現,如果只是把科學和技術當作對自然采取行動的手段,把科學發明視為人類超越自然限制的工具,那么將會使“人”脫離人類自身的生存處境而作為勞動者被異化為動物物種。如果價值對齊的目的只是使人工智能成為更趁手的工具,那么勢必會招致人類夢想的破滅。因此,價值對齊的出發點至關重要。
最后,理性應對價值對齊恐懼。與伴隨第二次技術革命的發展而出現的技術恐懼主義相似,對價值對齊的恐懼主要來自兩個方面,一是基于數智技術本身的不確定性與風險。如數智技術的生成性、涌現性、交互性等技術特性在價值對齊過程中已經出現的諸如越獄、對齊幻覺、“欺騙性對齊”“偽對齊”等價值對齊失常現象;由數智技術的技術性能局限性所導致的價值對齊過程中的技術邏輯與人的邏輯的不兼容、對立以及斷裂等;二是技術對人的威脅與異化在數智時代更為突出,且影響更為深層與更為普遍。因此,鑒于技術恐懼主義在人類社會中的已有影響,必須警惕由對價值對齊的恐懼而帶來的對技術的盲目抵制。
事實上,價值對齊之所以是人類對未來的期望,是因為其可以緩解或抵消技術對“人”道德主體地位的威脅,幫助人類進行自我的延續與重塑。但如果不能跨過上述理解價值對齊的障礙,很難說價值對齊能為人類帶來什么。很明顯,價值對齊并不應是由于將技術道德化的實踐轉化,而是應在超越技術工具論的基礎上,充分審視將技術道德化的前提條件。在人類道德技術化的進程中,價值對齊并不是人機(技)融合的終點,而是根植于技術發展和人類進化的歷程當中,使“人”以現代人的姿態展示著人之為人的意義。
二、保障“人之為人”的價值對齊
在人類的歷史上,沒有任何一個領域像人工智能領域一般存在著如此嚴重的對人類尊嚴的潛在威脅。人類尊嚴從古至今都是一個嚴肅的話題,“早期儒家的倫理政治理論建構,由于將倫理作為政治的起始點與歸宿點,使他們不能不對人的設計高度重視。”在西方文化中,由于受到基督教傳統的影響,“人”通常被視為按照神的形象創造的,擁有固有的尊嚴和價值,強調個人的權利、自由和個人主義,認為每個人都應該有追求幸福和自我實現的權利。許多非洲傳統強調社區和集體主義,人的身份和價值不僅僅在于個體,而是與其在家庭、部落和社區中的角色和關系緊密相關。另外,世界各地的原住民通常將人視為自然世界的一部分,強調人與自然的密切相關、和諧共處。現代人在如何理解和評價人方面存在文化、歷史和哲學差異,不同的觀點展示了人類對“人”的多樣性理解,以及如何基于這些理解構建倫理和社會價值體系。但毋庸置疑的是,“人”的概念是一個具有深刻倫理含義的多重概念。基于人格的視角,可以說有關人工智能的問題可以被視為組織和整合我們迄今為止解決的許多問題的一種手段。在這期間,涌現了一些關于人類和機器之間的區別以及相似性的本質性問題,人工智能的發展觸及許多倫理問題,如人工智能應該得到什么道德待遇的問題,人工智能的使用如何以各種方式影響人的問題,以及關于人工智能是否能夠確實表現出人格或人格要素的問題(包括意識和能動性)。如果是這樣,人工智能到底會對“人”產生什么道德影響?
當諾伯特·維納(Norbert Wiener)在《人有人的用處》一書中提出“我是相信人類社會遠比螞蟻社會有用得多;要是把人判定并限制在永遠重復執行同一職能的話,我擔心,他甚至不是一只好螞蟻,更不用說是個好人了”之時,他已經將“人之為人”這一哲學話題賦予了某種技術化的解讀。這也印證了我們今天所看到的那樣,維納直指的控制論系統作為嵌入在生物體中的數字化系統存在,隨著它們的不斷普及,人類將繼續獲得前所未有的多方面能力和健康益處。目前大多數交織控制論系統的平臺都由電極附著在人體上皮表面和大腦結構上或與人體上皮表面和大腦結構緊密接觸組成,這有助于更有效地將外部信號傳輸到人體系統,并提高人類身體處理日常事務或工作的速度。這也恰恰彰顯了人類的生物性缺陷使其需要憑借技術獲得生命得以維系的可能性,并使得技術的本質進入了人的本質之中。在人的本質問題上,馬克思曾說:“人以一種全面的方式,就是說,作為一個完整的人,占有自己的全面的本質。”如果說人類目前有什么立足之地,既可以面對人工智能時代席卷而來的技術風暴,又可以保證“人之為人”的倫理特質完整性,那一定是價值對齊。
回望技術的發展史,人類相信技術問題的解決方案是更多技術出現的技術解決主義或曰技術修復主義(techlogoical fix),這類思想一直占據著非常重要的地位。例如,許多復雜技術是集成了從先前版本所產生的問題的解決方案而被逐步迭代后創造出來的。在某種程度上,價值對齊可被視為機器學習在強化潛在的社會歧視時,一種補救由這種“歧視算法”所產生的問題的技術解決方案。從技術視角去解釋價值對齊,可以看到道德進入到人工智能系統中的方法主要有自上而下和自下而上。在自上而下的方法中,以確定的道德立場設計機器,人工智能被明確告知什么是允許的,什么是不允許的。在自下而上的方法中,人工智能從用戶數據中學習道德價值觀和規范,將倫理學整合到機器中,反映人類獲得道德判斷和行為的成長途徑。目前的價值對齊方案傾向于自下而上的方法來設計友好的人工智能。自下而上的方法主要包括具身人工智能和人工生命。通過具身人工智能構建的機器沒有預編程的行為集,相反它們配備了在與環境交互時實例化的基本行為。這種智能生命形式模仿了人類的智力水平是如何發展的,以及是如何不斷發展的。但只要一想到人類的發展史,情況就不值得樂觀了,因為人類的歷史是殘酷的!想要避免落入殘酷陷阱,需將價值對齊解釋為通過技術來對人類訴求進行實現的過程,而人類社會的特質恰恰在于人具有的價值屬性,而并非僅僅是在于人類擁有技術。因此,必須保障“人之為人”的價值對齊。
三、作為“必經之路”的價值對齊
1950年,艾倫·圖靈(Alan Turing)做了著名的“圖靈測試”實驗,第一次引起各界對于機器智能的關注。此后,機器學習、深度學習等技術的興起使得人工智能開始具備更強的自主學習和決策能力。這也引發了關于人工智能如何與人類價值觀和道德觀相協調的爭議,人類開始意識到人工智能的決策和行為可能與人類的價值觀和道德原則存在偏差。從早期的專家系統到現代的深度學習,如何讓計算機模擬人類的思考和決策過程,一直是計算機科學領域的熱點和難點。反觀今天的人類社會正在進入一個智能代理時代,其中技術在很大程度上塑造和決定了權力的行使,影響了公共政策和人類決策等。人類需要找到有效的方法來確保技術的可靠性、可追溯性和可解釋性來應對公眾對技術黑匣子的質疑,并將私人權利與公共利益、技術權重與人類能力等進行重新調整。
對于積極的價值觀調整方法提供了什么的追問,可能不在于它提供的任何答案,而在于它要求人類在這種情況下提出的哪些“問題”,以及它所提供的“問題”的重新概念化。也就是說,通往人類未來的價值對齊首先要回答自己要解決的問題可能是什么。通往人類未來的價值對齊要解決的問題包括:人類價值觀如何融入技術之中,且還應確保人類價值觀的多樣性,避免價值觀的同質化與一元性;在人機(技)融合的進程中,人類智能與機器智能的對齊邏輯依據,特別是不同邏輯之間的統一性與融貫性問題;人機(技)價值對齊的基準線、生命線與切人點問題,特別是伴隨數據智能技術的發展,人機(技)對齊的進程中,人是否還在回路問題等。因此,隨著人工智能技術的不斷進步和應用場景的迅速拓展,價值對齊將繼續成為研究者關注的焦點。人類通往理想的智能未來還有一段很長的路要走,這條路上勢必要經過使價值對齊得以實現的艱難歷程,以期保證先進和高度自主的人工智能系統具有正確吸收人類價值觀和目標的能力。以社會進步主義觀點看待價值對齊,它其實是一個涉及多個領域研究和實踐的不斷發展和完善的過程,可以消減人類和技術的芥蒂。“人”如果想要在即將到來的超級人工智能崛起時代中得以生存,必須杜絕所有機器做出“不友好”行為的可能,確保這些未來機器分享并接受人類最珍視的價值觀和信仰。
從價值對齊作為一種人與機(技)聯盟的意義上來看,其一直是技術發展的目標之一,因此,在這個意義上,是人類發展的“必經之路”。也正因為是必經之路,所以更需慎重,盡量避免在通向人類未來進程中數智時代的價值對齊變成一個作為教訓而存在的階段。回顧關于技術的哲學思考,無論是“器官投影說”關于技術與人的相關性揭示,還是關于技術工具論的質疑,都指向了人與技術之間融合邊界的問題,即探尋人與機(技)聯盟的基準。這種探尋就是在力圖厘清價值對齊的最佳路徑與最優結果。
事實上,數智技術將價值技術化與技術價值化雙向融合的理想樣態是技術邏輯與價值邏輯的完美契合,這也是價值對齊的應有形態。但這種契合應當首先立足于人類的價值觀來校準技術,而不能基于技術來規制人類價值。該要求恰如社會學家克里斯多夫·庫克里克(Christopli Kucklic)所說:“現代人的驕傲是我們能夠成為某個人并且能夠堅持做這個人。微粒人的驕傲在于一直成為另外一個人,同時不會失去自我”,數智技術是關于人類心靈、思想、能動性和責任本質等的更深層次哲學思考的催化劑,目前的形勢正在向人類呈現人與人工智能共同進化出“人機(技)聯盟”的未來圖景。而只有通過以人之為人作為基準生命線的價值對齊所建立起的“人機(技)聯盟”才是人類通往未來的“必經之路”的正確打開模式。