熱門關(guān)鍵字： 宏觀解讀約稿沈良

春晚機(jī)器人熱舞背后：具身智能如何跨越“交互”大山？

2025年蛇年春晚，舞臺上出現(xiàn)了一幕令人眼前一亮的場景：一群機(jī)器人帶來了一場別開生面的扭秧歌表演，吸引了全球觀眾的目光。在張藝謀導(dǎo)演的《秧BOT》節(jié)目中，這些機(jī)器人身著東北特色的花棉襖，隨著音樂節(jié)奏翩翩起舞，動(dòng)作精準(zhǔn)流暢，手中的手絹轉(zhuǎn)得虎虎生風(fēng)，與人類舞者相比也毫不遜色。

這些驚艷眾人的機(jī)器人，來自杭州的一家具身智能創(chuàng)業(yè)公司。它們的亮相，不僅向全球觀眾展示了中國具身智能機(jī)器人技術(shù)的飛速發(fā)展，更引發(fā)了人們對具身智能機(jī)器人產(chǎn)業(yè)的廣泛關(guān)注與深入思考。

具身智能機(jī)器人，作為人工智能與物理世界深度融合的結(jié)晶，正逐步成為未來科技發(fā)展的關(guān)鍵方向。清華大學(xué)全球創(chuàng)新學(xué)院院長、自動(dòng)化系教授兼博導(dǎo)劉云浩在其新書《具身智能：人工智能的下一個(gè)浪潮》中，以通俗易懂的方式剖析了什么是具身智能，以及如何實(shí)現(xiàn)從人工智能到具身智能的跨越。

如何使機(jī)器“自然地做到”

小狗在草地上歡快地奔跑，小鳥在空中飛翔，這些行為都不需要?jiǎng)游锏拇竽X進(jìn)行復(fù)雜計(jì)算或過度努力。但要想讓機(jī)器人能做到跑步、跳躍，那可就費(fèi)勁了。首先，智能體需要準(zhǔn)確地感知環(huán)境和對象的狀態(tài)，這包括對象的位置、大小、形狀和紋理等信息；其次，智能體需要根據(jù)感知到的信息進(jìn)行運(yùn)動(dòng)規(guī)劃，計(jì)算出如何移動(dòng)自己的關(guān)節(jié)和肢體，以實(shí)現(xiàn)預(yù)期的動(dòng)作；最后，智能體需要精確地執(zhí)行這些動(dòng)作，這不僅要求其對關(guān)節(jié)和肢體的控制精度，還要求其能夠適應(yīng)環(huán)境的變化和不確定性。你看看波士頓動(dòng)力—這家公司花了數(shù)十年的時(shí)間在工程研究、機(jī)械設(shè)計(jì)、傳感器集成以及算法開發(fā)上，才使得其機(jī)器人能在高度控制的實(shí)驗(yàn)室條件下實(shí)現(xiàn)類似動(dòng)物包括人類的奔跑、跳躍。

在我們的日常生活中，很多看似簡單的任務(wù)如切菜、刮胡子、整理收納等，人工智能都沒能很好地完成，一個(gè)不小心智能體還會掉入所謂的“恐怖谷”。這個(gè)術(shù)語描述了當(dāng)機(jī)器人或仿生對象接近但尚未達(dá)到與真實(shí)人類或其他生物無法區(qū)分的程度時(shí)，引起的不適感或恐懼。

這是因?yàn)椋粘Ｈ蝿?wù)雖然對人類來說輕而易舉，但對機(jī)器人來說卻涉及復(fù)雜的運(yùn)動(dòng)控制和精細(xì)的感知能力。例如，切菜不僅需要根據(jù)食物的硬度、形狀和紋理調(diào)整力度和切割角度，還需要避免切到手，也不能造成不必要的浪費(fèi)；刮胡子則要求機(jī)器人能夠精準(zhǔn)識別臉部輪廓，輕柔而有效地去除毛發(fā)，同時(shí)避免刮傷皮膚；整理收納則涉及對物品的識別、分類和空間規(guī)劃，需要機(jī)器人具備一定的空間智能和組織能力。

這也揭示了具身智能發(fā)展過程中的重大瓶頸—如何使機(jī)器不僅能“做到”這些動(dòng)作，而且能夠像生物那樣“自然地做到”。

“具身智能”由兩個(gè)詞組成，一個(gè)是“具身”，一個(gè)是“智能”。我們先來說“具身”。

動(dòng)物尤其是人類能夠做到運(yùn)動(dòng)控制，需要一個(gè)復(fù)雜而精細(xì)的過程，它涉及神經(jīng)系統(tǒng)、肌肉系統(tǒng)以及感覺系統(tǒng)的協(xié)同工作。運(yùn)動(dòng)控制的核心在于神經(jīng)系統(tǒng)與肌肉系統(tǒng)的協(xié)同作用。神經(jīng)系統(tǒng)通過發(fā)出電信號來控制肌肉的收縮和放松，從而實(shí)現(xiàn)各種動(dòng)作做到運(yùn)動(dòng)控制是由演化決定的。

對于智能機(jī)器，我們希望其行動(dòng)能夠做到準(zhǔn)確、迅捷、協(xié)調(diào)?？墒?，要讓機(jī)器變得如此靈巧，又談何容易？

從維納的控制論開始，行為主義在這一領(lǐng)域做了大量的工作。時(shí)至今日，從波士頓動(dòng)力翻跟頭的機(jī)器人到穿街走巷的無人駕駛汽車，從流水線上組裝零件的機(jī)械臂到夜空中飛舞盤旋組成各種圖案的無人機(jī)集群，我們已經(jīng)目睹了大量靈巧的智能機(jī)器。

但是我們?nèi)匀徊粷M足，因?yàn)檫@種靈巧還不夠“通用”，還有很多任務(wù)做得并不好，就連最普通的家務(wù)，目前也并沒有哪一款智能機(jī)器能夠包攬并達(dá)到商用的程度。

那么，這些任務(wù)到底難在哪里呢？交互是關(guān)鍵。在沒有外界交互的情況下，對智能機(jī)器的控制已經(jīng)得到了廣泛的研究并取得了顯著成果。但一旦牽涉與環(huán)境的交互，機(jī)器行動(dòng)的難度便急劇上升。擺在交互面前的三座大山分別是“對象”、“環(huán)境”和“動(dòng)態(tài)性”。

首先來看交互的對象。對象的類型無窮無盡，可能是一件衣服、一個(gè)柜子、一座山、一片海、一個(gè)人或者另一臺機(jī)器。每個(gè)對象都有其獨(dú)特的屬性和特性，我們與它們互動(dòng)時(shí)的體驗(yàn)和需求也截然不同。比如，雕刻木頭與堆雪人所需的技巧大相徑庭，抓住水杯與拿起豆腐所需的力度迥異，擰開藥瓶蓋與打開微波爐門的動(dòng)作也各有不同。

其次是交互的環(huán)境。物理世界中的交互總是發(fā)生在復(fù)雜紛繁的環(huán)境當(dāng)中，充滿了各種噪聲和干擾。以晾衣服這一簡單任務(wù)為例，我們需要在可能的風(fēng)力干擾下，從一堆洗凈的衣物中挑選一件并將其固定到晾衣架上。對于無人駕駛汽車而言，雨雪天氣、道路障礙物等都可能對其行動(dòng)造成重大影響。

最后是交互的動(dòng)態(tài)性。交互的過程往往充滿了動(dòng)態(tài)性，交互對象的變化、環(huán)境的變化等都無法在行動(dòng)之初就確定下來，甚至這些動(dòng)態(tài)性也會導(dǎo)致行動(dòng)的階段性目標(biāo)發(fā)生變化，進(jìn)而需要智能機(jī)器及時(shí)進(jìn)行調(diào)整。

不過，當(dāng)我們將視角轉(zhuǎn)向較為簡單可控的環(huán)境，針對少數(shù)對象的交互時(shí)，現(xiàn)代智能機(jī)器已經(jīng)展現(xiàn)出了卓越的成就。例如，在生產(chǎn)線上，焊接機(jī)器人面對的交互對象和環(huán)境在一定時(shí)期內(nèi)是恒定的，因此即便需要快速完成多個(gè)焊點(diǎn)，這些機(jī)器人也能精準(zhǔn)高效地完成任務(wù)。

事實(shí)上，就重復(fù)性工作效率和精準(zhǔn)度而言，機(jī)器已經(jīng)超越了人類。再如，就乒乓球這項(xiàng)對人類運(yùn)動(dòng)控制能力要求極高的運(yùn)動(dòng)而言，在我們將交互環(huán)境限定于固定的球臺一側(cè)、將對象僅限于球拍和球之后，智能機(jī)器已經(jīng)能夠與人對戰(zhàn)，展現(xiàn)出不俗的技藝。

知者敏于行

面對交互之難，到底該如何提升智能機(jī)器的行動(dòng)能力呢？“頭痛灸頭，腳痛灸腳”歷來飽受詬病。要想解決交互中的挑戰(zhàn)，除了提升控制算法和執(zhí)行器的物理性能（這些內(nèi)容在其他教材或文獻(xiàn)中已有廣泛討論），我們還需要聚焦于“知”的深度與廣度。這里的“知”，涵蓋了從感知到認(rèn)知的完整過程，即我們對行動(dòng)主體與客體的全面理解。

該怎么提升“知”的深度與廣度？還是從我們最熟悉的人類來入手進(jìn)行分析。人類之所以能擁有卓越的行動(dòng)能力，并非僅因肢體結(jié)構(gòu)的復(fù)雜性，更在于我們擁有強(qiáng)大的感官和神經(jīng)系統(tǒng)。例如，我們用刀切肉時(shí)，首先是通過視覺給出的信息將其定位到正確的位置和姿態(tài)，然后結(jié)合視覺以及握持刀柄的手傳來的觸覺信號來決定施加多少力度和施力的方向。而如果我們假設(shè)執(zhí)行者是一個(gè)僅具備視覺傳感器的智能機(jī)器，當(dāng)肉里面有一塊骨頭時(shí)，它就很難做出快速而準(zhǔn)確的響應(yīng)了。

人的手部皮膚能夠感知到痛覺、溫度覺、振動(dòng)覺、移動(dòng)性觸覺、恒定性觸覺等多種信息，包含17000多個(gè)觸覺小體，能夠?qū)崿F(xiàn)細(xì)粒度精確的觸覺感知。在這方面，當(dāng)前的智能機(jī)器顯然存在極大不足。

因此，我們要發(fā)揮具身智能特有的優(yōu)勢。雖然智能機(jī)器人沒有那么多神經(jīng)和感官，但是它的形態(tài)和感知能力也同樣不受基因限制。事實(shí)上，人短時(shí)間內(nèi)不可能在腦袋后面進(jìn)化出一雙眼睛，但是讓智能機(jī)器擁有“腦后眼”并非奇事，因此它們能在不受傳統(tǒng)感官局限的情況下，探索一個(gè)更廣闊的感知世界。

例如，魔方是一種很多人喜歡的益智類玩具，但是恢復(fù)魔方對很多沒有經(jīng)過專門練習(xí)的人來說很不容易。就算經(jīng)過一定學(xué)習(xí)，以我本人來說，也需要３分鐘左右。OpenAI在2019年發(fā)布了一個(gè)用機(jī)械手解魔方的系統(tǒng)。研究人員為了測試機(jī)械手的極限，不僅要求其單手完成復(fù)原，還在實(shí)驗(yàn)中設(shè)置了多重障礙：戴上橡膠手套，部分手指被綁住，甚至還有一只長頸鹿走過來干擾。盡管面臨這些挑戰(zhàn)，系統(tǒng)仍然展現(xiàn)出了卓越的魯棒性。

圖：OpenAI發(fā)布的用機(jī)械手解魔方的系統(tǒng)

這個(gè)用來玩魔方的機(jī)械手，來自ShadowRobot（英國暗影機(jī)器人公司）的ShadowDexterousHand（靈巧手），它被安裝在一個(gè)裝備有RGB攝像頭和PhaseSpace動(dòng)作捕捉系統(tǒng)的方形籠中。其控制策略基于強(qiáng)化學(xué)習(xí)，以機(jī)械手的手指當(dāng)前位置和魔方的狀態(tài)為輸入，輸出機(jī)械手下一步的動(dòng)作。在OpenAI公開的一個(gè)視頻中，機(jī)械手在約4分鐘的時(shí)間里成功還原了一個(gè)三階魔方。魔方的狀態(tài)通過三個(gè)不同角度的攝像頭來估計(jì)，而機(jī)械手指尖的位置則通過3D（三維）動(dòng)作捕捉系統(tǒng)追蹤。這個(gè)系統(tǒng)展示了一個(gè)核心理念：盡管只有一只機(jī)械手在執(zhí)行動(dòng)作，但其感知能力卻遍布整個(gè)空間。機(jī)器能夠隨時(shí)給自己選配很多強(qiáng)大的感官。例如在自動(dòng)駕駛汽車上，最新的激光雷達(dá)已經(jīng)能夠?qū)崿F(xiàn)超過百米范圍的高精度三維掃描，熱成像傳感器也能夠讓機(jī)器在黑夜里發(fā)現(xiàn)有溫度的目標(biāo)。這同樣帶來一個(gè)新的問題，即如何使多種感官能夠很好地協(xié)同工作。人類的感官融合是長久以來的進(jìn)化結(jié)果，而在這方面，機(jī)器智能剛剛起步。

DenseFusion采用了一個(gè)創(chuàng)新的異構(gòu)網(wǎng)絡(luò)架構(gòu)，能分別處理RGB和深度數(shù)據(jù)。這種設(shè)計(jì)使各種數(shù)據(jù)能保留其原始結(jié)構(gòu)，而不是簡單地將它們?nèi)诤蠟閱我煌ǖ馈Ｔ趩为?dú)處理完數(shù)據(jù)后，DenseFusion首先對兩種數(shù)據(jù)分別進(jìn)行預(yù)處理，然后使用一個(gè)密集融合神經(jīng)網(wǎng)絡(luò)進(jìn)行整合，使得模型在保持?jǐn)?shù)據(jù)結(jié)構(gòu)的同時(shí)，有效地利用RGB和深度數(shù)據(jù)的互補(bǔ)性。

提出TAVI（TactileAdaptationfromVisualIncentives，從視覺激勵(lì)中觸覺適應(yīng)）這一新框架的作者認(rèn)為，僅依靠現(xiàn)有智能機(jī)器的觸覺感知無法提供足夠的線索來推理物體的空間配置，這限制了糾正錯(cuò)誤和適應(yīng)變化情況的能力。因此，他們提出可以通過使用基于視覺的獎(jiǎng)勵(lì)來優(yōu)化靈巧策略，從而增強(qiáng)基于觸覺的靈巧性。

機(jī)器也不是一直都能夠打“富裕仗”，在很多應(yīng)用場景中，由于受到體積、成本等諸多方面的限制，智能體必須學(xué)會充分利用有限的感知數(shù)據(jù)。

抓取是具身智能體一項(xiàng)基礎(chǔ)而復(fù)雜的能力，它要求精準(zhǔn)控制力度，以避免物體受損或滑落。不同的物體需要不同的抓取策略：滑溜的陶瓷杯和粗糙的橡膠球，它們的抓取方式截然不同（畢竟我可不希望自己精心淘來的卡洛曼設(shè)計(jì)的咖啡壺被打碎）。AnyGrasp就提出一種新的用于抓取的感知技術(shù)，讓機(jī)械夾爪能夠?qū)Υ罅慷询B的、形狀不規(guī)則的、沒有見過的物體進(jìn)行穩(wěn)定抓取操作。感知部件僅為一臺普通的深度相機(jī)。得益于對大量真實(shí)世界數(shù)據(jù)的學(xué)習(xí)，機(jī)器能夠主動(dòng)避開障礙并且通過感知零件的質(zhì)心以提高穩(wěn)定性，這兩項(xiàng)特性在人類的視覺抓取行為中是經(jīng)常能夠看到的。而在另一項(xiàng)研究中，Takahashi等人提出了一種通過圖像來估計(jì)觸覺特性的方法，這對于具身智能體與環(huán)境的交互至關(guān)重要。例如，如果智能體通過視覺觀察到某物體表面比較滑膩，它可能會采取更緊的抓握方式以防滑脫。

除了提升感知能力，如何使機(jī)器具備真正的認(rèn)知能力也是目前具身智能研究的前沿，包括圖靈獎(jiǎng)得主楊立昆近期提出的關(guān)于世界模型的理論在內(nèi)，大量的工作正圍繞這一問題展開。

智能化熵增與具身導(dǎo)航

互聯(lián)網(wǎng)和物聯(lián)網(wǎng)時(shí)代，連接已經(jīng)深入人們的生活，網(wǎng)絡(luò)變得無處不在。你也許會疑惑：連接不就是交換信息嗎？它如何能夠影響認(rèn)知甚至是推動(dòng)智能發(fā)展呢？

1.連接傳遞認(rèn)知。

當(dāng)沒有連接的時(shí)候，感知以及認(rèn)知是如何達(dá)成的呢？靠的是觀察和猜測。沒錯(cuò)，人類做判斷的過程本質(zhì)上也是一種猜測，即根據(jù)觀察到的某種信號并結(jié)合自己的認(rèn)知進(jìn)行猜測。很顯然，感知是有盲點(diǎn)和誤差的，認(rèn)知也存在局限和錯(cuò)誤。我們的視覺可能會被遮擋，看到的也可能不是真相。比如，同樣是在昏暗中看到模糊的身影，有的人可能會因?yàn)榭謶只蛎孕哦J(rèn)為這是“鬼魂”；而另一些人則可能基于理性分析，認(rèn)為這不過是光影效果或視覺錯(cuò)覺造成的“正?，F(xiàn)象”。

所以，假設(shè)智能機(jī)器的任務(wù)是從一堆水果當(dāng)中尋找1個(gè)蘋果，它必須努力克服遮擋的影響來尋找蘋果的特征，然后發(fā)現(xiàn)了一個(gè)非常相似的目標(biāo)，但這可能是一個(gè)外表非常相似的塑料蘋果。智能機(jī)器將其抓起來后甚至可能發(fā)現(xiàn)重量也和真的蘋果差不多，于是只能考慮聞聞味道（如果配備了嗅覺傳感器的話）或者切開再繼續(xù)觀察。單方面的感知或者認(rèn)知總是困難重重。

如果智能機(jī)器能夠與所有交互對象建立連接，那么它們的行動(dòng)是否將變得更加簡單和直接？

在這一點(diǎn)上，智能機(jī)器和人類相比反而更具有優(yōu)勢。人類主要的交流方式是語言，且不說和一塊石頭交流，就算是跨省的方言我們可能都聽不懂，因此人類與外界的交流很多時(shí)候還要借助智能機(jī)器。而反觀機(jī)器，從連接的媒介（無線信號、聲音信號、光信號）、連接的“語言”（協(xié)議）、連接的帶寬等多個(gè)方面來看，都要強(qiáng)大很多。

另外，多個(gè)智能機(jī)器之間可以比人類更充分地共享它們的認(rèn)知，這樣每一個(gè)機(jī)器都能夠獲得更多的信息，有利于規(guī)劃自身的行動(dòng)。這樣的群體智能顯然超越了個(gè)體智能。

2.連接創(chuàng)造認(rèn)知。

除了傳遞認(rèn)知，連接本身也創(chuàng)造了認(rèn)知。連接的載體即各種信號本身就是能夠被感知并且被認(rèn)知的，它們攜帶著物理世界的印記，賦予我們豐富的信息。

例如，在無線導(dǎo)航的研究中，我們利用無線信號的強(qiáng)度與距離的相關(guān)性估計(jì)距離。通常，距離的測量依賴專門的感知模塊，如尺子或激光測距儀，而無線信號的距離估計(jì)能力是連接本身所固有的。更進(jìn)一步，通過觀察無線信號的相位變化，我們曾經(jīng)提出過一種精度達(dá)到毫米級的定位技術(shù)，比同期技術(shù)的定位精度提高了40倍。

無線信號的相位變化還可以用來感知高頻率的振動(dòng)，這對于實(shí)時(shí)監(jiān)控機(jī)器設(shè)備的狀態(tài)至關(guān)重要。最常見的無線信號還能夠賦予機(jī)器“透視”的能力。比如，我們平時(shí)使用的Wi-Fi路由器就能夠穿墻透視，讓我們“看到”墻后的人。這聽起來像是某種“超能力”，但實(shí)際上，通過分析Wi-Fi信號的微妙變化，科學(xué)家確實(shí)已經(jīng)能夠探測到墻壁另一側(cè)人體的移動(dòng)。

這種連接的建立本身就是一種認(rèn)知成果。它不僅代表著物理上的臨近和可達(dá)性，我們還可以通過這些連接所形成的網(wǎng)絡(luò)構(gòu)建起一種拓?fù)鋱D，反映實(shí)體間的相互關(guān)系和連接的復(fù)雜性。舉例來說，社交網(wǎng)絡(luò)中的六度分隔理論揭示了人類社會關(guān)系的緊密程度。它告訴我們，任何兩個(gè)陌生人之間最多只隔著6個(gè)人。這個(gè)理論也反映了通過連接可以實(shí)現(xiàn)認(rèn)知擴(kuò)展。在機(jī)器的世界里，類似的原理可以應(yīng)用于物聯(lián)網(wǎng)設(shè)備，它們通過無線信號相互連接，形成一個(gè)龐大的感知網(wǎng)絡(luò)，使得每臺設(shè)備都能夠感知到網(wǎng)絡(luò)中其他設(shè)備的狀態(tài)和位置。

在這種方式下，連接不僅是信息傳遞的媒介，還是智能系統(tǒng)認(rèn)知世界的一種方式。

3.連接影響智能分布。

在生物出現(xiàn)在地球上之前，智能如同沉睡的種子，尚未萌芽。隨著時(shí)間的推移，植物和動(dòng)物逐漸演化，最終，人類以獨(dú)特的智慧在生命之林中脫穎而出，智能就此出現(xiàn)。智能的集中賦予了人類無與倫比的地位。人類不僅成為探索這個(gè)世界的主導(dǎo)者，更成為塑造這個(gè)世界的主要力量。

隨著信息技術(shù)革命尤其是人工智能的發(fā)展，智能機(jī)器誕生并開始輔助人類。互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的普及正在改變這種不均勻的智能分布。借鑒信息論中熵的概念，我們可以把這種現(xiàn)象稱為“智能化熵增”。如果智能與非智能界限分明，我們認(rèn)為熵較低；反之，如果智能遍布世界的每個(gè)角落，我們認(rèn)為智能化熵在增加。

例如，一臺終端設(shè)備本身運(yùn)算能力可能有限，但一旦聯(lián)網(wǎng)，它就能從云服務(wù)器獲得強(qiáng)大的算力和知識，從而增強(qiáng)自身的能力。也就是說，智能化熵增降低了智能機(jī)器對自身固有感知和認(rèn)知的依賴。

我們還是回到具身導(dǎo)航的例子。一輛無人駕駛汽車?yán)米陨頂y帶的攝像頭、激光雷達(dá)、無線模塊感知周圍的環(huán)境，做出加速、減速、變道、超車等行動(dòng)。在傳統(tǒng)的導(dǎo)航中，路徑規(guī)劃和行動(dòng)決策依賴于提前獲取的地圖，通過衛(wèi)星信號等方式定位，引導(dǎo)汽車行動(dòng)，不斷縮短當(dāng)前位置與目的地之間的距離。汽車如果具備感知周圍環(huán)境的能力，就不一定需要把自己映射到地圖上才能導(dǎo)航。我們指路的時(shí)候，也很少直接指定幾個(gè)坐標(biāo)地點(diǎn)，更常見的方式是“往前走兩個(gè)紅綠燈，左轉(zhuǎn)前行，看到路左邊一個(gè)商場，右邊的白色寫字樓就是目的地”。這樣的導(dǎo)航，完全是依賴感知進(jìn)行路徑引導(dǎo)的。我們可以證明，感知數(shù)據(jù)所構(gòu)成的感知空間，也符合線性空間的基本定義。只要定義恰當(dāng)?shù)木嚯x函數(shù)（數(shù)學(xué)稱為范數(shù)），就可以讓感知空間和物理空間保持尺度不變性：物理空間遠(yuǎn)的，感知空間也遠(yuǎn)；物理空間近的，感知空間也近。如何定義恰當(dāng)?shù)姆稊?shù)，就完全是一個(gè)數(shù)學(xué)上的技巧了。實(shí)際上，我們都知道物理空間是三維的，而感知空間是遠(yuǎn)遠(yuǎn)高于三維的線性空間，這就讓我們有很多的數(shù)學(xué)技巧可以施展，以通過優(yōu)化實(shí)現(xiàn)感知空間和物理空間的一致性，即“感知空間—物理空間”一致性理論。

我們還可以有一些其他的推論，比如：感知空間是一個(gè)完備的賦范線性空間（數(shù)學(xué)上稱為巴拿赫空間）；存在感知子空間與物理空間同構(gòu)，兩者存在單一映射關(guān)系；物理空間的移動(dòng)，可以被該感知子空間的時(shí)間函數(shù)唯一描述；物理空間任兩點(diǎn)之間的距離函數(shù)，等于該感知子空間像的距離函數(shù)；等等。這些推論表明，在物理空間內(nèi)進(jìn)行導(dǎo)航，等價(jià)于在感知空間內(nèi)進(jìn)行導(dǎo)航。也許有一天我們的導(dǎo)航完全是在感知空間內(nèi)進(jìn)行的，只是通過具身智能體表現(xiàn)為在物理空間中的移動(dòng)。

在實(shí)際場景中，感知空間的維度太高，計(jì)算復(fù)雜度也過高。即使是最聰明的無人駕駛汽車，我們也經(jīng)常會在新聞中看到它們在路上躑躅不前。而有了車聯(lián)網(wǎng)之后，單體智能逐漸走向群體智能，車輛之間通過連接實(shí)現(xiàn)了信息的共享，使行動(dòng)決策變得更為簡單高效。2024年1月，五部委聯(lián)合發(fā)布的《關(guān)于開展智能網(wǎng)聯(lián)汽車“車路云一體化”應(yīng)用試點(diǎn)工作的通知》，使得這個(gè)連接的范圍進(jìn)一步擴(kuò)展到了云端、道路單元。試著想一下，數(shù)百米外的交通事故被道路單元發(fā)現(xiàn)并通知給即將駛來的車輛，這是任何老司機(jī)都沒辦法做到的。一輛無人駕駛汽車駛進(jìn)停車場后，也不必到處轉(zhuǎn)悠找車位了，停車場會直接給出空位的指引，然后車子自己就倒車入庫了。是不是很便利，也很自然？

從另一個(gè)維度審視智能化的演進(jìn)，我們不難發(fā)現(xiàn)，隨著智能化熵的增加，智能體的邊界正在逐漸消融。這種轉(zhuǎn)變意味著，機(jī)器不再局限于其物理形態(tài)，而是開始將外部環(huán)境融入其智能系統(tǒng)的內(nèi)部。這就像是將外部世界變成了智能體的延伸，將原本的外部行動(dòng)轉(zhuǎn)化為了內(nèi)部的自然交互。先是人駕駛車輛，然后是智能機(jī)器駕駛車輛，而在未來，我們把道路及車輛的集合看作一個(gè)具身智能體，也就是由道路來開車。道路能夠全面感知其上的一切情況，掌握所有車輛的實(shí)時(shí)動(dòng)態(tài)，從“上帝視角”出發(fā)，進(jìn)行全局的交通調(diào)控。在這樣的未來，交通事故或許真的只存在于歷史之中了。

【新書推薦】

劉云浩著

中信出版集團(tuán)

2025年1月

作者簡介：

劉云浩，清華大學(xué)全球創(chuàng)新學(xué)院院長，清華大學(xué)自動(dòng)化系教授、博導(dǎo)，ACMFellow，IEEEFellow,ACM主席獎(jiǎng)、國家自然科學(xué)二等獎(jiǎng)、教育部技術(shù)發(fā)明一等獎(jiǎng)、中國計(jì)算機(jī)學(xué)會自然科學(xué)一等獎(jiǎng)和中國電子學(xué)會自然科學(xué)一等獎(jiǎng)獲得者。在清華大學(xué)自動(dòng)化系獲得工學(xué)學(xué)士學(xué)位，在美國密西根州立大學(xué)計(jì)算機(jī)系獲得工學(xué)碩士和工學(xué)博士學(xué)位。曾任清華大學(xué)軟件學(xué)院院長和美國密西根州立大學(xué)計(jì)算機(jī)系系主任。

內(nèi)容簡介：

人類已經(jīng)完成了“人工智能初級階段”的原始積累，正式進(jìn)入向“更高階段”邁進(jìn)的時(shí)代。在人工智能誕生之初，其目標(biāo)或許是實(shí)現(xiàn)具身智能--這種智能體不僅擁有物理形態(tài)，還能與物理世界進(jìn)行互動(dòng)。

具身智能這條路徑能通向通用人工智能嗎?邏輯學(xué)、統(tǒng)計(jì)學(xué)、神經(jīng)科學(xué)和計(jì)算機(jī)科學(xué)等領(lǐng)域的研究者分別從符號主義、聯(lián)結(jié)主義和行為主義三個(gè)綱領(lǐng)出發(fā)研究人工智能。打造通用人工智能是否需要第四種綱領(lǐng)?還是依靠這三者的融合就能解決?這些問題現(xiàn)在給出確定的答案還為時(shí)尚早，但知古而論今，本書以當(dāng)前比較火熱的具身智能話題為引，討論人工智能的過去、現(xiàn)在和將來。

責(zé)任編輯：七禾研究

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn)，與本網(wǎng)站無關(guān)。本網(wǎng)站對文中陳述、觀點(diǎn)判斷保持中立，不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考，并請自行承擔(dān)全部責(zé)任。

返回七禾首頁

本網(wǎng)站凡是注明“來源：七禾網(wǎng)”的文章均為七禾網(wǎng) www.levitate-skate.com版權(quán)所有，相關(guān)網(wǎng)站或媒體若要轉(zhuǎn)載須經(jīng)七禾網(wǎng)同意0571-88212938，并注明出處。若本網(wǎng)站相關(guān)內(nèi)容涉及到其他媒體或公司的版權(quán)，請聯(lián)系0571-88212938，我們將及時(shí)調(diào)整或刪除。

【打印】【頂部】【關(guān) 閉】