• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 新聞中心

    EEPW首頁 > 智能計算 > 編輯觀點 > 杰米·戴蒙如何成為山姆·奧特曼最大的競爭對手

    杰米·戴蒙如何成為山姆·奧特曼最大的競爭對手

    作者: 時間:2025-08-05 來源: 收藏

    去年 11 月,我們認為摩根大通首席執行官杰米·戴蒙 (Jamie Dimon) 坐擁著一個獨特數據的寶庫,這些數據永遠不會通過互聯網進入專有的大型語言模型。因此,他是 首席執行官 Sam Altman 的最大競爭對手,因為他的數據比這些法學碩士的民主化見解更有價值。

    我們的前提是,基金會模型公司正在展開一場自相殘殺的戰斗,追逐通用人工智能(“彌賽亞 AGI”),而真正的圣杯是我們所說的“企業 AGI”——這意味著將 AI 應用于企業內部的專有數據最終將被證明是最有價值的經濟努力。今天,我們擴展了這一論點,并假設由專有數據提供支持的代理和企業數字孿生將推動下一波人工智能價值。

    在上一集“杰米·戴蒙”中,我們為原因設定了一個框架。在本突破性分析中,我們解釋了摩根大通等企業將如何以前沿模型供應商無法做到的方式推動價值。我們將檢查我們最初的前提并共享數據,這些數據進一步強化了基礎模型供應商面臨的挑戰,使其成為一項艱巨的業務。此外,我們將解釋為什么由數據編程的代理最終將在未來幾年為企業提供最大的價值釋放。

    三波代理

    我們將代理進化分為三個不同的波次,如下所示:

    消費者代理 – GPT-3/4 時代的 ChatGPT 讓我們第一次嘗到了個人數字助理的滋味。GPT-5 可能會提供第一個通用的消費級代理,它可以代表用戶行事,而不僅僅是聊天。

    編碼代理 – Anthropic 的 Claude 與 Cursor 配對展示了當您使用強化學習進行后訓練到強大的基礎模型并將其瞄準軟件工程時會發生什么。代碼是一個很好的試驗場,因為結果是客觀可測試的,就像數學問題一樣。

    企業代理 – 我們相信這是下一個前沿領域 – 即由業務的實時數字孿生提供支持的代理。不是像英偉達公司的 Omniverse 這樣的工廠等物理事物的數字孿生,而是企業。這里的景觀發生了變化。這不僅僅是更大的模型;我們將解釋新的供應商技術堆棧、新的供應商業務模式和新的客戶運營模式。價值如此之大,以至于即使是杰米·戴蒙(Jamie Dimon)也擁有龐大的資產負債表和比前沿實驗室所能獲得的有用數據多幾個數量級的數據,也正在踏上山姆·奧特曼的競爭環境。

    有了這個框架,讓我們來看看為什么從消費者/編碼人員代理到企業代理的跳躍不是線性推斷,以及杰米·戴蒙 (Jamie Dimon) 能夠現實地挑戰 的領先地位之前,必須實現哪些新技術和組織層。

    代理 AI 三個時代的附加顏色

    我們就此主題提出以下補充意見:

    正如我們之前所討論的,戴蒙是企業及其四面墻內擁有的專有數據和專有技術的代理,而前沿法學碩士無法在這些數據和專業知識上進行培訓。這就是為什么真正的價值將來自企業將這些數據和專業知識應用于擴展前沿法學碩士或類似的模型,我們將解釋原因。

    真正的革命是,我們已經從預訓練時代的縮放定律(即 ChatGPT 和類似產品所基于的 GPT 模型)轉向后訓練時代,這是我們開始使用強化學習的地方。強化學習是試錯學習的一個奇特術語,對于試錯學習,你必須能夠從錯誤中吸取教訓。

    • 它首先在軟件工程代理中工作,因為代碼提供即時、客觀的反饋:

      • 您可以運行測試并查看它是否有效 - 您可以編譯它。

      • 它適合程序員的工作流程,無需進行重大更改。

    因此,這就是企業中代理首先起飛的地方。然后我們的論點是,要超越這一點,我們將需要一種新型技術平臺——企業數字孿生。

    為了從中獲得真正的價值,我們將不得不采用一種新的——不僅僅是在數據所在的基礎上采用新技術模型——而是一種新的運營模式,在這種模式下,公司必須圍繞端到端的結果進行組織,例如吸引新客戶,而不是部門或職能專業化。

    • 供應商影響:

      • 供應商必須提供端到端的以流程為中心的數據平臺或數字孿生。這不是傳統的數據平臺或孤立的應用程序。

      • 看來我們需要開放的模型來使這種試錯學習正常工作,而這與前沿模型供應商的商業模式不相容。

    因此,我們將需要進行大量更改。而要點是,與今天 ChatGPT 創造和獲取價值的時代相比,杰米·戴蒙(作為領先企業的代表)和他將要從這個人工智能時代中提取的價值將需要完全不同的腳手架和商業模式集,就像他這樣的客戶,以及為他提供服務的供應商。


    簡而言之,我們相信這種轉變——從訓練前規模到訓練后技能,從孤立的工作流程到以結果為中心的孿生——為企業人工智能的未來十年奠定了競爭格局。

    第 1 波:消費者代理

    讓我們更深入地研究第一波

    GPT3.5 上的 ChatGPT 開始了這一切。但 GPT-5 是我們認為 ChatGPT 作為通用消費者代理的真正價值開始的地方。 自己的收入預測(下面的紅虛線)將從 2024 年的低單十億美元攀升至 2027 年的 500 億>美元——許多人認為這條增長曲線威脅到谷歌搜索——我們將拭目以待。

    上面的紅色標注很有啟發性,因為在 GPT-5 級代理從很酷的演示轉變為必備的個人助理之前,必須進行警告、技術重新布線和商業模式更改。具體說來:

    三十年前,投資者將商業互聯網譽為歷史上最偉大的合法財富創造。今天,我們聽到同樣宏偉的聲明,即生成式人工智能超越了火、車輪和電力。GPT-5 可能會證明這種夸張的很大一部分是合理的。通過統一多模態推理——語音、視頻、工具使用、研究、代碼執行——OpenAI 準備推出第一個真正的全棧消費者代理,這是任何歷史標準的重磅產品。

    但從頭條新聞到習慣的飛躍需要多個方面的劇變:

    • 技術基礎設施

      • 網絡是為人類而構建的;爬蟲只是索引頁面,以便人們可以閱讀它們。我們需要一個重新連接的 Web,以實現自主導航、微交易、新的安全軌道和代理友好的支付流程。

      • 關于每篇文章小額支付的提案正在出現,以便代理商可以合法地實時攝取優質內容。然而,美國的公共政策似乎出于競爭原因(例如中國)而削減了這些提議。

    • 商業模式重新布線

      • 發布者必須從搜索引擎優化轉向代理引擎優化。

      • 電子商務目錄必須公開代理(而不是眼球)可以解析和作的元數據。

      • 營銷從影響人類購物者轉變為影響根據政策和偏好規則篩選選項的機器人。

    • 歷史先例

      • 在 1990 年代后期,熱情領先于寬帶建設和可行的收入模式;人工智能在承諾和基礎之間也面臨著類似的差距。

    標題是 GPT-5 可以引發消費者的大規模采用,但廣泛的價值捕獲取決于重新管道網絡和重新貨幣化內容。這還沒有解決企業部署特有的額外障礙,這些障礙具有自己的技術、治理和運營模式需求。

    法學碩士的經濟學是殘酷的

    在我們對 GPT-5 過于興奮之前,讓我們先看看殘酷的規模經濟學。下面的數據講述了一個大故事。

    右上圖:那條“縮放律”線(X 軸上用于預訓練的計算 petaflops 對數,Y 軸上測試損失對數,這是一種描述準確性和識別更精細模式的能力的奇特方式)穩步向下移動——但每一英寸的改進都需要計算的 PF 日(petaflop-days)數量級跳躍。

    讓我們來解開上述數字的來源。

    在上面的幻燈片上,左軸顯示了每代的估計訓練成本;右軸繪制相應的測試損耗改進。GPT-3 級模型的 3500 萬美元大關是共同的參考點。每一代都需要大約 10 倍到 30 倍的訓練 FLOP 增加,但在算法和硬件效率提高之后,總現金支出仍然在每個周期增長約 5 到 10 倍。數字通常看起來較小,因為它們只記錄了最后兩三個月的生產運行。這解釋了 DeepSeek 報告的 600 萬美元成本的混亂;該圖省略了研究運行、數據消融實驗和重啟,這些實驗甚至在最后一次開始之前就消耗了三到十倍的計算量。

    幻燈片的曲線使第二個點變得清晰。每次支出的增加只會帶來測試損失的增量下降——更好的預測準確性、更可靠的答案、更精細的模式檢測。僅在預訓練上保持同步,就已經將單次下一代運行的成本推高至 100 億美元。在那個水平上,市場無法維持許多參與者,除非他們在基本模型之上添加一個高度差異化的層。即將到來的高質量訓練數據瓶頸和激烈的競爭將擠壓原始應用程序編程接口訪問的任何價格溢價的幅度和壽命。

    強化學習可以通過開辟新的縮放向量來解決收益遞減定律。推理時間“推理”開辟了擴展的另一個維度。但預訓練基礎仍需不斷推進。這意味著在前沿模型層發揮的資本強度繼續呈指數級增長。只要終端市場繼續以類似的速度增長,攤銷預培訓的經濟性就有效。但是當市場增長放緩時,當音樂停止時,預培訓的成本將看起來像一場音樂椅游戲。

    撞上數據墻:數據稀缺和合成數據挑戰

    到目前為止,我們一直關注計算成本,但我們需要討論一個同樣殘酷的限制,那就是我們正在耗盡免費、高質量的人工文本。

    上圖跟蹤了可用互聯網代幣的“有效存量”(綠色帶)與前沿模型消耗的數據集的預計大小(藍色帶)。這兩條曲線在 2027-28 年左右相遇——這意味著模型改進的每一個額外點都需要新的策略。

    不過,我們應該指出,合成數據很容易用計算機代碼生成,因為您可以對其進行測試,因此,合成數據現在包含更多信號。它有效嗎?它不起作用嗎?你有各種各樣的測試,這就是為什么正如我們將看到的,編碼代理首先起飛。但是,正如我們將要展示的那樣,試圖越過這堵數據墻的第一種方法是使用人類生成的推理跟蹤,即您基本上可以讓不同領域的廣泛專家嘗試并詳細闡述他們的問題解決策略,以找到如何解決特定領域問題的解決方案, 而且這非常昂貴。因此:

    模型供應商將看到他們用于訓練數據的銷售成本大幅上升。根據公共政策的態勢,他們可能必須付費才能獲得專有發布者數據的許可。正如我們在最近的亞馬遜/紐約時報交易中看到的那樣,這些交易已經開始。這是眾多事件中的第一個還是高水位線還有待觀察。

    更重要的是,模型供應商將不得不從更多領域的人類專家那里獲取更復雜的問題集和“推理痕跡”。這就是 Scale.ai 等數據供應商專門從事采購的領域。

    Scale AI 的 Alex Wang 表示,下一個突破取決于人類注釋的思維鏈,而不僅僅是更多抓取的文本散文。在該深度進行注釋既昂貴又緩慢。這是下一個瓶頸。這種類型的數據稀缺重塑了預訓練前沿模型的經濟性。據報道,這就是為什么 Meta 斥資 ~150 億美元購買 Scale.ai 專家網絡 50% 的股份。

    Wang提出的一個關鍵觀點是:“數據生產將是未來人工智能系統的命脈”,他強調了人的因素——這就是 Meta 斥資 150 億美元收購 Alex 的原因。

    Alex Wang 評論的一些附加背景:數據生產與香料生產非常相似;它將成為未來人工智能系統的命脈。最優秀、最聰明的人是命脈的關鍵來源之一,但專有數據同樣重要。僅摩根大通就擁有數百 PB 的數據,而 GPT-4 的訓練數據不到 1 PB。企業和政府擁有的專有數據比輸入前沿模型時要多幾個數量級,而這些數據庫可以為下一波真正的精英系統提供動力。

    懸而未決的問題是合成數據的作用。最合理的路徑是人類與人工智能的混合生成:人工智能處理批量創建,而領域專家(具有深厚推理能力的人)則注入高保真更正和見解。混合人類-人工智能數據是實現未來模型所需的極致質量和細微差別的唯一途徑。

    Meta 報道的 Scale AI 交易價值 150 億美元,凸顯了這一現實。此次收購與其說是關于工具,不如說是聯系 Alex Wang、一小群專家以及 Scale 跨多個領域的專家標簽師網絡。人類專家推理痕跡已成為前沿實驗室的新瓶頸。實際上,這些公司正在呼吁提供愛國數據,以便其他人都能受益,因為如果沒有這些經過人類驗證的痕跡,大型語言模型將停滯在目前的上限。

    “數據共產主義”

    Alex Wang 評論中有趣的部分是,他基本上是在呼吁各個領域的專家為造福人類“貢獻”他們的專業知識。Scale 為這些專家的時間支付了費用,但仍然是小時工資勞動。

    半開玩笑的標題,“各盡其能,各取所需”是卡爾·馬克思經濟哲學的核心。如果你瞇著眼睛看,這聽起來很像 Alex Wang 的提議:主題專家為模型訓練貢獻他們的知識,造福人類。

    在以 150 億美元收購后,亞歷克斯·王 (Alex Wang) 可能成為歷史上最富有的共產黨人。

    為什么編碼是一個如此強大的用例

    在企業中,有一個非常具體的用例已經起飛,并給出了支持前沿模型訓練的各種跡象。為什么編碼如此受歡迎?為什么軟件工程代理是企業中的第一個殺手級應用程序?

    讓我們深入了解一下。

    下圖頂部的面孔是 Anthropic PBC 首席執行官 Dario Amodei,他的 Claude 模型為 Cursor 產品提供支持——軟件工程代理。Cursor 只是許多軟件工程代理中的一個典型例子。

    我們仍然處于相同的智能隨時間變化曲線上,在 ChatGPT 消費者激增之后,我們看到一個標記為“Claude + Cursor SWE Agents”的新階梯函數。左邊的收入表——發布時為 100 萬美元,第 12 個月為 1 億美元,第 24 個月為 3 億美元,第 30 個月為 5 億美元——說明了采用速度有多快。

    是什么讓編碼特別適合早期企業代理的成功,在我們將這種模型推廣到反饋信號不那么清晰的財務、供應鏈或客戶服務領域之前,還存在哪些障礙?下面的評論提供了答案:

    試錯學習(正式術語的強化學習)解釋了軟件工程代理的突破性成功。與消耗 15 萬億個數據令牌的基礎模型不同,編碼代理生成自己的數據。它提出解決方案,運行測試并立即從通過或失敗的反饋中學習。該循環提供無窮無盡的合成數據和內在獎勵信號,無需大量專有數據集。同樣重要的是,該工作流程可以整齊地融入成熟的開發人員工具中,因此采用無需進行組織手術。

    這些條件使軟件工程成為人工智能代理的天然灘頭陣地。Cursor 是標志性的參考點,但數十種類似的工具正在快速擴展,幾乎所有工具都被 Anthropic 的 Claude 前沿模型作為首選引擎。大多數產品都專注于編寫全新的代碼或語言之間的翻譯;遺留代碼庫的大規模重構是一個更難的問題,并且在很大程度上仍未得到開發。軟件和數學領域的成功不會自動移植到其他企業領域,在這些領域中,等效的高保真反饋循環更難構建——我們將在后續幻燈片中探討這一挑戰。

    量化軟件工程和數學為何大放異彩

    讓我們更深入地挖掘為什么 SWE 和數學是這樣的好例子。下圖跟蹤了過去五年中一籃子“智力”基準(小學數學、競爭性數學、軟件工程任務套件、多科目考試)的準確性。Y 軸是基準精度;X 軸是日歷年。一切都蜿蜒向上,直到 2024 年的某個時候,然后紅色框顯示出近乎垂直的激增。發生了什么變化?在已經很強大的基礎模型之上進行訓練后強化學習。

    在預訓練時代(基本上到 2024 年年中),數據效率并不高,依賴于抓取大量但有限的免費互聯網文本庫。一旦這些井開始干涸,進度就會遞減回報。拐點出現在 2024 年底,當時訓練后時代已經到來。試錯學習,即強化學習,允許模型生成候選輸出,自主驗證它們,并根據正確或錯誤的信號更新權重。數學和編碼的基準測試幾乎立即做出反應,以近乎垂直的速度攀升。

    該機制很簡單:代理檢查自己的工作;如果測試通過,梯度會強化該解決方案。如果失敗,則模型進行調整。該循環無需數萬億個新代幣即可帶來巨大的收益。這兩個領域都提供了一個直接的、明確的獎勵信號——代碼編譯或不編譯,或者通過單元測試或未通過;數學要么是對的,要么是錯的——所以智能體可以作為客觀的驗證工具,重試和學習。這種緊密的循環意味著你不需要另外 10 萬億個預訓練數據令牌;你只需要一個可驗證的獎勵。

    但該捕獲物在圖形右側標出。該秘訣尚未推廣到法律推理或財務預測等,在這些預測中,基本事實是模糊的、延遲的或埋沒在人類的判斷中。

    推廣該技術仍然是一個懸而未決的挑戰。兩條路徑正在出現:

    • 難以驗證的領域 – 答案缺乏二進制通過/失敗的領域必須依靠第二個 LLM 來批評輸出,評估正確性的各個方面并提供結構化反饋。這種方法是可行的,但要困難得多。

    • 新的可驗證領域 – 能夠提供客觀獎勵信號的領域,例如在高保真數字孿生中建模的領域,應該會產生與數學和編碼相當的進步。數字孿生的討論將在后續部分中進行。

    關鍵的一點是,一旦一個領域提供了自動驗證器,訓練后的效率就會爆炸式增長。現在的競賽是識別或構建軟件和數學之外的可驗證環境。

    可能會有一種生成合成數據的新方法,可以讓我們克服數據瓶頸和客觀可驗證獎勵的挑戰——這是在王兌現支票后不久出現的。它與試錯學習(一個花哨的術語是強化學習)和模型有關,這些模型可以在沒有人類參與的情況下驗證主觀而非客觀的答案。換句話說,我們可能有辦法繞過人類專家注釋者詳細說明他們的推理,從而得出正確的答案。

    GPT5 或不久之后的升級似乎將嘗試生成專家問題、答案和推理軌跡的某種組合以獲得答案。另一個模型,就像老師或驗證者一樣,將對正確答案和推理痕跡進行評分。這樣,模型可能能夠像學習數學和編碼一樣,走上陡峭的學習曲線,獲得更主觀的答案。

    軟件工程是超越消費者代理的下一波浪潮

    憑借可驗證的獎勵,SWE 代理的改進速度比通用底層模型快得多。一旦你將強化學習注入到可靠的獎勵信號中,進步就會呈指數級增長。

    在下圖上,Y 軸繪制了“任務長度”(想想:人類需要的掛鐘工作)。平緩的綠色斜率(七個月的節奏)被右側的藍色趨勢線所掩蓋——每 70 天將時間范圍減半。

    左圖(METR 數據)。在通用代理基準測試中,人工智能在沒有人工牽手的情況下可以完成的任務長度大約每七個月翻一番。GPT-2 可以回答一個瑣事問題;GPT-4o 可以花費 ~15 分鐘自主優化定制芯片的代碼。

    這張幻燈片隔離了代理自我改進的核心問題。對于廣泛、松散驗證的任務,唯一的提升來自基本模型的通用增益和偶爾的評估周期——大約每七個月自動任務長度就會增加一倍。相比之下,軟件開發代理在運行時發出硬獎勵信號:他們要么通過單元測試,要么不通過。這種可驗證的反饋推動強化學習,每 70 天使任務復雜性翻一番。這里的指標很簡單,即代理可以在沒有人工干預的情況下運行多長時間。更尖銳的斜率證明,硬的二元獎勵信號可以將學習速度提高一個數量級。這是重要的要點。

    探索支撐模型的殘酷經濟學

    在加冕一個模型之王之前,讓我們先看看代理人工智能產品興起背后模型的殘酷經濟學。在下圖中,Y 軸是綜合基準分數;每個彩色步驟代表一個新的肖像權授權書。暗線突出了 OpenAI 的領先模型,該模型本身會發生變化(每個方點都會發生變化),以及競爭對手的快速追趕(其他彩色線)。

    階梯圖繪制了過去 24 個月中來自 OpenAI、Anthropic、Google、Meta、DeepSeek、阿里巴巴等的前沿模型的獨立“人工智能智能指數”。

    • 垂直跳躍(紅色 CAG 標注)標志著競爭優勢差距——一個版本領先于其他版本的飛躍程度。

    • 水平線顯示 CAP(競爭優勢期)——在競爭對手追趕之前領先優勢持續多長時間。

    最突出的是這兩個維度都變得多么小。GPT-4o 處于領先地位,但在幾周內,DeepSeek R1 或 Gemini 3 縮小了差距。API 之間的切換成本是用幾行 Python 代碼來衡量的,因此 CAP 會隨著每個版本的發布而縮短。換句話說,你可以在計算和數據上花費 10 億美元,只是為了在市場將你的優勢降低到零之前享受六周的定價保護傘。

    關鍵是,在前沿訓練運行上花費 100 億美元和多年時間不再保證持久的優勢。當新模型登陸的那一刻,競爭領先優勢幾乎可以像新的消費電子產品周期一樣迅速消失。與制藥行業不同——專利保護確保了十年的排他性——模型訓練沒有可比的護城河。

    當前的競賽圍繞著越來越大的計算集群和漸進式算法調整展開。任何擁有足夠資本的公司都可以獲得硬件規模;算法見解通過開放研究和員工流動迅速傳播。專有的訓練數據有幫助,但它只是一個組成部分,很少是決定性的。為了實現巨大的競爭優勢差距和持久的競爭優勢期,游戲規則必須改變。下一個時代將需要一個完全不同的數據基礎,一個能夠賦予持續、可防御優勢的數據基礎。這個基礎就是以下部分中討論的企業數字孿生。

    為了戲弄最后一部分,Jamie Dimon 和任何其他可以將其數據建模為運營數字孿生的企業都可以訓練具有非常高的 CAG 和持久 CAP 的專有代理。所有的資本支出可能都投入到六個或更多的前沿實驗室,但可持續的差異化將在于這些企業。

    Messiah AGI 的定價模型

    現在讓我們探討一下這種動態如何體現在底層前沿模型的定價模型中。下圖說明了這一點。這就是這些優勢窗口縮小背后的殺手锏:代幣價格處于自由落體狀態。Y 軸是每百萬個代幣的對數尺度價格(從 100 美元到亞美分)。X 軸跨度為 2021 年 10 月至 2025 年 4 月。每條對角線都顯示了連續的車型發布,每隔幾個月就會降低一個數量級的價格。

    因此,每百萬個代幣相對于發布日期。每條彩色趨勢線都是不同的功能層 - GPT-3.5 類(青色)、GPT-4 類(粉紅色)、GPT-4o-plus(藍色)。無論級別如何,價格都在呈指數級下降:

    • 隨著每一代新車型的出現,坡度都變得越來越陡

    • GPT3.5 Turbo級車型價格每年下降9次

    • GPT4 類模型價格每年下降 40 次

    • GPT4o 類模型的價格以每年 900 次的速度下降。

    換句話說,你可以在 GPT-6 訓練上燃燒 100 億美元,并觀察市場在一個季度內以一小部分利潤重新定價該產出。為 API 的客戶投入最低的轉換成本,您就會明白情況。關鍵是,打包的代理——與專有數據和工作流程上下文捆綁在一起——是我們認為持久經濟性將存在的地方。

    API 定價的加速崩潰與建立在基礎上的產品的經濟性截然不同。風險投資正以前所未有的速度涌入前沿實驗室。民族國家基金正在為國內模式工作提供資金,中國實驗室正在激增,知名參與者——埃隆·馬斯克(Elon Musk)就是其中之一——正在爭先恐后地加入競爭。與 90 年代末互聯網泡沫的相似之處是不容忽視的——數百億美元的人追逐越來越像海市蜃樓的東西。

    如今,消費者代理的桂冠已經掌握在現任領導者手中,領先的 API 位置屬于 Anthropic。持久的差異化不會來自另一輪資本密集型模型訓練;它將來自做一些真正不同的事情。這種必要性迎來了下一個時代,在這個時代,優勢轉移到差異化的數據基礎和特定領域的代理平臺。

    第三個時代:企業代理

    讓我們回到人工智能的三個時代。

    我們已經繞了一圈:消費者聊天機器人讓我們開始了,編碼代理被證明是一個飛輪,但在我們看來,企業代理才是真正的資金和長期護城河的所在。想想三個離散時代的軌跡,映射在你整集看到的曲線上:

    1. 預訓練時代——消費者代理。ChatGPT 展示了該產品的強大程度,但底層模型 API 的收入受到代幣價格暴跌和低轉換成本的限制。

    2. 后訓練時代——編碼代理。Claude-plus-Cursor 在可驗證的輸出上驗證了 RL,每 70 天將任務復雜性翻一番,并將年度經常性收入推向新的規模。

    3. 數字孿生時代——企業代理。

    核心要點是人工智能是由數據編程的,真正的持久差異化將來自專有數據。將摩根大通視為任何先進企業的替代品。初步估計其私有語料庫約為 150 PB,已經是用于訓練 GPT-4 級模型的半 PB 至 1 PB 的數百倍。最近的數據表明,該銀行可能會保持在艾字節的數量級。然而,交易量本身并不是故事;這是數據建模以代表日常運營的方式。企業數據密集、高信號,如果組織得當,比為前沿模型提供信息的廣泛、低信號抓取要豐富得多。

    釋放這種價值需要幾個轉變:

    • 掌握強化學習:試錯循環,能夠持續改進實時業務任務。

    • 新的數據基礎:跟蹤人、地點、事物和活動的數字孿生。這種以流程為中心的模型突破了六十年的應用程序和數據孤島;它不僅僅是一個更大的湖泊。

    • 開放式型號。早期證據表明,當底層權重可訪問時,強化學習效果最佳,這一要求與大多數前沿實驗室的封閉 API 商業模式相沖突。米拉·穆拉蒂 (Mira Murati) 的思維機器 (Thinking Machines) 的努力似乎是調和開放性與商業可行性的一條道路。

    這些元素將引發新的上市運動、新一代應用程序平臺供應商、改進的技術堆棧,并最終為采用它們的企業帶來組織和業務模式的變化。

    設想“企業通用人工智能”

    讓我們深入研究一下企業 AGI 的實際面貌。下面是許多人用來描述代理人工智能要素的經典圖表——但在我們看來,缺少為企業提供動力的關鍵部分。

    大多數代理圖看起來都是一樣的——左邊的工具——日歷、計算器、代碼解釋器、搜索;右邊的認知模塊——計劃、反思、自我批評、思維鏈、子目標分解;頂部的內存堆棧;底部有一個動作端口。整個畫面都是以算法為中心的,因為這是計算機科學研究人員的獎勵。數據幾乎不會出現,但在企業中,數據就是一切。

    這個特殊的圖表——借用了斯坦福大學最近的一次計算機科學講座——省略了實際創造價值的組成部分——環境或世界模型。代理只能通過與其環境交互并接收有關結果的反饋來學習。在學術環境中,這種遺漏是事后才想到的;在商業環境中,它是玩具和可以轉移收入、成本或風險的系統之間的區別。

    主流智能體思維中缺乏一流的數據層,這凸顯了為什么企業智能體仍然是一個未被充分探索的前沿領域。這種顛覆正讓整個行業面臨著面對,但很少有人承認這一點,因為對話是由算法英雄而不是數據現實主義主導的。

    游戲示例具有指導意義

    讓我們從代理開始的真實模型中提取一些示例。

    在我們對企業數字孿生這個詞進行太多自由之前,記住對人工智能研究人員來說重要的第一個孿生是在游戲中看到的。DeepMind 的 AlphaStar 學會主宰《星際爭霸 II》不僅因為它的模型架構很神奇,還因為整個游戲環境——單位、資源、時間和戰爭迷霧的 4D 地圖——被曝光為一個完美的、實時的、真實世界的模型。

    在下圖中,我們在 X 軸上顯示了匹配評分或 MMR 百分位數,在 Y 軸上顯示了技能水平。藍色曲線是人類從白銀到特級大師的進步;紅點是 AlphaStar 突破最高百分位數——通過強化學習數字孿生發現了人類從未嘗試過的策略。

    關鍵的見解是將游戲世界中的人、地點、事物和活動映射到企業內部的相同四個維度——人、地點、事物和流程。傳統的數據平臺提供靜態快照,即萬花筒視圖。代理需要更豐富的動態表示,以捕捉作如何在整個企業中產生漣漪。當代理修改流程中的某個步驟時,它需要地圖來跟蹤對下游人員和工作流程的影響。

    強化學習首先在已經包含此類世界模型的環境中蓬勃發展。DeepMind 的《星際爭霸》AlphaStar 和 OpenAI 在 Dota 策略游戲上的工作就是典型的例子。每個環境都提供了持續的、可驗證的獎勵——測試戰略選擇和最終輸贏結果的中間信號。這些條件使代理能夠快速迭代并改進。

    同樣的原則也適用于企業。通過構建四維數字孿生(人、地點、事物、流程),企業可以提供代理學習、適應并最終在復雜運營中推動可衡量結果所需的反饋循環。AlphaStar 和 Dota 的經驗教訓構成了這種更高級的企業級實施的藍圖。

    如果一個代理可以利用合成世界模型來擊敗 99% 的職業玩家,想象一下當“地圖”是銀行的數字孿生或供應鏈的實時模型時,它能做什么。但這也意味著企業(而不是供應商)必須擁有并策劃世界模型,以便代理可以通過可驗證的獎勵來學習。關鍵是,AlphaStar 的經驗教訓將轉化為金融、醫療保健和制造業,以及任何具有數字孿生的東西。

    Minecraft 所學技能示例

    Minecraft 是下一個參考世界模型。在航海者號項目中,環境比《星際爭霸》更加開放。代理首先學習如何制作簡單的石器,然后使用這些工具構建基本結構。隨著能力的提高,它發現了如何鍛造更先進的工具,每一項新功能都會解鎖更廣泛的任務。隨著時間的推移,代理會積累技能并擴展其可以使用的工具集。這種漸進的、自主的技能獲取至關重要,因為每一種新能力都會豐富環境,進而為進一步學習提供更豐富的反饋。這種模式——學習一種工具,用它來創造價值,學習下一個工具——為構建企業世界模型提供了一個重要的模板,在這種模型中,代理不斷擴展自己的行動空間。

    沒有數據的算法 = 代理失敗

    現在讓我們真正嘗試加倍強調數據的重要性。

    每個關于人工智能的頭條新聞都歸功于算法——AlexNet、Transformers、RLHF、新的推理堆棧——但這張幻燈片的右側提醒我們,每一項突破實際上都是由一個新的數據集時代引發的。

    算法數據集
    亞歷克斯網 (2012)ImageNet – 包含 14 M 張照片的標記語料庫
    變形金剛 (2017)網絡爬蟲 – 大規模抓取數萬億個令牌
    RLHF 聊天機器人 (2022)獎勵模型數據 – 人工排名的響應
    推理代理(現在)企業孿生 – 可驗證的、特定于領域的世界模型

    杰克·莫里森 (Jack Morrison) 最近在 Latent Space 播客上強調了一篇博客文章,強調了一個反復出現的盲點:每個人都專注于算法突破,而忽略了隱藏在眾目睽睽之下的數據集。莫里森勾勒出推理時代,并指出代理將從驗證者(數學計算器、編譯器和代碼單元測試)中學習,但關鍵數據集框基本上是空白的。數據集是顯而易見的。每個組織都在或將要構建一個平臺,以捕獲其運營的越來越大的數字孿生。這對孿生——人、地點、事物、流程——是巨大的、高保真語料庫,將為企業級推理提供動力。

    將企業代理與數字孿生連接起來

    現在讓我們在定義企業代理時將企業代理與數字孿生連接起來。

    我們已經從消費者聊天上升到編碼/SWE 代理——下面的幻燈片顯示了這一切在公司內部的運作方式。Palantir 的圖表在右下角突出顯示了端到端供應鏈孿生;左側的紅色標注突出顯示了饋送代理箱的 RL 反饋箭頭。度量樹說明了“發生了什么”如何匯總到“我們應該做什么?

    考慮三個協同工作的層:

    安裝數字孿生——如此處所示的 Palantir 原理圖——只是第一步。將這種表示轉化為代理學習的引擎是度量樹。與傳統的商業智能儀表板不同,在傳統的商業智能儀表板中,關鍵績效指標位于孤立的表或手工編碼的公式中,指標樹將學習的分層圖中的每個度量鏈接起來。更改一個節點(例如,授權產品退貨),樹會揭示客戶支持滿意度、現有庫存和現金流指標之間的漣漪。雙胞胎越富有,這些關系的保真度就越高。

    代理位于此結構之上,并動態選擇與分析意圖相對應的工具:

    • 發生了什么事?— 孿生上的 SQL 查詢

    • 為什么會這樣?— 業務規則執行和圖推理

    • 接下來可能會發生什么?— 預測性機器學習

    • 我們該怎么辦?— 規范性機器學習

    如果樹缺少指標,代理會添加一個指標——就像《我的世界》中的航海者號如何學習新工具和技能,然后將它們反饋到環境中一樣。每個新指標都成為一種工具;每一個成功的動作都成為一種技能;兩者都流入孿生,迭代地擴大其范圍。結果是一個自我強化的反饋循環:智能體的動作豐富了符號模型,而豐富的模型反過來又提高了智能體的決策。雙胞胎不必在第一天就完美無缺;它與代理能力同步增長。

    新的企業架構正在興起

    讓我們看看這將如何影響企業架構。

    下圖建立在我們之前的工作基礎上,并將其整合在一起。它還回答了這樣一個問題:誰在真正構建業務的實時數字表示?

    該圖重現了 Breaking Analysis 和 Services-as-Software 中經常使用的分層堆棧。

    • 紫色 – 參與系統。BI 參與者(Tableau、Hex、Sigma、Power BI)必須通過指標和維度將業務上下文注入平臺。

    • 綠色 – 智能系統。這就是數字孿生層,最有價值的房地產。爭奪 4D 地圖的供應商包括 Palantir、Celonis、Blue Yonder、Salesforce Data Cloud、RelationalAI、ServiceNow 和 Databricks(愿望)。無論誰在這里硬連接業務邏輯和技能,都會為其他人設定規則。

    • 黃色 – 代理系統。一旦孿生上線,代理就會致電它尋求答案并通過它路由回寫,確保每個作都受到受監管的策略。

    • 橙色 – 治理。策略和世系跨越堆棧。

    • 藍色 – 數據基礎設施。Snowflake、Databricks 和超大規模企業都坐在這里——至關重要的管道,但隨著價值向上移動,利潤壓力也越來越大。

    這種模式與信息技術的歷史相呼應:每個新的抽象層都包含下面的抽象層。下層不斷創新,但一旦上層決定公開哪些功能,就會失去基于功能的差異化和定價權。傳統數據平臺捕獲字符串的快照;以指標為中心的平臺將它們升級為事物的快照。綠色層更進一步——捕獲流程——彌合了 60 年的應用程序和數據孤島。

    競爭者快速瀏覽:

    • Palantir 提供了豐富的本體——強大但要求很高,是那些能夠使用它們的人的終極工具集。

    • Celonis 捕獲數千個流程變體的現狀,然后打包優化,以便客戶避免手動構建每個流程。

    • Blue Yonder 提供隨時可用的端到端供應鏈模式。

    • Salesforce 已經對客戶流程進行了建模,并打算遠遠超出這一目標,收購 Informatica 強調了這一目標。

    • RelationalAI 引入了一個具有電子表格級可訪問性的知識圖譜平臺;它的聲明式模型允許業務用戶直接參與定義邏輯。

    • ServiceNow 正在組裝一個工作流數據結構——另一種面向流程的方法。

    • Databricks 將數據智能稱為存在主義,并計劃超越指標和維度,轉向完整的流程知識。其先進的代理開發工具將需要更豐富的數據智能或與上述供應商的合作伙伴關系才能發揮其潛力。

    保證金和控制權將累積到捕獲流程和提供代理的層;數據基礎設施雖然不可或缺,但卻成為其背后成本優化的基礎。

    分叉的企業軟件世界

    現在讓我們關注企業軟件如何分裂成兩個世界。

    想象一下最近邦德電影中結冰的湖面場景:拉米·馬利克飾演的反派毫發無傷地站在光滑的水面上,而一名潛水員則在下面寒冷的水中揮舞。這個比喻捕捉到了企業軟件如何分裂成兩個不同的世界。

    • 冰之上是黃綠色的領域:參與系統、情報和代理系統。這里的供應商從實時數字孿生中學習業務,并推動基于結果的定價。差異化很高,企業本身最終將獲得很大一部分價值,支持供應商也參與其中。

    • 冰層之下是數據平臺、存儲格式、圖形處理單元和其他基礎設施。除非供應商擁有近乎壟斷的杠桿率,否則公用事業費率的定價趨勢——英特爾公司曾經這樣做過,英偉達現在可能會這樣做,超大規模企業可能會在現貨實例上保持一個人為的保護傘。歷史表明,這些雨傘會隨著時間的推移而倒塌,使得在這一層脫穎而出變得更加困難。

    該行業正在相應地保持一致:冰上層的參與者專注于建模的商業環境和更高的利潤經濟,而下層的參與者則面臨著越來越大的商品化壓力。戰略選擇是晉升到以結果為導向的層級,或者為基礎設施壕溝中利潤率的收緊做好準備。

    蓬勃發展的企業將重新構想其業務:不鋪平牛道

    討論又回到了一個結論:擁有連貫的高信號企業數據是下一波人工智能價值捕獲的決定性因素。實驗室可能仍然主導著主要模型發布,但這些模型越來越依賴只有大型組織才能擁有的專有地面實況數據。

    在上面的視覺效果中,Sam Altman 錨定了左邊——世界著名的粉底模型。Amodei 位于中左翼,證明了對領域反饋的后期培訓可以產生有意義的 ARR。中右翼是每個人都在追求的獎品。在我們看來,企業的實時、可驗證的數字孿生在最右邊由戴蒙代表,他是銀行業最深層交易賬本的管理者,他完全有能力將孿生武器化,并在保證金和護城河上挑戰模型實驗室。

    關鍵外賣

    • 構建和維護數字孿生(人、地點、事物、流程)的企業最適合收獲人工智能利潤池。

    • 這種轉變需要的不僅僅是技術;它需要圍繞端到端的客戶成果進行重新組織。對于銀行來說,基準可能是盡快在合規方面入職和了解客戶。

    • 這種變化類似于將白領工作從手工藝生產轉移到裝配線。組織重新設計和數據建模齊頭并進。



    關鍵詞: OpenAI AI代理

    評論


    相關推薦

    技術專區

    關閉
    主站蜘蛛池模板: 江山市| 邯郸县| 荥阳市| 石楼县| 梁山县| 龙江县| 上饶市| 商都县| 肃宁县| 磐安县| 蚌埠市| 茌平县| 台州市| 景宁| 定南县| 齐齐哈尔市| 泾阳县| 土默特左旗| 孟村| 枣阳市| 五大连池市| 五寨县| 柳河县| 长寿区| 南充市| 海淀区| 独山县| 武汉市| 嵊泗县| 正蓝旗| 南宫市| 霍州市| 东辽县| 云安县| 岢岚县| 安陆市| 望城县| 台湾省| 霸州市| 盘山县| 滨海县|