大小:1.66M 時長:09:40

作者 | 華衛
“選擇合成數據賽道的底層邏輯其實很簡單,AI 的快速爆發帶來了數據需求,這個 Gap 要靠合成數據去填。”
光輪智慧聯合創始人兼總裁楊海波表示,在大語言模型領域不存在外部合成數據的發展機會,因為其自身就具備強大的數據生成能力,能夠利用自身模型結合專家標註自我服務。 然而,隨著人工智慧向物理世界拓展,給外部公司帶來了供應合成數據的商機。
光輪智慧正在做的事就是,提供説明 AI 進入物理世界的 3D 合成數據。 具體來說,光輪智慧為具身智慧行業提供擁有足夠真實的物理交互能力的、人類示範在環的、場景足夠豐富的模擬合成數據。
現在,光輪智慧幾乎服務了所有的國內外頭部的具身智慧企業和主機廠, 包括英偉達、Figure AI、DeepMind、Wayve、智元機器人、銀河通用、比亞迪、博世等數十家公司。
在這背後,是一支年輕化的技術團隊,成員以90后、00後為主力,不僅吸納了來自英偉達的模擬專家、阿裡最年輕的演算法人才,還招募了眾多應屆生。 在創業初期短短幾個月內,光輪智慧的核心班底便基本就位,其中不乏因看好行業需求主動加入的成員。
成立幾個月就賺錢了
這家成立僅數月的企業,在合成數據尚未成為風口時便完成多輪數千萬級融資。 楊海波透露,光輪智慧的融資一直很順利。
“我們原計劃用三年教育市場,但 2024 下半年合成數據行業拐點比預期來得更迅猛。”
前不久,Meta 計劃斥資約 150 億美元入股合成數據獨角獸 Scale AI 49% 股權的消息震驚業內。 “誰掌握數據,誰就握住了下一輪 AI 競速的加速鍵。” 楊海波指出。
令人矚目的是,光輪智慧的團隊在創立兩三個月內即實現產品商業化落地。
最初,光輪智慧以自動駕駛切入具身智慧第一個規模化的場景,不僅與全球頭部主機廠及 Tier1 供應商完成簽約交付,更通過定製化數據方案助推中國自主品牌出海; 既為行業提供城市導航輔助駕駛(NOA)長尾數據解決方案,又聯合頂尖車企加速端到端智駕演算法工程化落地。
“頭部客戶最前沿的需求我們都滿足了,這是對我們商業化能力的最佳印證。” 楊海波表示。
相比同賽道公司的最大優勢
在楊海波看來,相比同賽道公司,光輪智慧的最大優勢是獨特的技術視野與路徑。
“合成數據,是具身智慧發展的必經之路”,楊海波指出,光輪智慧聚焦的是具身合成數據,而具身合成數據有四個必備條件,也是光輪智慧的最大優勢:一是要有足夠真實的物理交互能力、二是要有專家示範在環、三是場景足夠豐富、四是要實現數據閉環驗證。
首先,純依賴傳統 AI 技術的公司難以生成在視覺及物理交互層面都足夠真實的數據,不能滿足具身智慧演算法訓練的核心需求。 例如,自動駕駛領域的合成數據主要服務於識別演算法,著重視覺真實性,但無需類比實際物理參數的複雜反饋。
然而,對於具身智慧而言,正如楊海波所強調的“掌握游泳技能需要親身體驗水流變化而非僅觀察動作分解,要讓機器人具備類人學習能力需要類比出真實的物理反饋”,數據必須具備與物理世界交互時的真實物理反饋,例如拉開冰箱門需要精確類比作用力、摩擦阻力和門鉸鏈的運動規律; 操作微波爐旋鈕則需體現觸覺反饋以及機械阻尼。
因此,生成滿足具身智慧訓練需求的高品質合成數據,其必備條件之一就是能夠真實地類比這些物理交互過程及其反饋機制。 光輪智慧注重數據在物理與視覺層面的雙重真實,據楊海波介紹,去年下半年,光輪智慧實現了在物理級別模擬技術上的重大突破。
其次,光輪智慧把「人類專家示範」機制作為合成數據的核心,利用合成數據技術將人類示範數據進行放大與泛化,來確保 AI 學習到物理世界的資訊,真正給到模型訓練價值。
楊海波指出,模型表面上是依賴演算法能力,但其突破性的進展往往來自於人類專家的示範數據。 正如 OpenAI 借助數千名專業標註員提煉人類反饋,Scale AI 則有數萬個博士、工程師等專家標註員,特斯拉 FSD V12/13 基於“五星級駕駛員”數據進行自動駕駛訓練。 具身同樣需要專家的遙操作數據作為種子,再通過模擬泛化出多樣化的操作範式,填補 99% 的具身 Pre-Train(預訓練)階段的數據缺口。
“合成數據本質是放大人的示範作用,我們不相信純粹 AI 生成的合成數據能夠實現對 AI 的餵養。” 楊海波表示,純 AI 生成數據類似於把 AI 當成數據永動機,AI 不可能通過完全自我訓練突破現有能力邊界。
總的來說,視覺真實和物理交互真實是光輪智慧做合成數據的兩個重要前置條件,而“人類專家示範”機制作為確保合成數據能源源不斷地吸收新認知的關鍵是一個隱含條件。
如何高效、高品質地放大真實數據中的人類示範,也是光輪智慧做合成數據的核心技術挑戰。 據楊海波介紹,難點主要體現在三個維度:一,不同領域對真實性的要求不同; 二,數據生成策略必須根據下游任務目標進行動態調整,以確保模型訓練的有效性; 三,需積累一套保障數據可靠性的成熟體系,如數據有效性驗證、場景分佈需與客戶真實數據對齊等方面。
“場景的豐富多樣性至關重要,業界常討論 Sim2Real Gap,但 Real2Real 在場景豐富度上的巨大 Gap 卻被低估了。” 楊海波表示,自動駕駛在封閉測試場訓練得再完美,面對真實路況依然束手無策,根源就在於測試場景的複雜度和多樣性遠遠不足。
當前,大多數具身智慧的數據採集方式存在局限:先搭建特定硬體場景再收集數據。 這種“硬綁定”模式不僅難以適應硬體的快速反覆運算,更因其覆蓋場景極其有限,導致成本高昂、效率低下。 而光輪智慧具身合成數據的核心價值之一,就是能夠靈活生成百萬級差異化場景。
“合成數據只有具備閉環驗證能力即生成的數據能訓練演算法在真實場景中落地,並通過模型微調和性能回溯持續驗證其有效性,它才真正具備價值。” 光輪正是通過這種閉環驗證機制,持續強化合成數據的品質與模型的真實適應能力。
在談到數據閉環驗證時,楊海波特彆強調,「我們與英偉達合作,通過光輪合成數據去 Finetune 與 Sim2Real 落地,將 GR00T N1 模型成功部署到汽車製造生產線上。 ”
規模化盈利背後
“在大廠內部做這件事情,是不合理的。”
據他介紹,做 3D 世界的合成數據,在商業模式上和認知上都需要形成一定的規模效應。 第一,數據生產原料要可以規模化應用並服務於多個客戶的多種需求,而大廠內部無法做到這一點。 第二,合成數據本身的方法論非常重要,對合成數據的這種認知規模效應是體現在外部的,服務不同客戶才會獲得對於數據需求的不同認知,而大廠對於產品數據需求的認知是在完全閉環體系下得到的。
“一定要重視客戶需求和產品化。” 楊海波談到,創業者應該是去盯著客戶的真實需求。 千萬不能“拿著鎚子去找釘子”,曲高和寡是創業很容易陷入的一個問題。 要善於識別並聚焦於那些具體可落地的細分需求,選擇技術可實現、商業價值閉環的精準方向,從單點突破建立商業正迴圈,這才是初創公司成功的關鍵。
另外,楊海波表示,對創業公司來說拒絕「囫圇吞棗」式接單很關鍵,要評估客戶需求是否具有普遍性、客戶企業的長期存續性、付費的可持續性,反覆運算選擇出真正有長期付費意願和付費能力的客戶。
AI 賽道的創業跟過去不同了
“當大模型將技術門檻推向千億參數量級,創業者的生存空間不在於重複造輪子,而在於成為新大陸的鋪路人。” 站在北京中關村的落地窗前,這位曾擁有體制內外多重工作經歷的跨界創業者,向我們道出 AI 時代創業的變遷。
楊海波指出,AI 領域的競賽已顯現出更殘酷的叢林法則。 與互聯網創業的“721 法則”不同,在大模型等 AI 領域的創業賽道,第一名以外,第二名都可能沒有生存空間。 這種“贏者通吃”的態勢,倒逼創業者必須重構生存邏輯:既不能困守大廠閉環體系失去創新銳度,也不能脫離產業場景陷入技術空轉。
他認為,現在做 AI 創業要重點關注兩點:第一,確實要有具體的商業場景,創業者本身很容易犯閉門造車的錯誤。 第二,要有自己的數據閉環來守住場景的長期性。 “如果有場景但數據無法閉環,那麼大概率大模型的能力往前演進走一步就會把你給卷掉,這個創業專案也就隨之夭折了。”
“在這個賽道,冠軍之外可能都是陪跑者。” 光輪智慧選擇的破局點,是選擇直接「賣數據」。 這一模式不僅緊貼客戶需求,也為其帶來了穩定的現金流。
楊海波在最後強調,「我們要做 AGI 時代的『賣水人』,客戶需要的不是模擬工具,而是即用型的高品質具身數據。 正如 19 世紀加州淘金熱中真正的贏家是提供鏟子、牛仔褲的供應商,在當今 AI 軍備競賽里,光輪智慧通過標準化、可復用的合成數據服務,正在成為智慧時代不可或缺的基礎設施供應商。
大會推薦:
8 月 22~23 日的 AICon 深圳站 將以 “探索 AI 應用邊界” 為主題,聚焦 Agent、多模態、AI 產品設計等熱門方向,圍繞企業如何通過大模型降低成本、提升經營效率的實際應用案例,邀請來自頭部企業、大廠以及明星創業公司的專家,帶來一線的大模型實踐經驗和前沿洞察。 一起探索 AI 應用的更多可能,發掘 AI 驅動業務增長的新路徑!
評論