在CES開幕演講中,NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛推出的一系列產(chǎn)品中, Cosmos無疑對于行業(yè)的影響最為深遠。
NVIDIA Cosmos由生成式世界基礎(chǔ)模型、高級 tokenizer、護欄和加速視頻處理管線組成,服務(wù)于自動駕駛汽車(AV)和機器人等物理 AI系統(tǒng)的發(fā)展。
Cosmos 世界基礎(chǔ)模型(WFM)使開發(fā)者能夠輕松生成大量基于物理學(xué)的逼真合成數(shù)據(jù),以用于訓(xùn)練和評估其現(xiàn)有的模型,他們還可以通過微調(diào) Cosmos WFM 構(gòu)建自定義模型。
而當下物理 AI 模型的開發(fā)成本高并且需要大量真實數(shù)據(jù)和測試。
Cosmos 模型將以開放模型許可證的方式提供,開發(fā)者可以在 NVIDIA API 目錄中預(yù)覽首批模型,也可以從 NVIDIA NGC目錄或 Hugging Face 下載整個系列的模型和微調(diào)框架。
這一方式將大大加速機器人和自動駕駛汽車行業(yè)的進展。
目前,Cosmos 的首批用戶包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot,、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鵬汽車等領(lǐng)先機器人和汽車公司以及共享出行巨頭 Uber。
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“機器人技術(shù)的 ChatGPT 時刻即將到來。與大語言模型一樣,世界基礎(chǔ)模型是推動機器人和自動駕駛汽車開發(fā)的基礎(chǔ),但并非所有開發(fā)者都擁有自主訓(xùn)練模型所需的專業(yè)知識和資源。我們創(chuàng)建 Cosmos 是為了普及物理 AI,讓每一位開發(fā)者都能接觸到通用機器人技術(shù)?!?/strong>
如果做個簡單的類比, Cosmos 類似于PC時代開源的Linux,雖然不能將之簡單地稱之為物理AI的操作系統(tǒng),但可以理解為一種開發(fā)語言。
借助 NVIDIA Cosmos 的開放模型套件,開發(fā)者可以根據(jù)目標應(yīng)用的需要,使用數(shù)據(jù)集定制自動駕駛汽車旅行視頻、機器人在倉庫中的移動軌跡等 WFM。
黃仁勛表示,Cosmos WFM 專為物理 AI 的研發(fā)而構(gòu)建,可以根據(jù)文本、圖像和視頻等輸入組合以及機器人傳感器或運動數(shù)據(jù)生成基于物理學(xué)的視頻。
這些模型為實現(xiàn)基于物理學(xué)的交互、物體恒存性以及生成高質(zhì)量的仿真工業(yè)環(huán)境(例如倉庫或工廠)和駕駛環(huán)境(包括各種路況)而構(gòu)建。
在 CES 主題演講中,黃仁勛展示了物理AI開發(fā)者如何使用 Cosmos模型,它可以在四大領(lǐng)域簡化物理AI開發(fā)者的工作:
視頻搜索和理解:使開發(fā)者能夠從視頻數(shù)據(jù)中輕松找到特定的訓(xùn)練場景,例如雪天路況或倉庫擁堵等。
基于物理學(xué)的逼真合成數(shù)據(jù)生成:使用 Cosmos 模型從NVIDIA Omniverse? 平臺上開發(fā)的可控 3D 場景中生成逼真視頻。
物理 AI 模型開發(fā)和評估:在基礎(chǔ)模型上構(gòu)建自定義模型,使用 Cosmos 進行強化學(xué)習(xí)以改進模型,或者測試模型在特定仿真場景中的表現(xiàn)。
預(yù)測與“多元宇宙”模擬:使用 Cosmos 和 Omniverse 生成 AI 模型所有未來可能實現(xiàn)的結(jié)果,以便幫助其選擇最佳和最準確的路徑。
Cosmos 本質(zhì)上是一種開發(fā)工具,但它的服務(wù)對象是做為開發(fā)世界模型的開發(fā)工具。
黃仁勛強調(diào),構(gòu)建物理 AI 模型需要數(shù) PB(petabytes)的視頻數(shù)據(jù)以及數(shù)萬小時的計算來處理、整理和標記這些數(shù)據(jù)。為了幫助節(jié)省在數(shù)據(jù)整理、訓(xùn)練和模型定制方面的巨大成本,Cosmos 提供了以下功能:
NVIDIA NeMo Curator 驅(qū)動的 NVIDIA AI 和 CUDA 加速數(shù)據(jù)處理管線,使開發(fā)者能夠使用 NVIDIA Blackwell 平臺在 14 天內(nèi)處理、整理和標記 2000 萬小時的視頻,而如果單純使用 CPU 則需要 3 年以上。
NVIDIA Cosmos Tokenizer 是先進的可視化 tokenizer,可將圖像和視頻轉(zhuǎn)換成 token。與當前領(lǐng)先的 tokenizer 相比,其總壓縮率提高了 8 倍,處理速度提高了 12 倍。
NVIDIA NeMo 框架可用于高效的模型訓(xùn)練、定制和優(yōu)化。
用一句話解釋就是性能提升,成本下降。
Cosmos雖然正式官宣的時間不長,但已經(jīng)洛陽紙貴。
首批用戶包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Uber、Waabi 和小鵬汽車等全球物理 AI 領(lǐng)先公司。
AI 和人形機器人公司1X 使用 Cosmos Tokenizer 推出了 1X World Model Challenge 數(shù)據(jù)集。
小鵬汽車將使用 Cosmos 加快其人形機器人的開發(fā)。
Hillbot 和 Skild AI 正在使用 Cosmos 加速其通用機器人的開發(fā)。
Agility 首席技術(shù)官 Pras Velagapudi 表示:“數(shù)據(jù)的稀缺性和可變性是在機器人環(huán)境中成功學(xué)習(xí)的主要挑戰(zhàn)。借助 Cosmos 的文本、圖像和視頻到世界的能力,我們能夠在各種任務(wù)中生成和增強逼真的場景并利用這些場景訓(xùn)練模型,而不需要采集那么多昂貴的真實數(shù)據(jù)。”
相比人形機器人,在自動駕駛領(lǐng)域,Cosmos的出現(xiàn)可以說將人形機器人和自動駕駛打通了底層開發(fā)工具。
在英偉達公布的信息中,Waabi作為一家從自動駕駛汽車開始致力于開發(fā)物理世界生成式 AI 的先驅(qū),正在評估 Cosmos 在自動駕駛汽車軟件開發(fā)和仿真中數(shù)據(jù)整理的應(yīng)用。
Wayve 則是一家致力于開發(fā)自動駕駛 AI 基礎(chǔ)模型的公司,該公司正在評估使用 Cosmos 搜索用于提高安全性和驗證的極端駕駛場景。
自動駕駛汽車工具鏈提供商 Foretellix 將使用 Cosmos 與 NVIDIA Omniverse Sensor RTX API 大規(guī)模評估和生成高保真測試場景與訓(xùn)練數(shù)據(jù)。
全球共享出行巨頭 Uber 正在與 NVIDIA 合作,共同加速自動駕駛汽車的發(fā)展。
Uber 豐富的駕駛數(shù)據(jù)集在與 Cosmos 平臺和 NVIDIA DGX Cloud 的功能結(jié)合后,能夠幫助自動駕駛汽車合作伙伴更加高效地構(gòu)建更強大的 AI 模型。
Uber 首席執(zhí)行官 Dara Khosrowshahi 表示:“生成式 AI 將驅(qū)動未來的移動出行,而這需要豐富的數(shù)據(jù)和非常強大的算力。相信在 NVIDIA 的助力下,我們能夠幫助行業(yè)更快開發(fā)出安全、可擴展的自動駕駛解決方案?!?/p>
不過,正如在智能汽車產(chǎn)業(yè)有靈魂與軀殼爭論一樣,NVIDIA Cosmos類似操作系統(tǒng)的底層開發(fā)系統(tǒng),做為最底層的開發(fā)工具,是否留有后門,是否容易被攻破都會讓NVIDIA 處于風(fēng)暴眼中。
黃仁勛特別解釋說,Cosmos根據(jù) NVIDIA 的可信 AI 原則開發(fā)而成,該原則將優(yōu)先考慮隱私、安全、保障、透明和減少不必要的偏見,NVIDIA 致力于實現(xiàn)安全、可信的 AI,這與全球的各個 AI 安全倡議相吻合。
在細節(jié)方面,Cosmos 開放平臺加入了專為減少有害文字和圖像而設(shè)計的護欄,并提供了一個增強文字提示準確性的工具。使用 NVIDIA API 目錄上的 Cosmos 自回歸模型和擴散模型生成的視頻會帶有隱形水印,可識別 AI 生成的內(nèi)容,這有助于減少錯誤信息和錯誤歸屬的可能性。
Cosmos WFM 現(xiàn)在可以通過 NVIDIA在 Hugging Face 和 NVIDIA NGC 目錄上的開放模型許可證獲得,并且很快將以經(jīng)過全面優(yōu)化的 NVIDIA NIM 微服務(wù)形式提供。
開發(fā)者可以使用 NVIDIA NeMo Curator 加速視頻處理,并使用 NVIDIA NeMo 定制自己的世界模型。然后,他們可以通過NVIDIA DGX Cloud 快速、簡單地部署這些模型,并獲得 NVIDIA AI Enterprise 軟件平臺提供的企業(yè)支持。
NVIDIA 還宣布推出全新 NVIDIA Llama Nemotron 大語言模型和 NVIDIA Cosmos Nemotron 視覺語言模型,開發(fā)者可將這些模型用于醫(yī)療、金融服務(wù)、制造等領(lǐng)域的企業(yè) AI 用例。
Cosmos 對于當下的物理AI(具身智能)絕對是革命性的產(chǎn)品,NVIDIA 通過生成式物理 AI 進一步擴展 了Omniverse也就是世界模型的構(gòu)建能力,為機器人、自動駕駛汽車和視覺 AI 等在數(shù)字孿生世界訓(xùn)練打開了效率之門。
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“物理 AI 將為總值 50 萬億美元的制造業(yè)和物流業(yè)帶來巨大改變。從汽車和卡車到工廠和倉庫,移動的事物能夠被機器人化并通過 AI 具身化。NVIDIA 的 Omniverse 數(shù)字孿生操作系統(tǒng)和 Cosmos 物理 AI 將作為實現(xiàn)全球?qū)嶓w產(chǎn)業(yè)數(shù)字化的基礎(chǔ)庫?!?/p>
黃仁勛表示, 創(chuàng)建用于物理 AI 仿真的 3D 世界分為三個步驟:構(gòu)建世界、使用物理屬性標記世界,并讓其栩栩如生。
NVIDIA 提供的生成式 AI 模型可加速各個環(huán)節(jié)。
借助已正式推出的 USD Code 和 USD Search NVIDIA NIM微服務(wù),開發(fā)者能夠使用文本提示生成或搜索 OpenUSD 資產(chǎn)。
而今天發(fā)布的全新 NVIDIA Edify SimReady 生成式 AI 模型可自動為現(xiàn)有 3D 資產(chǎn)添加物理效果或材質(zhì)等屬性,使開發(fā)者能在幾分鐘內(nèi)處理 1000 個 3D 對象,無需像以前一樣花費 40 多個小時手動處理。
NVIDIA Omniverse 搭配全新 NVIDIA Cosmos 世界基礎(chǔ)模型,組合成了一個合成數(shù)據(jù)倍增引擎,開發(fā)者能夠使用該引擎輕松生成大量可控、逼真的合成數(shù)據(jù)。
開發(fā)者還可以在 Omniverse 中創(chuàng)建 3D 場景并對輸出的圖像或視頻進行渲染,然后將這些圖像或視頻可以與文本提示一起用于調(diào)整 Cosmos 模型,生成無數(shù)用于物理 AI 訓(xùn)練的合成虛擬環(huán)境。
在 CES 主題演講中,NVIDIA 還發(fā)布了另外四個新藍圖,使開發(fā)者能夠更加輕松地構(gòu)建基于通用場景描述(OpenUSD)的 Omniverse 物理 AI 數(shù)字孿生。
這四個藍圖分別是:
Mega:由 Omniverse Sensor RTX API 驅(qū)動,用于在部署到真實設(shè)施中前,先在工廠或倉庫的數(shù)字孿生中大規(guī)模開發(fā)和測試機器人集群。
自動駕駛汽車仿真:同樣由 Omniverse Sensor RTX API 驅(qū)動,使自動駕駛汽車開發(fā)者能夠播放駕駛數(shù)據(jù)、生成新的基準真實數(shù)據(jù)并執(zhí)行閉環(huán)測試,從而加快開發(fā)流水線。
Omniverse Apple Vision Pro 空間流式傳輸:幫助開發(fā)者創(chuàng)建將大型工業(yè)數(shù)字孿生以沉浸式流的形式傳輸?shù)?nbsp;Apple Vision Pro 的應(yīng)用。
適用于計算機輔助工程(CAE)的實時數(shù)字孿生:基于 NVIDIA CUDA-X? 加速庫、物理 AI 庫和 Omniverse 庫構(gòu)建的實時物理可視化參考工作流。
此外,全新的免費 Learn OpenUSD 課程現(xiàn)已推出,這些課程將幫助開發(fā)者快速構(gòu)建基于 OpenUSD 的世界。
市場領(lǐng)先者使用 NVIDIA Omniverse 推動工業(yè) AI 發(fā)展
全球軟件開發(fā)和專業(yè)服務(wù)領(lǐng)域的領(lǐng)先企業(yè)正在使用 Omniverse 開發(fā)新的產(chǎn)品和服務(wù),加快工業(yè) AI 新時代的到來。
電子系統(tǒng)設(shè)計領(lǐng)域的領(lǐng)先者 Cadence 在其 Reality Digital Twin 數(shù)據(jù)中心數(shù)字孿生平臺中使用了 Omniverse 庫,并以此為基礎(chǔ)宣布將 Omniverse 進一步集成到 Allegro 中。Allegro 是 Cadence 的領(lǐng)先電子計算機輔助設(shè)計應(yīng)用,廣泛用于全球各大半導(dǎo)體公司。
計算智能領(lǐng)域的領(lǐng)導(dǎo)者 Altair 正在使用 Omniverse 藍圖構(gòu)建交互式計算流體動力學(xué)(CFD)的實時 CAE 數(shù)字孿生。Ansys 正在將 Omniverse 用于其領(lǐng)先的 CAE 應(yīng)用 Ansys Fluent 中。Neural Concept 正在將 Omniverse 庫集成到其下一代軟件產(chǎn)品,從而實現(xiàn)了實時 CFD 并改進了工程工作流。
全球?qū)I(yè)服務(wù)領(lǐng)域的領(lǐng)先企業(yè)埃森哲正在使用 Mega 幫助德國供應(yīng)鏈解決方案領(lǐng)導(dǎo)者 KION 為該公司的全球倉儲和配送客戶網(wǎng)絡(luò)構(gòu)建下一代自主倉庫和機器人集群。
自動駕駛汽車工具鏈供應(yīng)商 Foretellix 是數(shù)據(jù)驅(qū)動型自動駕駛開發(fā)領(lǐng)域的領(lǐng)導(dǎo)者。
該公司正在使用自動駕駛汽車仿真藍圖進行全 3D 傳感器仿真,以此優(yōu)化自動駕駛汽車的測試和驗證。研究機構(gòu) MITRE 也在與密歇根大學(xué)的 Mcity 測試設(shè)施聯(lián)合部署該藍圖,創(chuàng)建一個全行業(yè)自動駕駛汽車驗證平臺。
Katana Studio 正在使用 Omniverse 空間流式傳輸工作流程為日產(chǎn)和大眾汽車創(chuàng)建定制汽車配置器,使他們能夠在沉浸式環(huán)境中設(shè)計和審核車型,同時改善客戶決策流程。
面向企業(yè)的 XR 流式傳輸平臺 Innoactive 借助該工作流為 Apple Vision Pro 增加了空間流式傳輸?shù)钠脚_支持。
借助該解決方案,大眾集團能夠以人眼分辨率進行設(shè)計和工程項目審查。Innoactive 還與藥物生產(chǎn)加工和包裝技術(shù)解決方案提供商 Syntegon 合作,使 Syntegon 的客戶能夠在建造定制設(shè)施前先檢查和審核設(shè)施的數(shù)字孿生。
人工智能的時代正在英偉達的推動下,加速到來。
x
-
英偉達宣布推出Isaac GR00T Blueprint,加速人形機器人開發(fā) 2025-01-07 21:51
-
歷史性一幕,英偉達發(fā)布Cosmos世界基礎(chǔ)模型,黃仁勛:機器人的 ChatGPT 時刻即將到來 2025-01-07 19:56
-
預(yù)售8.98萬元起,埃安UT鸚鵡龍讓“10萬級精品車”成為現(xiàn)實 2025-01-06 21:22
-
2025年度智能座駕評選”啟動,首次加入跨品牌城市NOA評測 2025-01-05 16:50
-
可醇可電可油,吉利年內(nèi)將推兩款全新“超醇電混”車型 2025-01-05 17:30
-
2024,寧德時代變得讓人不認識了 2025-01-06 11:47