瞭解 Arm 類神經超取樣,深入探索架構、訓練和推論
作者: Arm 工程部電腦視覺資深架構師 Liam O’Neil
2025 年 8 月,我們宣布將於 2026 年內建於 Arm GPU 的 Arm 類神經技術。這項技術第一個應用案例是類神經超取樣 (Neural Super Sampling, NSS)。NSS 是一種次世代、由 AI 驅動的影像放大方案。開發者今天就可以開始體驗 NSS。
本文將從訓練、網路架構到後處理和推論等方面,深入探討 Arm 類神經超取樣 (Arm Neural Super Sampling, Arm NSS) 的工作原理,希望為機器學習 (ML) 工程師和行動裝置端圖像開發者詳細解釋 Arm NSS 的運行機制,及其如何在行動裝置硬體上進行部署。
用類神經超取樣取代啟發式方法 (heuristic) 的原因
時域超取樣 (Temporal super sampling, TSS),也稱為時域抗鋸齒 (Temporal Antialiasing, TAA),已經成為過去十年中抗鋸齒技術的產業標準解決方案。它具備諸多優勢,包括能夠解決各類鋸齒問題,對於延遲渲染的運算效率高,並且可擴展至圖像的放大。然而,該解決方案也面臨一些挑戰。例如,TSS 中目前常用人工設計的啟發式方法 (heuristic) 難以擴展,並且需要在不同內容中不斷調整,像鬼影、去遮擋偽影和時域不穩定性等問題依然存在,並且在與圖像放大技術結合時變得更加棘手。
Arm NSS 透過一套從資料中學習且經過訓練的類神經模型,而非靜態規則來克服這些限制。它可以跨條件和內容類型進行泛化,更有效地適應運動動態和識別鋸齒模式。這些能力使其能夠更可靠地處理那些對 AMD 超級解析度技術 2 (FSR2) 和 Arm 精確超解析度技術 (Arm Accuracy Super Resolution, Arm ASR) 等方法頗具挑戰的邊緣情況。
訓練 Arm NSS 網路: 具備回饋的遞迴學習
Arm NSS 使用以每像素一個樣本渲染的 540p 幀序列進行訓練。每幀與以每像素 16 個樣本渲染的 1080p 真實圖像 (Ground Truth) 配對。序列大約包含 100 幀,以幫助模型理解圖像內容如何隨時間變化。
解決方案的輸入包括渲染圖像的顏色、運動向量和深度,以及引擎元資料 (metadata),如抖動向量和攝影機矩陣。該模型採用遞迴式訓練,在每次執行反向傳播之前,會先往前執行序列中多幀畫面。這使得網路能夠隨時間傳播梯度,並學習如何累積資訊。
該網路採用時空損失函數進行訓練,能對空間逼真度和時間致性方面的誤差進行懲罰。空間逼真度用於確保單幀圖像清晰、細節豐富且視覺準確,有助於保留邊緣、紋理和精細結構; 而時域穩定性則抑制了連續幀之間可能出現的閃爍、抖動或其他形式的時域雜訊。
此項訓練是在 PyTorch 中採用成熟的技術實踐進行,其中包括 Adam 優化器 (Adam optimizer)、餘弦退火 (cosine annealing) 學習率調度,以及標準資料強化策略。預處理和後處理流程使用 Slang 語言編寫,以確保靈活性和效能,而量化感知訓練則採用 ExecuTorch 完成。
網路架構和輸出設計
Arm NSS 網路採用具有跳躍連接的四級 UNet 主幹架構,以保持空間結構。它透過三個編碼器和解碼器模組,對輸入資料進行下取樣和上取樣處理。
Arm 評估了多種方法:
- 圖像預測易於實現,但在量化條件下表現不佳,並會產生視覺偽影;
- 核心 (Kernel) 預測: 泛化能力良好且能有效量化,但由於需要許多大型核心映射,導致頻寬開銷較高;
- 參數預測 (所選方法): 為每個像素輸出少量參數。這些參數驅動後處理步驟 (如濾波和樣本累積)。該方法讓量化較為容易且頻寬效率高。
該網路生成三種逐像素輸出:
- 4 x 4 濾波器核心;
- 用於累積和校正的時域係數;
- 隱藏狀態張量做為時域回饋傳遞至下一幀。
該網路輸出服務於兩條路徑:
- 濾波器核心與時域係數被後處理階段用於運算經放大後的最終圖像;
-
隱藏狀態被前向傳遞至下一幀推論。與 Arm ASR 此類技術依賴手動調校的啟發式方法不同,Arm NSS 等 ML 方法具有三重優勢:
- Arm NSS 能估計動態核心濾波器和參數,以逐像素細微解決鋸齒問題;
- Arm NSS 透過利用採集多幀歷史狀態的時域回饋,實現更出色的時域穩定性;
- Arm NSS 可針對新遊戲內容進行調校,使開發者能進一步針對其特定遊戲最佳化圖像品質。
透過時域回饋提升幀間一致性
Arm NSS 導入兩種關鍵回饋機制來解決時域不穩定性問題:
- 將先前幀的隱藏特徵前向傳遞,使網路能夠學習變化與持續的部分;
- 透過運算亮度 (luma derivative) 導數來檢測閃爍的細微特徵,進而凸顯時域差異指出不穩定性的發生。
這些輸入説明模型在不依賴人工設計規則的情況下保持時域穩定性。
預處理階段:輸入準備
在推論開始之前,基於 GPU 的預處理階段會準備 Arm NSS 所需的輸入資料,其中包括收集每個像素的屬性 (如顏色、運動向量和深度)。此外,該階段還會運算亮度導數,這是一個用於標記細微特徵閃爍的時域訊號,以及去遮擋遮罩,以突出顯示陳舊的歷史記錄,並重投影歷史隱藏特徵。
這些資料將被整合為用於類神經網路的單一輸入張量。該階段在運算著色器 (compute shader) 上運行,在推論調用前執行,推論則是在使用針對 Vulkan 的 ML 擴展的 GPU 上運行。
後處理: 從原始輸出到完成一幀
在推論完成後,做為運算著色器運行的後處理階段將建構最終輸出顏色。所有步驟均整合至渲染圖 (render graph) 中,並專為行動裝置端高效率運行設計,具體包括以下步驟:
- 運動向量擴張,減少重投影歷史時的鋸齒問題;
- 歷史重投影,採用 Catmull-Rom 濾波器降低重投影的模糊度;
- 濾波,應用 4 x 4 核心對色彩輸入執行抗鋸齒處理;
- 稀疏放大,將抖動的低解析度樣本映射到高解析度網格上,缺失像素都以零值填充,然後用 4 x 4 核心稀疏濾波,執行插值和抗鋸齒處理,類似於去馬賽克;
- 校正,使用預測的 theta 參數剔除陳舊歷史資料;
- 樣本累積,透過預測的 alpha 參數將新資料與歷史緩衝混合,在色調映射域執行以避免「螢火蟲」偽影。
驗證品質
Arm 使用了峰值訊噪比 (Peak Signal-to-Noise Ratio, PSNR)、結構相似性指數 (Structural Similarity Index, SSIM) 和渲染聚焦感知誤差指標 FLIP 等指標來評估 Arm NSS。雖然這些指標未必總是與人類感知相同,但它們有助於發現問題案例,並透過跟蹤各種指標增強信心。
透過持續整合 (CI) 工作流重播測試序列並記錄 Arm NSS、Arm ASR 和其他基準的效能。有關視覺比較和感知評估的詳細內容,請參閱技術白皮書。
在 540p 到 1080p 的比較中,Arm NSS 提升了穩定性和細節保留效能,並且在快速運動、部分遮擋物體和細微幾何場景中表現出色。與 Arm ASR 或 AMD FSR2 等非類神經方法不同,Arm NSS 無需反應遮罩,即可處理粒子效果。
Arm NSS 能否即時運行?
雖然搭載類神經加速器的晶片尚未發表,但我們可以透過一些最低效能假設和執行網路推論所需的乘積累加運算 (MAC) 數量來估計 Arm NSS 是否夠快。該分析適用於任何在吞吐量、功率和利用率方面滿足這些相同假設的加速器。我們假定在可持續的 GPU 時脈下,目標每瓦 10 TOP/s 的類神經加速是可行的。
在可持續的效能條件下,我們對每幀的放大處理定下低於四毫秒的目標。在低時脈 GPU 上,推論前後運行的著色器階段共耗時約 1.4 毫秒。基於此預算,Arm NSS 需控制在約 27 GOPs 以下。而我們的參數預測網路用了大約 10 GOPs,即使類神經網路加速器的效率僅為 40%,這在該範圍內仍綽綽有餘。
早期模擬資料顯示,Arm NSS 在 1.5 倍放大 (平衡模式) 下的執行時間約為 Arm ASR的 75%,而在兩倍放大 (平衡模式) 下則預計效能會優於 Arm ASR。這一效率提升受惠於用簡化的推論過程取代複雜的啟發式方法。
即刻使用 Arm NSS 進行建構
Arm NSS 導入一種由 ML 驅動的時域超取樣的實用方法。它用經過學習的濾波器和穩定性提示,取代了人工調校的啟發式方法,並能夠在行動裝置硬體端的即時性限制內運行。
其訓練方法、緊湊架構和利用針對 Vulkan 的 ML 擴展使其兼具高效能和適應性。對於建構類神經渲染解決方案的 ML 工程師來說,Arm NSS 是一個可部署、結構良好,且運行於圖形管線內的推論示範。
想要探索 Arm 類神經圖像開發套件,查看示範程式碼,並探索網路結構,請瀏覽 Arm 開發者中心的 Arm NSS 頁面。歡迎開發者使用開發套件或為自己的內容重新訓練 NSS,並提供回饋,您的見解將有助於塑造行動裝置上類神經渲染的未來。
點擊閱讀原文,現在就開始試試 Arm NSS!
關於 Arm
Arm 是業界效能最高且最節能的運算平台,其無可比擬的應用範疇觸及全球所有連網使用者。為因應全球對運算永無止境的需求,Arm 提供先進的解決方案,使全球領先的科技公司得以釋放前所未有的 AI 體驗與功能。透過與全球最大的運算生態系及 2,200 萬名軟體開發者的共同努力,我們正在 Arm 平台上建構 AI 的未來。
所有資訊都「依目前情況」提供,且並不帶保證或代表性。此文件可以自由分享,但不得修改且必須註明出處。Arm 是 Arm Limited(或其子公司與附屬機構)的註冊商標。所有品牌或產品名稱均為所屬公司之財產。© 1995-2025 Arm Limited.