KN-News-09

從雲端走進身邊:耐能分享 NPU 如何讓 AI 落地日常生活

NPU 作為邊緣 AI 核心,旨在解決雲端運算在功耗、延遲與隱私方面的限制。其專為 AI 推論設計,藉著低功耗與成本效益,促使 AI 從雲端落地至終端裝置,是實現 AI 普及化的關鍵技術。

當 AI 熱潮席捲全球,多數人的目光仍聚焦在雲端伺服器與 GPU 運算上。然而,真正讓 AI 從機房走進日常生活的關鍵推手,可能是一個對大眾來說相對陌生的名詞:NPU(神經網路處理器)。耐能智慧科技產品行銷副總陳宇春在 2025 INSIDE Future Day 演講中,深入剖析了這個正在改變 AI 應用版圖的技術趨勢。

從市場數據來看,AI 產業的成長曲線確實驚人。陳宇春指出,從 2021 年到 2027 年甚至 2032 年,AI 在車用、消費電子、工業 PC 到雲端各領域都呈現爆發性成長,年成長率超過 30%,遠高於一般產業不到 10% 的平均值。這樣的數字驅動了大量人力與資源投入 AI 模型與硬體設備的開發。但在這股熱潮中,一個問題逐漸浮現:當 AI 應用真正要落地到消費性產品、家電或汽車時,完全依賴雲端運算真的是最佳解答嗎?

雲端運算的隱形成本

雲端運算的強大毋庸置疑,但陳宇春提醒,若完全依賴標準雲端服務,實際上會面臨 3 個關鍵挑戰。首先是不穩定的能源需求。隨著運算量增加,雲端資料中心的功耗消耗極為驚人,這不僅是環境成本,也直接反映在企業的營運支出上。

其次是延遲與網路依賴的問題。在台灣這樣基礎建設完善的地方,使用者可能感受不明顯,但在網路品質較差的環境,或者需要即時反應的應用情境,例如移動醫療或自駕車,網路延遲可能造成嚴重後果。

第三個挑戰則是隱私與資安。陳宇春以企業會議軟體為例,當使用 Teams 等雲端工具記錄會議時,所有內容包括財務數字、敏感討論甚至辦公室八卦,都會回傳到雲端伺服器。他直言:「你要不要把這些數字全部給伺服器看?」一旦這些資料被儲存在雲端,就存在被針對性攻擊或洩漏的風險。這也是邊緣運算(Edge AI)興起的重要原因之一:將運算與資料處理留在本地端,從根本上降低隱私外洩的可能性。

NPU 與 GPU 的定位差異

要理解 NPU 的價值,首先需要釐清它與 GPU 的差異。GPU 擅長訓練(Training)與複雜運算,平行處理能力強大,幾乎什麼運算任務都能處理,但代價是高昂的價格與龐大的功耗。相對地,NPU 是專門為執行深度學習推論(Inference)而設計的晶片,在總擁有成本(TCO)和功耗效率上具有明顯優勢。

陳宇春用了一個有趣的比喻來說明這個差異:「當你今天是一個富翁的時候,你可以使用 GPU,你不用去考慮到很多事情。當你今天想要當一個 Token 富翁的時候,那你就要考慮 NPU 的選項。」他進一步以實際數字說明,一台約 60 萬台幣的 NPU 設備攤提 5 年,供 10 人使用,換算下來每 Token 的成本不到 1 元,相較於雲端 API 的計價方式,在大量使用的情境下具有壓倒性的成本優勢。

NPU 的 3 大核心優勢更清楚地勾勒出它的應用定位。第一是極致的功耗效率。陳宇春特別強調,單看瓦數從 15W 降至 10W,聽起來差異不大,但在電池供電的裝置上,意義完全不同:「使用時間從 3 天變成 6 個月沒有感覺?大家會喜歡 3 天充電一次還是 6 個月充電一次?」低功耗不僅延長使用時間,更減少充電次數,進而延長電池與產品壽命,提升整體可靠度。

第二是分散式處理帶來的即時性。NPU 可以在裝置端進行運算,提供即時反應,不需要等待雲端回傳。目前主流硬體廠商如 Intel、AMD、Qualcomm 的筆電與手機都已內建 NPU 來提供 AI 服務,這正是看準了邊緣運算的發展趨勢。第三則是極具競爭力的成本結構,這對於需要大量部署 AI 功能的企業或消費性產品來說,是能否普及的關鍵因素。

技術創新:像樂高一樣的可重構架構

耐能在 NPU 技術上的一個重要突破,是採用了可重構的架構設計。陳宇春形容這就像樂高積木一樣,透過不同的數學算子組合,可以支援各種不同的 AI 模型,包括傳統的 CNN、LSTM 以及目前最熱門的 Transformer(大型語言模型的基礎架構)。這解決了一個關鍵問題:傳統 NPU 硬體一旦固化後,往往難以適應新演算法的需求,但透過獨特的工具鏈(Toolchain)設計,耐能的方案能夠靈活支援各種模型部件。

在效能表現上,相比傳統方案,耐能的 NPU 能源效率可提升 3 到 5 倍,反應速度接近人腦的反應速度。此外,耐能還提供針對硬體、軟體或系統整合的自動資料標註服務(Auto-labeling),解決客戶資料敏感或缺乏標註數據的痛點,讓企業能更快速地部署客製化的 AI 應用。

大小模型協作的混合 AI 時代

一個有趣的趨勢是,AI 模型同時在「變大」與「變小」。雖然參數量動輒數百億的大型模型持續演進,但同時也出現了微型化的版本,甚至有僅數百萬參數的模型可以在 NPU 上流暢運行。這催生了混合架構(Hybrid AI)的應用模式:利用 NPU 運行「小模型」進行初步處理,再將結果送往雲端或大型筆電上的大模型進行驗證。

陳宇春指出,這種協作模式能帶來顯著效益。原本需要 10 分鐘的運算可以縮減至 3 分鐘,節省 7 分鐘聽起來不多,但在筆電上省下 7 分鐘的高功耗運算,可能節省高達 70% 的電力消耗。更重要的是,這種模式還能解決大型語言模型常見的「幻覺」問題。陳宇春直白地說:「LLM 它有一個很明確的特性,就是睜著眼睛說瞎話。」透過小模型與大模型的協作檢查機制,可以有效預防錯誤資訊的產生。

從智慧家電到企業應用的真實情境

理論說得再多,不如實際應用來得有說服力。陳宇春分享了幾個相當生動的應用情境。在智慧家電領域,空調想要透過 NPU 進行人臉辨識自動調整溫度,但問題來了:當「怕熱的先生」與「怕冷的太太」同時進入房間,系統該聽誰的?陳宇春說:「所以 Edge AI 呢,它除了做辨識以外,它還很重要的地方就是說,我可以協助你解決這種矛盾衝突的問題。」這不只是技術炫技,而是真實家庭生活中會遇到的需求。

在車用情境中,語音控制的重要性更為凸顯。開車時雙手不能離開方向盤,在緊急狀況下駕駛往往無法精準下達指令。透過邊緣端的小模型理解駕駛的「意圖」而非僅抓取關鍵字,從單純的語音指令進化到意圖理解,這是攸關安全的關鍵技術。

醫療領域的應用更具變革。病患描述病情常不精確,例如說頭痛是因為感冒,但實際病因可能完全不同。利用 AI 進行「引導式問答」,當偵測到邏輯矛盾時主動追問以釐清病因,最後生成精確的病歷摘要給醫生。這不僅改善了醫病關係,也大幅提升看診效率。

在企業應用方面,耐能推出了 Enterprise RAG(檢索增強生成)解決方案,允許企業建立自己的私有資料庫與提示詞,並透過 Super Search 引擎處理專有名詞在不同領域有不同解釋的問題。透過建立獨立的索引與搜尋引擎,並與大模型進行協調,能大幅提高企業內部知識管理的精準度。

AI 普及化的關鍵推手

從陳宇春的分享中可以清楚看出,隨著 AI 應用真正落地,成本、功耗、隱私與可靠度已經成為比單純運算效能更重要的考量因素。NPU 作為專為推論設計的硬體,透過可重構架構與混合 AI 模式實現端雲協作,有效解決了 GPU 成本過高與雲端運算不穩定的問題。

更重要的是,NPU 讓 AI 能夠真正進入家電、汽車、個人裝置這些貼近生活的情境。當我們談論 AI 的未來時,或許不該只盯著雲端機房裡那些耗電驚人的超級電腦,而是應該關注那些悄悄藏在我們身邊裝置裡,默默運作、即時反應、保護隱私的小巧晶片。這才是 AI 真正普及化的關鍵推手,也是從「雲端」走向「身邊」的必經之路。