從雲端走進身邊：耐能分享 NPU 如何讓 AI 落地日常生活

NPU 作為邊緣 AI 核心，旨在解決雲端運算在功耗、延遲與隱私方面的限制。其專為 AI 推論設計，藉著低功耗與成本效益，促使 AI 從雲端落地至終端裝置，是實現 AI 普及化的關鍵技術。

當 AI 熱潮席捲全球，多數人的目光仍聚焦在雲端伺服器與 GPU 運算上。然而，真正讓 AI 從機房走進日常生活的關鍵推手，可能是一個對大眾來說相對陌生的名詞：NPU（神經網路處理器）。耐能智慧科技產品行銷副總陳宇春在 2025 INSIDE Future Day 演講中，深入剖析了這個正在改變 AI 應用版圖的技術趨勢。

從市場數據來看，AI 產業的成長曲線確實驚人。陳宇春指出，從 2021 年到 2027 年甚至 2032 年，AI 在車用、消費電子、工業 PC 到雲端各領域都呈現爆發性成長，年成長率超過 30%，遠高於一般產業不到 10% 的平均值。這樣的數字驅動了大量人力與資源投入 AI 模型與硬體設備的開發。但在這股熱潮中，一個問題逐漸浮現：當 AI 應用真正要落地到消費性產品、家電或汽車時，完全依賴雲端運算真的是最佳解答嗎？

雲端運算的隱形成本

雲端運算的強大毋庸置疑，但陳宇春提醒，若完全依賴標準雲端服務，實際上會面臨 3 個關鍵挑戰。首先是不穩定的能源需求。隨著運算量增加，雲端資料中心的功耗消耗極為驚人，這不僅是環境成本，也直接反映在企業的營運支出上。

其次是延遲與網路依賴的問題。在台灣這樣基礎建設完善的地方，使用者可能感受不明顯，但在網路品質較差的環境，或者需要即時反應的應用情境，例如移動醫療或自駕車，網路延遲可能造成嚴重後果。

第三個挑戰則是隱私與資安。陳宇春以企業會議軟體為例，當使用 Teams 等雲端工具記錄會議時，所有內容包括財務數字、敏感討論甚至辦公室八卦，都會回傳到雲端伺服器。他直言：「你要不要把這些數字全部給伺服器看？」一旦這些資料被儲存在雲端，就存在被針對性攻擊或洩漏的風險。這也是邊緣運算（Edge AI）興起的重要原因之一：將運算與資料處理留在本地端，從根本上降低隱私外洩的可能性。

NPU 與 GPU 的定位差異

要理解 NPU 的價值，首先需要釐清它與 GPU 的差異。GPU 擅長訓練（Training）與複雜運算，平行處理能力強大，幾乎什麼運算任務都能處理，但代價是高昂的價格與龐大的功耗。相對地，NPU 是專門為執行深度學習推論（Inference）而設計的晶片，在總擁有成本（TCO）和功耗效率上具有明顯優勢。

陳宇春用了一個有趣的比喻來說明這個差異：「當你今天是一個富翁的時候，你可以使用 GPU，你不用去考慮到很多事情。當你今天想要當一個 Token 富翁的時候，那你就要考慮 NPU 的選項。」他進一步以實際數字說明，一台約 60 萬台幣的 NPU 設備攤提 5 年，供 10 人使用，換算下來每 Token 的成本不到 1 元，相較於雲端 API 的計價方式，在大量使用的情境下具有壓倒性的成本優勢。

NPU 的 3 大核心優勢更清楚地勾勒出它的應用定位。第一是極致的功耗效率。陳宇春特別強調，單看瓦數從 15W 降至 10W，聽起來差異不大，但在電池供電的裝置上，意義完全不同：「使用時間從 3 天變成 6 個月沒有感覺？大家會喜歡 3 天充電一次還是 6 個月充電一次？」低功耗不僅延長使用時間，更減少充電次數，進而延長電池與產品壽命，提升整體可靠度。

第二是分散式處理帶來的即時性。NPU 可以在裝置端進行運算，提供即時反應，不需要等待雲端回傳。目前主流硬體廠商如 Intel、AMD、Qualcomm 的筆電與手機都已內建 NPU 來提供 AI 服務，這正是看準了邊緣運算的發展趨勢。第三則是極具競爭力的成本結構，這對於需要大量部署 AI 功能的企業或消費性產品來說，是能否普及的關鍵因素。

技術創新：像樂高一樣的可重構架構

耐能在 NPU 技術上的一個重要突破，是採用了可重構的架構設計。陳宇春形容這就像樂高積木一樣，透過不同的數學算子組合，可以支援各種不同的 AI 模型，包括傳統的 CNN、LSTM 以及目前最熱門的 Transformer（大型語言模型的基礎架構）。這解決了一個關鍵問題：傳統 NPU 硬體一旦固化後，往往難以適應新演算法的需求，但透過獨特的工具鏈（Toolchain）設計，耐能的方案能夠靈活支援各種模型部件。

在效能表現上，相比傳統方案，耐能的 NPU 能源效率可提升 3 到 5 倍，反應速度接近人腦的反應速度。此外，耐能還提供針對硬體、軟體或系統整合的自動資料標註服務（Auto-labeling），解決客戶資料敏感或缺乏標註數據的痛點，讓企業能更快速地部署客製化的 AI 應用。

大小模型協作的混合 AI 時代

一個有趣的趨勢是，AI 模型同時在「變大」與「變小」。雖然參數量動輒數百億的大型模型持續演進，但同時也出現了微型化的版本，甚至有僅數百萬參數的模型可以在 NPU 上流暢運行。這催生了混合架構（Hybrid AI）的應用模式：利用 NPU 運行「小模型」進行初步處理，再將結果送往雲端或大型筆電上的大模型進行驗證。

陳宇春指出，這種協作模式能帶來顯著效益。原本需要 10 分鐘的運算可以縮減至 3 分鐘，節省 7 分鐘聽起來不多，但在筆電上省下 7 分鐘的高功耗運算，可能節省高達 70% 的電力消耗。更重要的是，這種模式還能解決大型語言模型常見的「幻覺」問題。陳宇春直白地說：「LLM 它有一個很明確的特性，就是睜著眼睛說瞎話。」透過小模型與大模型的協作檢查機制，可以有效預防錯誤資訊的產生。

從智慧家電到企業應用的真實情境

理論說得再多，不如實際應用來得有說服力。陳宇春分享了幾個相當生動的應用情境。在智慧家電領域，空調想要透過 NPU 進行人臉辨識自動調整溫度，但問題來了：當「怕熱的先生」與「怕冷的太太」同時進入房間，系統該聽誰的？陳宇春說：「所以 Edge AI 呢，它除了做辨識以外，它還很重要的地方就是說，我可以協助你解決這種矛盾衝突的問題。」這不只是技術炫技，而是真實家庭生活中會遇到的需求。

在車用情境中，語音控制的重要性更為凸顯。開車時雙手不能離開方向盤，在緊急狀況下駕駛往往無法精準下達指令。透過邊緣端的小模型理解駕駛的「意圖」而非僅抓取關鍵字，從單純的語音指令進化到意圖理解，這是攸關安全的關鍵技術。

醫療領域的應用更具變革。病患描述病情常不精確，例如說頭痛是因為感冒，但實際病因可能完全不同。利用 AI 進行「引導式問答」，當偵測到邏輯矛盾時主動追問以釐清病因，最後生成精確的病歷摘要給醫生。這不僅改善了醫病關係，也大幅提升看診效率。

在企業應用方面，耐能推出了 Enterprise RAG（檢索增強生成）解決方案，允許企業建立自己的私有資料庫與提示詞，並透過 Super Search 引擎處理專有名詞在不同領域有不同解釋的問題。透過建立獨立的索引與搜尋引擎，並與大模型進行協調，能大幅提高企業內部知識管理的精準度。

AI 普及化的關鍵推手

從陳宇春的分享中可以清楚看出，隨著 AI 應用真正落地，成本、功耗、隱私與可靠度已經成為比單純運算效能更重要的考量因素。NPU 作為專為推論設計的硬體，透過可重構架構與混合 AI 模式實現端雲協作，有效解決了 GPU 成本過高與雲端運算不穩定的問題。

更重要的是，NPU 讓 AI 能夠真正進入家電、汽車、個人裝置這些貼近生活的情境。當我們談論 AI 的未來時，或許不該只盯著雲端機房裡那些耗電驚人的超級電腦，而是應該關注那些悄悄藏在我們身邊裝置裡，默默運作、即時反應、保護隱私的小巧晶片。這才是 AI 真正普及化的關鍵推手，也是從「雲端」走向「身邊」的必經之路。