Tether 的 AI 部門將一篇 Google Research 論文轉化為生產級程式碼,將大型語言模型在長時間運行時所需的記憶體最多削減 5 倍。
Tether 的 AI 部門將一篇 Google Research 論文轉化為生產級程式碼,將大型語言模型在長時間運行時所需的記憶體最多削減 5 倍。

Tether 人工智慧研究小組週一發布了 TurboQuant 的開源實作。這項 Google Research 演算法可壓縮鍵值快取——也就是 Transformer 模型用來追蹤上下文的工作記憶體——最多達 5 倍,且無需重新訓練或微調現有模型,使得在筆記型電腦、手機及邊緣裝置上運行具備能力的 AI 成為可行,而無須將每項任務都路由至雲端資料中心。
「如果長上下文 AI 只能在最大的資料中心內運作,那麼 AI 將會由擁有最多硬體的人所塑造,」Tether 執行長 Paolo Ardoino 在一份聲明中表示。「TurboQuant 透過讓記憶體不再成為一道高牆,改變了本地 AI 能夠做到的事。」
KV 快取是導致長時間 AI 對話被迫進入雲端的瓶頸。在約 26.2 萬個 token——相當於數小時的對話或數百頁文字——的情況下,一個 40 億參數模型的 KV 快取本身就會消耗約 8 GB 的記憶體。四個相同長度的並行會話會使快取超過 32 GB,且尚未計入模型權重本身。TurboQuant 將此佔用壓縮至每次會話約 1.6 GB,四個會話則為 6.4 GB,使總體用量落在配備 16 GB 至 32 GB 統一記憶體的消費級硬體可負擔的範圍內。
此次發布是 QVAC SDK 0.12.0 版本的一部分,這是 Tether 更廣泛的去中心化 AI 平台,同一更新還新增了文字轉影片生成及機器人控制功能。該 SDK 包含完整的量化管線、適用於常見推理框架的適配器、文件說明文件以及依工作負載調校的部署設定檔。開發者無須從頭開始即可將 TurboQuant 應用於現有模型——無需重新訓練或微調。
為什麼記憶體對 AI 堆疊至關重要
記憶體限制一直是將 AI 工作負載集中在超大規模資料中心的結構性障礙之一。一個僅 KV 快取就需要 16 GB 工作記憶體的模型,無法在 MacBook Air 或中階 Android 手機上運行。將此需求降至 3.2 GB 則徹底改變了部署的可行性,為能夠處理數百頁文件、保留完整專案上下文並在本地端處理私有資料的裝置端助理開啟了大門。
Tether 的實作建立在公司已整合進 QVAC 的多項先前壓縮技術之上,包括 PolarQuant 和 Quantized Johnson-Lindenstrauss。每項技術針對效率問題的不同面向。TurboQuant 是最新的一層,改編自 3 月 24 日發表的一篇 Google Research 論文。
該軟體的開源性質是一項策略性佈局,旨在壯大 QVAC 生態系統,並將 Tether 的平台定位為去中心化 AI 的預設工具組。任何開發者都可以立即獲取程式碼並將其整合到自己的推理管線中。這使得 Tether 與既有的本地 AI 框架(如 llama.cpp 和 Ollama)以及那些依賴將推理路由至其資料中心的雲端服務供應商直接競爭。
這對投資人意味著什麼
Tether 以發行 1,400 億美元 USDT 穩定幣而聞名,近來正積極擴張至 AI 基礎設施領域。該公司的核心理念是,AI 的下一階段將由軟體效率與可攜性定義,而非原始算力規模。如果 TurboQuant 號稱的 5 倍壓縮率在不同模型架構與上下文長度下均能成立——獨立基準測試尚未公布——那麼它可能加速推理工作負載從集中式雲端服務向本地裝置轉移,進而擠壓雲端 GPU 供應商的營收成長,同時擴大邊緣 AI 硬體的潛在市場規模。
本文僅供資訊參考,不構成投資建議。