Tencent Hunyuan、新しいスパース注意機構アルゴリズムでAI計算コストを75%削減

Tencent Holdings Ltd.のHunyuan AIチームは、75%少ない計算能力で高密度注意機構に近い精度を達成するスパース注意機構アルゴリズムを開発した。これにより、長文脈推論の推論コストを年間数百万ドル削減できる可能性がある。

「Stemは、従来のアプローチが見落としていた因果情報フローの観点から、ブロックレベルのスパース性を再検討するものです」とTencent Hunyuanの研究チームは、同アルゴリズムを詳述したテクニカルペーパーで述べている。

このアルゴリズムは2つの革新を導入している。シーケンス内の距離に基づいてトークンに重み付けを行うToken Position Decayと、最終出力への貢献度に基づいて注意ブロックを選択するOutput-Aware Metricである。オペレーターレベルでは、オープンソース化されたHPC Stem+BSAオペレーターにより、12万8000トークンのコンテキストウィンドウ下で初回トークン遅延が3.7倍改善されたとチームは報告している。

約20倍のフォワード・イヤニングスで取引されているTencentは、Alibaba Group Holding Ltd.のQwen、Baidu Inc.のErnie、DeepSeekに対抗するため、Hunyuanモデルに多額の投資を行ってきた。推論コストの低下は、Tencentのクラウド事業の利益率を改善し、13億人以上の月間アクティブユーザーを抱えるWeChat全体でより手頃なAI機能を可能にする。

競争環境の激化

この効率性の向上は、中国のAIモデル競争がコスト削減フェーズに入る中で実現した。2024年末にリリースされたDeepSeekのV3モデルは、米国の最先端モデルと比較して訓練コストを大幅に抑えながら競争力のあるパフォーマンスが可能であることを示した。TencentのStemアルゴリズムは、推論側——モデルを本番環境で稼働させる際の継続的な費用——をターゲットにしており、業界の推計によると、デプロイされたアプリケーションにおけるAIワークロード総コストの60%から80%を占めている。

AlibabaのQwenチームもスパース注意機構の研究を発表しており、Baiduは長文脈タスク向けにErnieモデルを最適化している。TencentがHPC Stem+BSAオペレーターをオープンソース化した決定は、そのアプローチを差別化し、開発者がプロプライエタリなライセンスなしで効率性の向上を統合できるようにする。

3.7倍のレイテンシ低減が意味するもの

12万8000トークンのコンテキストにおける初回トークン遅延の3.7倍削減は、リアルタイムアプリケーションにとって重要である。長いカスタマーサービスの会話を処理するWeChat AIエージェントの場合、応答が数十秒ではなく数秒で開始されることを意味する。Citiのアナリストは、TongchengTravel Holdings Ltd.がTencentのWeChat AIエージェントとの緊密な連携の恩恵を受ける可能性があると指摘し、同社株に買い推奨を再表明した。

12万8000トークンのコンテキストウィンドウは、主要モデルが提供するものと同等である。OpenAIのGPT-4 Turboは12万8000トークン、AnthropicのClaude 3.5は20万トークンをサポートしている。Tencentのアルゴリズムは、標準的な高密度注意機構では推論コストがシーケンス長に対して2次的に増加する長文脈セグメントにおいて、Hunyuanにコスト面での優位性をもたらす可能性がある。

投資への示唆

Tencentにとって、コスト削減は同社のAIフットプリント全体に波及する。同社は2024年度に533億元（74億米ドル）のクラウド収益を報告しており、AI関連のワークロードがその構成要素として成長している。推論コストの1%ポイントの削減は、TencentがAlibaba CloudやHuawei Cloudと価格競争している事業の利益率を改善する。

オープンソース戦略はまた、戦略的な論理にも基づいている。HPCオペレーターを公開することで、Tencentはコミュニティからの貢献とエコシステムでの採用を得ることができる。Stem最適化インフラ上で構築する開発者は、Hunyuanモデルをデプロイする可能性が高くなる。これは、最も広く採用されているオープンソースAIファミリーとなったMeta Platforms Inc.のLlamaモデルシリーズのアプローチを反映している。

本記事は情報提供のみを目的としており、投資助言を構成するものではありません。