텐센트, AI 라이브러리 공개로 모델 처리량 30% 향상

Edgen Stock·Feb 04 2026, 15:31

공유하기

링크 복사

주요 내용

텐센트는 경쟁이 치열한 인공지능 분야에서 입지를 강화하기 위한 전략적 움직임으로, 프로덕션급 HPC-Ops 라이브러리를 공개했습니다. 이 오픈소스 도구는 대규모 언어 모델(LLM)의 추론 속도를 크게 가속화하여, 텐센트 기술을 중심으로 더 넓은 개발자 생태계를 구축하고 클라우드 서비스의 미래 성장을 주도하는 것을 목표로 합니다.

성능 도약: 새로운 HPC-Ops 라이브러리는 실제 시나리오에서 텐센트의 독점 혼원(Hunyuan) 모델의 추론 처리량(분당 쿼리 수)을 30% 증가시켰습니다.
경쟁 벤치마크: 구성 요소 수준에서 이 라이브러리는 기존 대안보다 상당한 성능 향상을 보여주며, Attention 연산자는 FlashAttention보다 최대 2.22배 더 빠르게 실행됩니다.
생태계 전략: 이 도구를 오픈소싱함으로써 텐센트는 AI 개발자를 유치하고 채택을 유도하여, 장기적인 성장을 위한 클라우드 및 AI 서비스 제품을 강화하는 것을 목표로 합니다.

HPC-Ops 출시로 혼원(Hunyuan) 모델 속도 30% 향상

텐센트의 혼원 AI 인프라 팀은 2월 4일 고성능 HPC-Ops 라이브러리를 공개하며, 자사의 프로덕션 수준 기술의 핵심 부분을 오픈소스화했습니다. 실제 테스트에서 이 핵심 연산자 라이브러리의 구현은 텐센트 자체 혼원 모델의 추론 처리량(분당 쿼리 수, QPM으로 측정)을 30% 증가시켰습니다. 이 라이브러리는 또한 외부 DeepSeek 모델의 효율성을 17% 향상시켰습니다. 이러한 움직임은 까다로운 프로덕션 환경에서 대규모 언어 모델을 사용하는 개발자들에게 실질적인 성능 향상을 제공하기 위해 고안되었습니다.

새로운 라이브러리, 경쟁사 대비 최대 2.22배 뛰어난 성능

HPC-Ops의 기술 사양은 기존 도구에 비해 상당한 성능 우위를 보여줍니다. 단일 연산자 성능 비교에서, Attention 연산자는 FlashInfer 및 FlashAttention과 같은 업계 표준보다 최대 2.22배 더 빠릅니다. 또한 GroupGEMM 연산자는 DeepGEMM보다 최대 1.88배 뛰어나며, FusedMoE는 NVIDIA의 TensorRT-LLM보다 1.49배 빠른 속도 향상을 보입니다. 입증된 더 빠른 도구를 오픈소싱함으로써 텐센트는 개발자를 자사 생태계로 유치하기 위한 전략적인 움직임을 보이고 있습니다. 목표는 AI 개발을 위한 기반 계층으로 인프라를 구축하는 것이며, 이는 더 넓은 범위의 클라우드 및 AI 서비스 채택 증가로 이어질 수 있습니다.