0G, 중국모바일과 함께 1070억 파라미터 AI 모델 분산 인프라로 최초 훈련

0G가 중국모바일과 협력해 분산 인프라를 사용하여 1070억 개 파라미터 AI 모델을 훈련시켰다. 이는 1000억 개 이상의 파라미터를 가진 모델이 중앙집중식 데이터센터 클러스터 없이 개발된 첫 번째 사례다.

"이 규모의 분산 학습은 대규모 모델 개발에 더 이상 하이퍼스케일 GPU 팜에 대한 독점적 접근이 필요하지 않음을 증명한다"고 0G Labs의 공동창업자 마이클 하인리히는 말했다. "활용도가 낮은 컴퓨팅 용량을 보유한 통신사들은 이제 AI 공급망에 참여할 수 있다."

이 모델은 DiLoCoX 방법을 통합한 0G의 분산 학습 프레임워크를 사용하여 훈련되었다. 0G Labs의 연구에 따르면 이 기술은 기존 분산 방식보다 최대 357배 빠르게 모델을 훈련시킬 수 있으며, 대역폭이 1GB에 불과한 네트워크에서도 가능하다. 컴퓨팅 부하를 단일 데이터센터가 아닌 중국모바일의 기존 인프라 전반에 분산시킴으로써, 이 프로젝트는 AI 개발을 소수의 하이퍼스케일러로 제한해 온 중앙집중식 GPU 클러스터라는 전통적 병목 현상을 우회했다.

분산 학습이 기업 AI에 중요한 이유

이 성과는 AI 업계의 구조적 문제를 해결한다. 대규모 모델 훈련에는 GPU 클러스터에 대한 막대한 선행 자본 지출이 필요했으며, 이는 가장 부유한 기술 기업들만 접근 가능했다. 분산 학습은 네트워크에 연결된 모든 컴퓨팅 자원을 잠재적 훈련 노드로 취급함으로써 이 모델을 전환시킨다. 방대하지만 종종 유휴 상태인 컴퓨팅 인프라를 네트워크 전반에 걸쳐 운영하는 중국모바일 같은 통신사의 경우, 이는 기존 자산에서 새로운 수익원을 창출한다.

이 접근법은 또한 공급 제약과 수출 통제에 직면한 엔비디아의 H100 및 B200 GPU에 대한 의존도를 줄여준다. 0G의 프레임워크는 분산 네트워크 전반에 걸쳐 이기종 컴퓨팅 자원을 집계함으로써 균일한 GPU 클러스터를 요구하지 않고 다양한 하드웨어 유형을 혼합하여 모델을 훈련시킬 수 있다. 이는 엔비디아 최신 칩의 리드 타임이 12개월을 초과한 2000억 달러 규모의 데이터센터 GPU 시장에 대한 압력을 완화할 수 있다.

그러나 데이터 준비 상태는 여전히 장벽으로 남아 있다. 가트너는 AI 프로젝트의 최대 60%가 파편화되거나 사일로화된 데이터로 인해 2026년까지 중단될 수 있다고 추정하며, 이는 분산 학습만으로는 해결되지 않는 문제다. 이 접근법을 채택하려는 기업은 분산 컴퓨팅의 혜택을 받기 전에 먼저 데이터 인프라를 통합해야 한다.

AI 인프라 스택에 대한 경쟁적 함의

0G-중국모바일의 이정표는 엔비디아와 주요 클라우드 제공업체가 주도하는 중앙집중식 학습 모델에 도전한다. 분산 학습이 채택되면 조달 패턴이 하이퍼스케일러 GPU-as-a-Service 제공에서 벗어나 통신사와 엣지 제공업체가 여유 용량을 수익화하는 더 파편화된 시장으로 전환될 수 있다.

컴퓨팅 자원을 토큰화하는 두 프로젝트인 Bittensor와 Render Network는 기업들이 분산 대안을 모색함에 따라 수요 증가를 경험할 수 있다. 분산 인프라 전반에 걸쳐 모델을 훈련하는 능력은 또한 데이터 주권 요건으로 인해 중앙집중식 국경 간 훈련이 어려운 유럽연합 및 중국 같은 지역에서 증가하는 규제 압력과도 일치한다.

투자자들에게 이 개발은 AI 인프라 테제에 새로운 변수를 도입한다. 가장 최근 회계연도에 475억 달러의 데이터센터 매출을 기록한 엔비디아의 비즈니스 모델은 대규모 모델 훈련에 집중된 GPU 클러스터가 필요하다는 가정 위에 구축되었다. 분산 방식이 대규모로 실행 가능함이 입증된다면, 중앙집중식 AI 컴퓨팅의 총가용시장(TAM)은 축소될 수 있으며, 분산 자원을 집계할 수 있는 인프라 제공업체가 혜택을 볼 것이다.

이 글은 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않는다.