Key Takeaways:
- XPENG, CVPR 2026에서 자율주행 예측 월드 모델 'X-Mind' 공개
- 이 프레임워크는 Thought Sketch, Recurrent Block Diffusion, Visual CoT 등 3가지 기술 사용
- 수억 개의 주행 프레임으로 학습되어 차량이 미래 시나리오를 시뮬레이션할 수 있도록 지원
Key Takeaways:

XPENG의 X-Mind 프레임워크는 자율주행 차량이 단 하나의 결정을 내리기 전에 미래 교통 시나리오를 시뮬레이션할 수 있게 한다.
XPENG은 자율주행 차량이 내부 추론을 통해 미래 교통 시나리오를 시뮬레이션할 수 있도록 하는 예측 월드 모델 'X-Mind'를 공개했다. 이는 자율주행을 반응형에서 사전 대응형 의사결정으로 전환시키는 기술이다. 이 프레임워크는 광저우에서 열린 CVPR 2026 워크숍 'Foundation Model Deployment for Embodied Intelligence'에서 발표됐다.
"X-Mind는 인식-행동 시스템에서 예측 지능으로의 근본적인 전환을 의미합니다"라고 샤오밍 리우(Xianming Liu) XPENG 그룹 지능형 중앙 센터 총괄 책임자는 말했다. "차량은 이제 기동을 실행하기 전에 내부 시뮬레이션을 통해 미래 교통 변화를 예측할 수 있습니다."
이 프레임워크는 세 가지 기술을 결합한다. Thought Sketch는 조감도(Bird's-Eye-View) 레이아웃과 주행 사전 정보를 결합한 효율적인 인지 표현을 생성해 도로 구조, 장애물, 신호등, 내비게이션 의도를 보존하면서 계산 복잡성을 줄인다. Recurrent Block Diffusion은 단일 순방향 패스(forward pass) 내에서 고품질 미래 장면 생성을 가능하게 하여, 여러 번의 반복적 노이즈 제거 단계가 필요한 기존 확산 방식의 지연 시간 문제를 극복한다. 이는 고속도로 속도에서 실시간 주행 결정을 내리는 데 중요한 이점이다. Visual Chain-of-Thought(Visual CoT)는 모델이 주행 결정을 생성하기 전에 장애물 움직임, 차선 연결성, 미래 교통 상황을 어떻게 예측하는지 보여줌으로써 시스템 검증을 위한 투명성을 개선한다.
X-Mind는 수억 개의 실제 주행 데이터 프레임으로 학습됐다. XPENG은 이 모델이 개선된 궤적 예측 정확도, 복잡한 롱테일(Long-tail) 시나리오에서의 향상된 성능, 그리고 자동차용 칩에 적합한 초저지연 추론을 보여준다고 밝혔으나, 테스트에 사용된 특정 하드웨어 플랫폼은 공개하지 않았다.
기존 자율주행 스택과 X-Mind의 차이점
대부분의 자율주행 시스템은 인식-행동 파이프라인으로 작동한다: 카메라와 센서가 현재 환경을 감지하면 시스템이 반응한다. 테슬라의 FSD(Full Self-Driving), NIO의 NIO Pilot, 리오토(Li Auto)의 AD Max 모두 이 방식의 변형을 따른다. X-Mind는 기동을 실행하기 전에 내부적으로 여러 미래 시나리오를 실행하는 시뮬레이션 레이어를 추가하여, 사실상 차량에 단기 예측 능력을 부여한다.
Visual Chain-of-Thought 구성 요소는 이러한 추론 과정을 투명하게 만들어, 모델이 어떤 장애물 움직임과 차선 변경을 고려했는지 보여준다. 이러한 설명 가능성 기능은 안전 당국이 의사결정 논리의 증명을 요구하는 시장에서 규제 검증을 단순화할 수 있다. 이는 자율주행 시스템이 전 세계적으로 증가하는 규제 조사에 직면함에 따라 더욱 중요한 요소가 되고 있다.
물리적 AI 로드맵 완성
X-Mind는 X-World 및 X-Foresight와 함께 XPENG의 물리적 AI(Physical AI) 기초 모델 로드맵을 완성한다. 세 프레임워크는 차량이 단순히 어떻게 행동해야 하는지뿐만 아니라, 각 행동 이후 세상이 어떻게 변화하는지를 이해할 수 있게 한다. 리우 총괄은 이 기능을 차세대 자율주행에 필수적인 요소라고 설명했다. 차량은 보행자의 예상치 못한 횡단이나 방향지시등 없이 차선을 변경하는 차량 등 예측 불가능한 시나리오를 탐색해야 하기 때문이다.
이번 발표로 XPENG은 엔드 투 엔드(end-to-end) 신경망 접근법을 추구해온 테슬라(FSD V12 시스템)와 중국 주요 도시에서 도심 내비게이션 시스템을 배치하기 위해 경쟁 중인 경쟁사 NIO 및 Li Auto와의 대결 구도를 형성했다. XPENG이 예측 추론과 Visual CoT를 통한 설명 가능한 의사결정에 중점을 둔 점은, 규제 당국이 자율주행 기능 승인 전에 안전 검증 증빙을 요구하는 시장에서 우위를 점할 수 있는 요인이 될 수 있다.
투자 관점
XPENG(뉴욕증권거래소: XPEV, 홍콩거래소: 9868)은 투자자들이 차량 인도량 대비 기술 차별화를 저울질함에 따라 주가가 자율주행 이정표에 민감하게 반응해 왔다. X-Mind 프레임워크가 양산 차량에 탑재될 경우, 평균 판매 가격을 높이고 50개 이상의 브랜드가 경쟁하는 중국 전기차 시장에서 XPENG의 입지를 강화할 수 있다. 회사는 자사 소비자용 차량에 X-Mind를 양산 적용하는 일정은 공개하지 않았다.
본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.