Manyuan Zhang

Staff Researcher at Meituan-M17, Hong Kong
Ph.D. from Multimedia Laboratory
Department of Electornic Engineering
The Chinese University of Hong Kong
Email: zhangmanyuan@link.cuhk.edu.hk
Scholar CV Github Linkin

About me

Now, I am a Staff Researcher at Meituan-M17 (北斗计划), Hong Kong. I received my Ph.D. from Multimedia Lab (MMLab), the Chinese University of Hong Kong, supervised by Prof.Hongsheng Li and Prof.Xiaogang Wang. And I received my bachelor's degree from University of Electronic Science and Technology of China (UESTC) in 2019. Previously, I was a Researcher at SenseTime Research.

During my six years at SenseTime Research, I was involved in many projects from scratch. We built the most reliable face recognition system in the world at that time (the champion of FRVT, ICCV MFR), the best video recognition model (the champion of ActivityNet Challenge Kinetics700), reimplemented the AI of StarCraft2 (DI-star) from scratch, developed an autonomous driving algorithm based on reinforcement learning (DI-drive), and most recently, the text-to-image AIGC product SenseMirage (DAU exceeded one million within a week for the first time in SenseTime's history, earning a special commendation from the CEO).

Currently, at Meituan-M17 Hong Kong, I am involved in the development of the LongCat series foundation models, such as LongCat-Next and LongCat-Flash. My work focuses on native multimodality, modeling multiple modalities in a unified autoregressive manner. Now I am all in Physical Intelligence (VLA, World Action Model, etc.). If you are interested in my work or career, please feel free to contact me. Now Hiring Self-motivated Interns! Providing >1000 H-series GPUs!

News

[2026-06] Two papers accepted to ECCV 2026!
[2026-05] Four papers accepted to ICML 2026! (1 Spotlight)
[2026-04] Two papers accepted to ACL 2026!
[2026-02] Five papers accepted to CVPR 2026!
[2026-02] One paper accepted to 3DV 2026 with Best Paper Award Nomination!
[2026-01] Two papers accepted to ICLR 2026.
[2025-08] One paper accepted to EMNLP 2025.
[2025-06] One paper accepted to ICCV 2025.
[2025-05] I successfully defended my PhD thesis and officially became Dr. Zhang!
[2025-03] One paper accepted to CVPR 2025.

Older News

[2024-07] Two papers accepted to ECCV2024.
[2024-03] One paper accepted to SIGGRAPH2024.
[2023-07] Two paper accepted to ICCV2023.
[2023-07] I pass the PhD candidate test.
[2023-05] I am invited to be a reviewer for NIPS2023 and ICLR2023.
[2023-02] One paper accepted to CVPR 2023.
[2022-12] I am invited to be a reviewer for CVPR2023 and ICCV2023.
[2022-07] One paper accepted to ECCV 2022.
[2022-04] I am invited to be a reviewer for ECCV2022 and NIPS2022.
[2022-04] I am invited to ’智东西’ to give a talk about imitation learning in automatic driving.
[2021-10] We win three championships of ICCV 2021 Masked Face Recognition Challenge on glink360k track, unconstrained track and Webface260M track. Code and solutions will be released very soon.
[2021-07] We release DI-drive, the decision intelligence platform for autonomous driving simulation. I am responsible for the imitation learning part.
[2021-07] One paper accepted to ICCV 2021.
[2021-05] We win the championship of NIST FRVT 1:1.
[2020-12] We win the championship of NIST FRVT 1:N.
[2020-06] We win 2 championships of ActivityNet on the Spatio-temporal Action Localization (AVA) track and the Trimmed Activity Recognition (Kinetics 700) track.
[2020-06] One paper accepted to ECCV 2020.
[2020-04] We release the X-Temporal for easily implement SOTA video understanding methods with PyTorch on multiple machines and GPUs.
[2019-10] One paper accepted to ICCV 2019 LFR workshop.
[2019-10] We win the championship of ICCV19 Multi-Moments in Time (MIT) Challenge.
[2019-10] We win the championship of ICCV19 Lightweight Face Recognition Challenge.

Challenge Awards

Won the 1th place in CVPR21 Masked Face Recognition Challenge (WebFace260M, InsightFace Unconstrained and InsightFace glint360k track)
Won the 1th place in CVPR20 ActivityNet Challenge (Kinetics700 track and AVA track)
Won the 1th place in NIST FRVT held by US government (1:1 Verification and 1:N Identification)
Won the 1th place in ICCV19 Multi-Moments in Time (MIT) Challenge
Won the 1th place in ICCV19 Lightweight Face Recognition Challenge

Technical Report

LongCat-Next: Lexicalizing Modalities as Discrete Tokens (机器之心)
Meituan LongCat Team (including Manyuan Zhang), et al.
LongCat-Flash Technical Report (机器之心, 量子位)
Meituan LongCat Team (including Manyuan Zhang), et al.
LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence (机器之心)
LMMs-Lab (including Manyuan Zhang), et al.
OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence
LMMs-Lab (including Manyuan Zhang), et al.
Large-scale Masked Face Recognition (Top-1 Solution)
Manyuan Zhang, Bingqi Ma, Guanglu Song, Yunxiao Wang, Hongsheng Li, Yu Liu
1st place solution for AVA-Kinetics Crossover in AcitivityNet Challenge 2020 (Top-1 Solution)
Siyu Chen, Junting Pan, Guanglu Song, Manyuan Zhang, Hao Shao, Ziyi Lin, Jing Shao, Hongsheng Li, Yu Liu
Top-1 Solution of Multi-Moments in Time Challenge 2019 (Top-1 Solution)
Manyuan Zhang, Hao Shao, Guanglu Song, Yu Liu, Junjie Yan

Preprint Papers

*equal contribution ⁺project lead/corresponding author

InterleaveThinker: Reinforcing Agentic Interleaved Generation
Dian Zheng, Harry Lee, Manyuan Zhang⁺, Kaituo Feng, Zoey Guo, Ray Zhang, Hongsheng Li
Uni-edit: Intelligent editing is a general task for unified model tuning
Dian Zheng, Manyuan Zhang⁺, Hongyu Li, Hongbo Liu, Kai Zou, Kaituo Feng, Hongsheng Li
UniClawBench: A Universal Benchmark for Proactive Agents on Real-World Tasks
Zhekai Chen, Chengqi Duan, Kaiyue Sun, Bohao Li, Yuqing Wang, Manyuan Zhang⁺, Xihui Liu
EditThinker: Unlocking Iterative Reasoning for Any Image Editor
Hongyu Li, Manyuan Zhang⁺, Dian Zheng, Ziyu Guo, Yimeng Jia, Kaituo Feng, Hao Yu, Yexin Liu, Yan Feng, Peng Pei, Xunliang Cai, Linjiang Huang, Hongsheng Li, Si Liu

Architecture Decoupling is Not All You Need for Unified Multimodal Model (机器之心)
Dian Zheng, Manyuan Zhang⁺, Hongyu Li, Kai Zou, Hongbo Liu, Ziyu Guo, Kaituo Feng, Yexin Liu, Ying Luo, Yan Feng, Peng Pei, Xunliang Cai, Hongsheng Li

MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data
Zhekai Chen, Yuqing Wang, Manyuan Zhang⁺, Xihui Liu

Gen-Searcher: Reinforcing Agentic Search for Image Generation (机器之心)
Kaituo Feng, Manyuan Zhang⁺, Shuang Chen, Yunlong Lin, Kaixuan Fan, Yilei Jiang, Hongyu Li, Dian Zheng, Chenyang Wang, Xiangyu Yue

Recent Publications

*equal contribution ⁺project lead/corresponding author

OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation
Yexin Liu, Manyuan Zhang⁺, Yueze Wang, Hongyu Li, Dian Zheng, Weiming Zhang, Changsheng Lu, Xunliang Cai, Yan Feng, Peng Pei, Harry Yang
2026 European Conference on Computer Vision (ECCV)

AutoWeather4D: Autonomous Driving Video Weather Conversion via G-Buffer Dual-Pass Editing
Tianyu Liu, Weitao Xiong, Kunming Luo, Manyuan Zhang, Peng Li, Yuan Liu, Ping Tan
2026 European Conference on Computer Vision (ECCV)

Exploring Reasoning Reward Model for Agents (机器之心)
Kaixuan Fan, Kaituo Feng, Manyuan Zhang⁺, Tianshuo Peng, Zhixun Li, Yilei Jiang, Shuang Chen, Peng Pei, Xunliang Cai, Xiangyu Yue⁺
2026 Annual Meeting of the Association for Computational Linguistics (ACL)

AdaTooler-V: Adaptive Tool-Use for Images and Videos (量子位)
Chaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue⁺
2026 Annual Meeting of the Association for Computational Linguistics (ACL)

Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation (量子位)
Ziyu Guo, Renrui Zhang⁺, Hongyu Li, Manyuan Zhang⁺, Xinyan Chen, Sifan Wang, Yan Feng, Peng Pei, Pheng-Ann Heng⁺
2026 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views (机器之心)
Zhangquan Chen, Manyuan Zhang⁺, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang⁺
2026 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

OneThinker: All-in-one Reasoning Model for Image and Video (量子位)
Kaituo Feng, Manyuan Zhang⁺, Hongyu Li, Kaixuan Fan, Shuang Chen, Yilei Jiang, Dian Zheng, Peiwen Sun, Yiyuan Zhang, Haoze Sun, Yan Feng, Peng Pei, Xunliang Cai, Xiangyu Yue⁺
2026 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-driven Images
Chengqi Duan, Kaiyue Sun, Rongyao Fang, Manyuan Zhang⁺, Yan Feng, Ying Luo, Yufang Liu, Ke Wang, Peng Pei, Xunliang Cai, Hongsheng Li, Yi Ma, Xihui Liu⁺
2026 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR Findings)

Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark (机器之心)
Ziyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng
2026 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR Findings)

IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction
Hao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu
2026 International Conference on Learning Representations (ICLR)

Ares: Multimodal Adaptive Reasoning via Difficulty-aware Token-level Entropy Shaping
Shuang Chen, Yue Guo, Yimeng Ye, Shijue Huang, Wenbo Hu, Haoxi Li, Manyuan Zhang, Jiayu Chen, Song Guo, Nanyun Peng
2026 International Conference on Learning Representations (ICLR)

AffIn-Space: Learning Affine-Invariant Representations for 3D Spatial Understanding with MLLMs
Zhenyu Lu, Liupeng Li, Jinpeng Wang, Haoqian Kang, Manyuan Zhang, Yan Feng, Ke Chen, Yaowei Wang
2026 International Conference on Machine Learning (ICML)

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence
Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun
2026 International Conference on Machine Learning (ICML) (Spotlight)

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention
Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen, Zhantao Yang, Xinlei Yu, Haodong Jing, Manyuan Zhang, Shuai Shao, Biao Wang, Qinglin Lu, Ruqi Huang
2026 International Conference on Machine Learning (ICML)

AlignVid: Taming Visual Dominance via Training-Free Attention Modulation in Text-guided Image-to-Video Generation
Yexin Liu, Wen-Jie Shu, Zile Huang, Haoze Zheng, Yueze Wang, Manyuan Zhang, Jinjing Zhu, Ser-Nam Lim, Harry Yang
2026 International Conference on Machine Learning (ICML)

CTR3D: Cross-view Token Reduction for Dense Multi-view Generation
Kunming Luo, Hongyu Yan, Yuan Liu, Zihao Zhang, Manyuan Zhang, Wenping Wang, Ping Tan
2026 International Conference on 3D Vision (3DV) (Best Paper Award Nomination)

LM-Searcher: Cross-domain Neural Architecture Search with LLMs via Unified Numerical Encoding
Yuxuan Hu, Jihao Liu, Ke Wang, Jinliang Zheng, Weikang Shi, Manyuan Zhang, Qi Dou, Rui Liu, Aojun Zhou, Hongsheng Li
2025 Conference on Empirical Methods in Natural Language Processing (EMNLP)

Lumina-image 2.0: A unified and efficient image generative framework
Qi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao
2025 International Conference on Computer Vision (ICCV)

Let's Verify and Reinforce Image Generation Step by Step (机器之心)
Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Ziyu Guo, Haoquan Zhang, Manyuan Zhang, Jiaming Liu, Peng Gao, Hongsheng Li
2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

Three Things We Need to Know About Transferring Stable Diffusion to Visual Dense Prediciton Tasks
Manyuan Zhang, Guanglu Song, Yu Liu, Hongsheng Li
2024 European Conference on Computer Vision (ECCV)

Deep Reward Supervisions for Tuning Text-to-Image Diffusion Models
Xiaoshi Wu, Yiming Hao, Manyuan Zhang, Keqiang Sun, Zhaoyang Huang, Guanglu Song, Yu Liu, and Hongsheng Li
2024 European Conference on Computer Vision (ECCV)

Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling
Xiaoyu Shi, Zhaoyang Huang, Fu-Yun Wang, Weikang Bian, Dasong Li, Yi Zhang, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Dai, Hongsheng Li 2024 ACM SIGGRAPH

Decoupled DETR: Spatially Disentangling Localization and Classification for Improved End-to-End Object Detection
Manyuan Zhang, Guanglu Song, Yu Liu, Hongsheng Li
2023 International Conference on Computer Vision (ICCV)

VideoFlow: Exploiting Temporal Cues for Multi-frame Optical Flow Estimation
Xiaoyu Shi, Zhaoyang Huang, Weikang Bian, Dasong Li, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Dai, Hongsheng Li
2023 International Conference on Computer Vision (ICCV)

FlowFormer: Masked Cost Volume Autoencoding for Pretraining Optical Flow Estimation
Xiaoyu Shi, Zhaoyang Huang, Dasong Li, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Dai, Hongsheng Li
2022 The IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR)
Towards Robust Face Recognition with Comprehensive Search
Manyuan Zhang, Guanglu Song, Yu Liu, Hongsheng Li
2022 European Conference on Computer Vision (ECCV)
Switchable K-class Hyperplanes for Noise-robust Representation Learning
Boxiao Liu, Guanglu Song, Manyuan Zhang, Haihang You, Yu Liu
2021 International Conference on Computer Vision (ICCV)
Discriminability Distillation in Group Representation Learning
Manyuan Zhang, Guanglu Song, Hang Zhou, Yu Liu
2020 European Conference on Computer Vision (ECCV)
Towards Flops-constrained Face Recognition
Yu Liu*, Guanglu Song*, Manyuan Zhang*, Jihao Liu*, Yucong Zhou, Junjie Yan
2019 ICCV Lightweight Face Recognition Challenge & Workshop
Tensor sensing for RF tomographic imaging
Tao Deng, Feng Qian, Xiao-Yang Liu, Manyuan Zhang, Anwar Walid
2018 IEEE International Conference on Multimedia and Expo (ICME)
Privacy-preserving sensory data recovery
Cai Chen, Manyuan Zhang, Huanzhi Zhang, Zhenyun Huang, Yong Li
2018 17th IEEE International Conference On Trust, Security And Privacy In Computing And Communications

Selected Projects

X-Xemporal
Easily implement SOTA video understanding methods with PyTorch on multiple machines and GPU.
DI-drive
Decision Intelligence Platform for Autonomous Driving simulation.

Working Experience

Research intern at SenseTime Research (since Feb 2019)
Working on large-scale face recognition and video understanding with Yu Liu and Guanglu Song
Research intern at Megvii Research (from Aug 2018 to Feb 2019)
Working on style transfer with Shuaicheng Liu.
Research intern at Bytedance AI Lab (from May 2018 to Aug 2018)
Working on large-scale face recognition