Publications

You can also find my articles on my Google Scholar profile.

Conference Papers

Scalable Exploration via Ensemble++

Published in NeurIPS, 2025

Yingru Li*, Jiawei Xu*, Baoxiang Wang, Zhi-Quan Luo.

Paper | Code

ADG: Ambient Diffusion-Guided Dataset Recovery for Corruption-Robust Offline Reinforcement Learning

Published in NeurIPS, 2025

Zeyuan Liu*, Zhihe Yang*, Jiawei Xu*, Rui Yang, Jiafei Lyu, Baoxiang Wang, Yunjian Xu, Xiu Li.

Paper

Tackling Data Corruption in Offline Reinforcement Learning via Sequence Modeling

Published in ICLR, 2025

Jiawei Xu*, Rui Yang*, Shuang Qiu, Feng Luo, Meng Fang, Baoxiang Wang, Lei Han.

Paper | Code

Q-Star Meets Scalable Posterior Sampling: Bridging Theory and Practice via HyperAgent

Published in ICML, 2024

Yingru Li*, Jiawei Xu*, Lei Han, ZhiQuan Luo.

Paper | Code

Towards Robust Offline Reinforcement Learning under Diverse Data Corruption

Published in ICLR, 2024

Rui Yang*, Han Zhong*, Jiawei Xu*, Amy Zhang, Chongjie Zhang, Lei Han, Tong Zhang.

Paper | Code

Relative Policy-Transition Optimization for Fast Policy Transfer

Published in AAAI, 2024

Jiawei Xu*, Cheng Zhou, Yizheng Zhang, Baoxiang Wang, Lei Han*.

Paper | Code

MeGraph: Capturing Long-Range Interactions by Alternating Local and Hierarchical Aggregation on Multi-Scaled Graph Hierarchy

Published in NeurIPS, 2023

Honghua Dong*, Jiawei Xu*, Yu Yang*, Rui Zhao, Shiwen Wu, Chun Yuan, Xiu Li, Chris J Maddison, Lei Han.

Paper | Code

Journal Articles

Efficient Multi-Goal Reinforcement Learning via Value Consistency Prioritization

Published in Journal of Artificial Intelligence Research, 2023

Jiawei Xu*, Shuxing Li*, Rui Yang, Chun Yuan, Lei Han.

Paper | Code

The Fittest Wins: A Multistage Framework Achieving New SOTA in ViZDoom Competition

Published in IEEE Transactions on Games, 2023

Shuxing Li*, Jiawei Xu*, Honghua Dong, Yu Yang, Chun Yuan, Peng Sun, Lei Han.

Paper

Preprint Papers

The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL

Arxiv, 2026

Yingru Li*, Jiawei Xu*, Ziniu Li*, Jiacai Liu, Wei Liu, Yuxuan Tong, Longtao Zheng, Zhenghai Xue, Yaxiang Zhang, Tianle Cai, Ge Zhang, Qian Liu, Baoxiang Wang.

Paper

Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

Arxiv, 2026

Wei Liu, Jiawei Xu, Yingru Li, Longtao Zheng, Tianjian Li, Qian Liu, Junxian He.

Paper

Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It

Arxiv, 2026

Yaxiang Zhang, Yingru Li, Jiacai Liu, Jiawei Xu, Ziniu Li, Qian Liu, Haoyuan Li.

Paper

Dynamic Vocabulary Pruning: Stable LLM-RL by Taming the Tail

Arxiv, 2025

Yingru Li, Jiawei Xu, Jiacai Liu, Yuxuan Tong, Ziniu Li, Tianle Cai, Ge Zhang, Qian Liu, Baoxiang Wang.

Paper

Trust Region Masking for Long-Horizon LLM Reinforcement Learning

Arxiv, 2025

Yingru Li*, Jiacai Liu*, Jiawei Xu*, Yuxuan Tong, Ziniu Li, Qian Liu, Baoxiang Wang.

Paper

TAIROS: An Embodied AI Platform for Robotics Applications

Arxiv, 2025

Paper

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Arxiv, 2025

Paper | Code

TLeague: A Framework for Competitive Self-Play based Distributed Multi-Agent Reinforcement Learning

Arxiv, 2020

Peng Sun, Jiechao Xiong, Lei Han, Xinghai Sun, Shuxing Li, Jiawei Xu, Meng Fang, Zhengyou Zhang.

Paper | Code

Blog Posts

The Optimal Token Baseline

Published in , 2025

Link

Beyond Precision: Why Training-Inference Mismatch is an Optimization Problem and How Simple LR Scheduling Fixes It

Published in , 2025

Link

Patents

目标对象控制方法和装置,计算设备,存储介质

CN202210908448.8, 2022

徐家卫，李舒兴，袁春，韩磊.

决策模型训练方法,目标对象的策略控制方法及装置

CN202210908501.4, 2022

李舒兴，徐家卫，袁春，韩磊.