Sitemap

A list of all the posts and pages found on the site. For you robots out there, there is an XML version available for digesting as well.

Posts

Future Blog Post

less than 1 minute read

Published: January 01, 2199

This post will show up by default. To disable scheduling of future posts, edit config.yml and set future: false.

Blog Post number 4

less than 1 minute read

Published: August 14, 2015

This is a sample blog post. Lorem ipsum I can’t remember the rest of lorem ipsum and don’t have an internet connection right now. Testing testing testing this blog post. Blog posts are cool.

Blog Post number 3

less than 1 minute read

Published: August 14, 2014

This is a sample blog post. Lorem ipsum I can’t remember the rest of lorem ipsum and don’t have an internet connection right now. Testing testing testing this blog post. Blog posts are cool.

Blog Post number 2

less than 1 minute read

Published: August 14, 2013

This is a sample blog post. Lorem ipsum I can’t remember the rest of lorem ipsum and don’t have an internet connection right now. Testing testing testing this blog post. Blog posts are cool.

Blog Post number 1

less than 1 minute read

Published: August 14, 2012

This is a sample blog post. Lorem ipsum I can’t remember the rest of lorem ipsum and don’t have an internet connection right now. Testing testing testing this blog post. Blog posts are cool.

portfolio

Portfolio item number 1

Short description of portfolio item number 1

Portfolio item number 2

Short description of portfolio item number 2

publications

TLeague: A Framework for Competitive Self-Play based Distributed Multi-Agent Reinforcement Learning

Arxiv, 2020

Peng Sun, Jiechao Xiong, Lei Han, Xinghai Sun, Shuxing Li, Jiawei Xu, Meng Fang, Zhengyou Zhang.

Paper | Code

决策模型训练方法,目标对象的策略控制方法及装置

CN202210908501.4, 2022

李舒兴，徐家卫，袁春，韩磊.

目标对象控制方法和装置,计算设备,存储介质

CN202210908448.8, 2022

徐家卫，李舒兴，袁春，韩磊.

The Fittest Wins: A Multistage Framework Achieving New SOTA in ViZDoom Competition

Published in IEEE Transactions on Games, 2023

Shuxing Li*, Jiawei Xu*, Honghua Dong, Yu Yang, Chun Yuan, Peng Sun, Lei Han.

Paper

Efficient Multi-Goal Reinforcement Learning via Value Consistency Prioritization

Published in Journal of Artificial Intelligence Research, 2023

Jiawei Xu*, Shuxing Li*, Rui Yang, Chun Yuan, Lei Han.

Paper | Code

MeGraph: Capturing Long-Range Interactions by Alternating Local and Hierarchical Aggregation on Multi-Scaled Graph Hierarchy

Published in NeurIPS, 2023

Honghua Dong*, Jiawei Xu*, Yu Yang*, Rui Zhao, Shiwen Wu, Chun Yuan, Xiu Li, Chris J Maddison, Lei Han.

Paper | Code

Relative Policy-Transition Optimization for Fast Policy Transfer

Published in AAAI, 2024

Jiawei Xu*, Cheng Zhou, Yizheng Zhang, Baoxiang Wang, Lei Han*.

Paper | Code

Towards Robust Offline Reinforcement Learning under Diverse Data Corruption

Published in ICLR, 2024

Rui Yang*, Han Zhong*, Jiawei Xu*, Amy Zhang, Chongjie Zhang, Lei Han, Tong Zhang.

Paper | Code

Q-Star Meets Scalable Posterior Sampling: Bridging Theory and Practice via HyperAgent

Published in ICML, 2024

Yingru Li*, Jiawei Xu*, Lei Han, ZhiQuan Luo.

Paper | Code

Tackling Data Corruption in Offline Reinforcement Learning via Sequence Modeling

Published in ICLR, 2025

Jiawei Xu*, Rui Yang*, Shuang Qiu, Feng Luo, Meng Fang, Baoxiang Wang, Lei Han.

Paper | Code

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Arxiv, 2025

Paper | Code

ADG: Ambient Diffusion-Guided Dataset Recovery for Corruption-Robust Offline Reinforcement Learning

Published in NeurIPS, 2025

Zeyuan Liu*, Zhihe Yang*, Jiawei Xu*, Rui Yang, Jiafei Lyu, Baoxiang Wang, Yunjian Xu, Xiu Li.

Paper

Scalable Exploration via Ensemble++

Published in NeurIPS, 2025

Yingru Li*, Jiawei Xu*, Baoxiang Wang, Zhi-Quan Luo.

Paper | Code

TAIROS: An Embodied AI Platform for Robotics Applications

Arxiv, 2025

Paper

Beyond Precision: Why Training-Inference Mismatch is an Optimization Problem and How Simple LR Scheduling Fixes It

Published in , 2025

Link

Trust Region Masking for Long-Horizon LLM Reinforcement Learning

Arxiv, 2025

Yingru Li*, Jiacai Liu*, Jiawei Xu*, Yuxuan Tong, Ziniu Li, Qian Liu, Baoxiang Wang.

Paper

The Optimal Token Baseline

Published in , 2025

Link

Dynamic Vocabulary Pruning: Stable LLM-RL by Taming the Tail

Arxiv, 2025

Yingru Li, Jiawei Xu, Jiacai Liu, Yuxuan Tong, Ziniu Li, Tianle Cai, Ge Zhang, Qian Liu, Baoxiang Wang.

Paper

Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It

Arxiv, 2026

Yaxiang Zhang, Yingru Li, Jiacai Liu, Jiawei Xu, Ziniu Li, Qian Liu, Haoyuan Li.

Paper

Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

Arxiv, 2026

Wei Liu, Jiawei Xu, Yingru Li, Longtao Zheng, Tianjian Li, Qian Liu, Junxian He.

Paper

The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL

Arxiv, 2026

Yingru Li*, Jiawei Xu*, Ziniu Li*, Jiacai Liu, Wei Liu, Yuxuan Tong, Longtao Zheng, Zhenghai Xue, Yaxiang Zhang, Tianle Cai, Ge Zhang, Qian Liu, Baoxiang Wang.

Paper

teaching

Teaching Assistant for Discrete Mathematics, 23Fall

Undergraduate course, CSC3001, CUHK(SZ), 2023

Teaching Assistant for Machine Learning, 24Spring

Undergraduate course, DDA3020, CUHK(SZ), 2024

Teaching Assistant for Discrete Mathematics, 24Fall

Undergraduate course, CSC3001, CUHK(SZ), 2024

Teaching Assistant for Linear Algebra and Applications, 25Spring

Undergraduate course, MAT2041, CUHK(SZ), 2025

Jiawei Xu

Sitemap

Pages

Posts

portfolio

publications

TLeague: A Framework for Competitive Self-Play based Distributed Multi-Agent Reinforcement Learning

决策模型训练方法,目标对象的策略控制方法及装置

目标对象控制方法和装置,计算设备,存储介质

The Fittest Wins: A Multistage Framework Achieving New SOTA in ViZDoom Competition

Efficient Multi-Goal Reinforcement Learning via Value Consistency Prioritization

MeGraph: Capturing Long-Range Interactions by Alternating Local and Hierarchical Aggregation on Multi-Scaled Graph Hierarchy

Relative Policy-Transition Optimization for Fast Policy Transfer

Towards Robust Offline Reinforcement Learning under Diverse Data Corruption

Q-Star Meets Scalable Posterior Sampling: Bridging Theory and Practice via HyperAgent

Tackling Data Corruption in Offline Reinforcement Learning via Sequence Modeling

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

ADG: Ambient Diffusion-Guided Dataset Recovery for Corruption-Robust Offline Reinforcement Learning

Scalable Exploration via Ensemble++

TAIROS: An Embodied AI Platform for Robotics Applications

Beyond Precision: Why Training-Inference Mismatch is an Optimization Problem and How Simple LR Scheduling Fixes It

Trust Region Masking for Long-Horizon LLM Reinforcement Learning

The Optimal Token Baseline

Dynamic Vocabulary Pruning: Stable LLM-RL by Taming the Tail

Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It

Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL

talks

teaching

Teaching Assistant for Discrete Mathematics, 23Fall

Teaching Assistant for Machine Learning, 24Spring

Teaching Assistant for Discrete Mathematics, 24Fall

Teaching Assistant for Linear Algebra and Applications, 25Spring