Junwei Liao

Junwei (Jaden) Liao
jwliao dot ai at {gmail dot com, sjtu dot edu dot cn}

I just graduated with a degree of B.E. in Artificial Intelligence from Xi'an Jiaotong University and was once a visiting student at University of California, Berkeley 2023 Fall. I am now doing RA at Shanghai Jiao Tong University and will start my PhD in Fall 2025 here, under the supervision of Weinan Zhang.

I am interested in Multi-Agent Reinforcement Fine-Tuning, Reinforcement Learning, Large Decision Models, specifically LLM-based Agents and unleashing the full potential of Agents through RL and other advanced techniques.

Email / Google Scholar / GitHub / LinkedIn

News

MARFT has been initially supported in siiRL, which is a novel, fully distributed reinforcement learning (RL) framework designed to break the scaling barriers in LLM post-training.

Education

Sep. 2021 ~ Jun. 2025: B.E. in Artificial Intelligence at Xi'an Jiaotong University.
Aug. 2023 ~ Dec. 2023: Visiting Student at University of California, Berkeley.

Research Experience

May. 2024 ~ Present: RA at Shanghai Jiao Tong University, advised by Weinan Zhang.

Focus on Multi-Agent Reinforcement Fine-Tuning, Deep Reinforcement Learning, Large Decision/Action Models and Agent Technology.

Sep. 2023 ~ Mar. 2024: RA at Tsinghua University, advised by Ju Ren.

Focus on Deep Reinforcement Learning and RLHF/RLAIF.

Publications

Robust Function-Calling for On-Device Language Model via Function Masking
Qiqiang Lin*, Muning Wen*, Qiuying Peng*, Guanyu Nie, Junwei Liao, Jun Wang, Xiaoyun Mo, Jiamu Zhou, Cheng Cheng, Yin Zhao, Jun Wang, Weinan Zhang
The Thirteenth International Conference on Learning Representations (ICLR), 2025 (Spotlight)
OpenReview / arXiv / code / html / dataset and models

Preprints

A Survey of AI Agent Protocols
Yingxuan Yang, Huacan Chai, Yuanyi Song, Siyuan Qi, Muning Wen, Ning Li, Junwei Liao, Haoyi Hu, Jianghao Lin, Gaowei Chang, Weiwen Liu, Ying Wen, Yong Yu, Weinan Zhang
arXiv

MARFT: Multi-Agent Reinforcement Fine-Tuning
Junwei Liao, Muning Wen, Jun Wang, Weinan Zhang
arXiv / code

Agentic IR: Agentic Information Retrieval
Weinan Zhang, Junwei Liao, Ning Li, Kounianhua Du, Jianghao Lin
arXiv / html

Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement
Muning Wen*, Junwei Liao*, Cheng Deng, Jun Wang, Weinan Zhang, Ying Wen
arXiv / code / html

Last Updated: Jul. 22, 2025

This guy makes a nice webpage.