Qizhi Pei (裴启智 in Chinese) is currently a fourth year Ph.D. student at Gaoling School of Artificial Intelligence (GSAI) in Renmin University of China (RUC) (expected to graduate in 2027), supervised by Prof. Rui Yan. He got the B.S. degree from School of Computer Science and Technology, University of Science and Technology of China (USTC) in 2022. He currently is an intern of OpenDataLab in Shanghai Artificial Intelligent Laboratory, mentored by Dr. Lijun Wu. He is the core contributor of OpenDataArena. His researches focus on

LLM for Science:
- Multimodal biomolecular foundation models (BioT5, BioT5+, 3D-MolT5, NatureLM)
- Biomolecule interaction prediction (FABind, FABind+, kNN-DTA, SSM-DTA) and Retrosynthesis ($R^3$)
LLMs:
- The first Arena for post-training data value benchmarking OpenDataArena
- Mathematical reasoning & Data synthesis & Model evolution (MathFusion, Caco, ScaleDiff REST, Data Pollination)

🔥 News

2026.04: Five papers are accepted by ACL 2026. Thanks for all collaborators!
2025.12: The technical report of OpenDataArena is released!
2025.12: We have updated our Survey about Biomolecule-Language multi-modal learning!
2025.09: ScaleDiff is made public.
2025.09: Caco is accepted by NeurIPS 2025. Congrats to Honglin!
2025.08: MetaLadder and Middo is accepted by EMNLP 2025. Congrats to Honglin and Zinan!
2025.08: We release OpenDataArena – a fair, open, and transparent arena for data.
2025.07: REST is made public. See project page for more information.
2025.05: MathFusion is accepted by ACL 2025 (main). Thanks for all collaborators!

📝 AI4Science

EMNLP 2023: BioT5: Enriching Cross-modal Integration in Biology with Chemical Knowledge and Natural Language Associations, Qizhi Pei, Wei Zhang, Jinhua Zhu, Kehan Wu, Kaiyuan Gao, Lijun Wu, Yingce Xia, Rui Yan, | | (>30W downloads)
ACL 2024: BioT5+: Towards Generalized Biological Understanding with IUPAC Integration and Multi-task Tuning, Qizhi Pei, Lijun Wu, Kaiyuan Gao, Xiaozhuan Liang, Yin Fang, Jinhua Zhu, Shufang Xie, Tao Qin, Rui Yan | |
ICLR 2025: 3D-MolT5: Leveraging Discrete Structural Information for Molecule-Text Modeling, Qizhi Pei, Lijun Wu, Kaiyuan Gao, Jinhua Zhu, Rui Yan | |
NeurIPS 2023: FABind: Fast and Accurate Protein-Ligand Binding, Qizhi Pei, Kaiyuan Gao, Lijun Wu, Jinhua Zhu, Yingce Xia, Shufang Xie, Tao Qin, Kun He, Tie-Yan Liu, Rui Yan | Project Page | |
KDD 2025: FABind+: Enhancing Molecular Docking through Improved Pocket Prediction and Pose Generation
Kaiyuan Gao, Qizhi Pei, Jinhua Zhu, Tao Qin, Kun He, Lijun Wu |
ACL 2026: $R^3$: End-to-End Reasoning-based Planning for Multi-step Retrosynthesis via Reinforcement Learning, Yifei Wang, Qizhi Pei (co-first author), Jiangtao Feng, Yuntian Shi, Yi Duan, Lihao Wang, Lei Bai, Lijun Wu, Wei-Ying Ma, Hao Zhou
Language + Molecules @ ACL 2024 Workshop (Oral): Enhanced BioT5+ for Molecule-Text Translation: A Three-Stage Approach with Data Distillation, Diverse Training, and Voting Ensemble, Qizhi Pei, Lijun Wu, Kaiyuan Gao, Jinhua Zhu, Rui Yan
1. 🥇 1st Place in the Text-based Molecule Generation Track.
2. 🥈 2nd Place in the Molecular Captioning Track.
Technical Report: Nature Language Model: Deciphering the Language of Nature for Scientific Discovery | Project | |
CIKM 2024: Exploiting Pre-trained Models for Drug Target Affinity Prediction with Nearest Neighbors, Qizhi Pei, Lijun Wu, Zhenyu He, Jinhua Zhu, Yingce Xia, Shufang Xie, Rui Yan
Briefings in Bioinformatics 2023: SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity Prediction, Qizhi Pei, Lijun Wu, Jinhua Zhu, Yingce Xia, Shufang Xie, Tao Qin, Haiguang Liu, Tie-Yan Liu, Rui Yan |
KDD-2026 Tokenizing 3D Molecule Structure with Quantized Spherical Coordinates, Kaiyuan Gao, Yusong Wang, Haoxiang Guan, Zun Wang, Qizhi Pei, John E. Hopcroft, Kun He, and Lijun Wu |
Nature Communications 2024: TamGen: drug design with target-aware molecule generation through a chemical language model, Kehan Wu, Yingce Xia, Pan Deng, Renhe Liu, Yuan Zhang, Han Guo, Yumeng Cui, Qizhi Pei, … , Tao Qin, Tie-Yan Liu |
Preprint (Survey): Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey, Qizhi Pei, Lijun Wu, Kaiyuan Gao, Jinhua Zhu, Yue Wang, Zun Wang, Tao Qin, Rui Yan |

📝 Large Language Models

Technical Report: OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value | Project |
Technical Report: Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale | |
ACL 2025: MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion, Qizhi Pei, Lijun Wu, Zhuoshi Pan, Yu Li, Honglin Lin, Chenlin Ming, Xin Gao, Conghui He, Rui Yan | |
NeurIPS 2025: Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning, Honglin Lin, Qizhi Pei (co-first author), Xin Gao, Zhuoshi Pan, Yu Li, Juntao Li, Conghui He, Lijun Wu | |
ACL 2026: Data Pollination: An Emergent Ecological Process Driving AI Population Evolution, Shufang Xie, Qizhi Pei (co-first author), Ang Lv, Jingyang Hu, Lijun Wu, Rui Yan
ACL 2026: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once, Zhuoshi Pan, Qizhi Pei (co-first author), Yu Li, Qiyao Sun, Zinan Tang, H. Vicky Zhao, Conghui He, Lijun Wu | Project |
ACL 2025: A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis, Xin Gao, Qizhi Pei, Zinan Tang, Yu Li, Honglin Lin, Jiang Wu, Lijun Wu, Conghui He |
ACL 2025: CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges, Yu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu |
ACL 2025: LEMMA: Learning from Errors for MatheMatical Advancement in LLMs, Zhuoshi Pan, Yu Li, Honglin Lin, Qizhi Pei, Zinan Tang, Wei Wu, Chenlin Ming, H. Vicky Zhao, Conghui He, Lijun Wu | |
EMNLP 2025: Middo: Model-Informed Dynamic Data Optimization for Enhanced LLM Fine-Tuning via Closed-Loop Learning, Zinan Tang, Xin Gao, Qizhi Pei, Zhuoshi Pan, Mengzhang Cai, Jiang Wu, Conghui He, Lijun Wu
EMNLP 2025: MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer, Honglin Lin, Zhuoshi Pan, Yu Li, Qizhi Pei, Xin Gao, Mengzhang Cai, Conghui He, Lijun Wu | Project |
ICLR 2026: IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment, Chenlin Ming, Chendi Qu, Mengzhang Cai, Qizhi Pei, Zhuoshi Pan, Yu Li, Xiaoming Duan, Lijun Wu, Conghui He
ACL 2026: Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs, Yu Li, Xiaoran Shang, Qizhi Pei, Yun Zhu, Xin Gao, Honglin Lin, Zhanping Zhong, Zhuoshi Pan, Zheng Liu, Xiaoyang Wang, Conghui He, Dahua Lin, Feng Zhao, Lijun Wu | Project
ACL 2026: ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch, Zheng Liu, Honglin Lin, Chonghan Qin, Xiaoyang Wang, Xin Gao, Yu Li, Mengzhang Cai, Yun Zhu, Zhanping Zhong, Qizhi Pei, Zhuoshi Pan, Xiaoran Shang, Bin Cui, Conghui He, Wentao Zhang, Lijun Wu | Project | |
Preprint: ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning, Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu | |
Preprint: Examining User-Friendly and Open-Sourced Large GPT Models: A Survey on Language, Multimodal, and Scientific GPT Models, Kaiyuan Gao, Sunan He, Zhenyu He, Jiacheng Lin, Qizhi Pei, Jie Shao, Wei Zhang |

🏆 Competitions

Language + Molecules @ ACL 2024:
1. 🥇 1st Place in the Text-based Molecule Generation Track.
2. 🥈 2nd Place in the Molecular Captioning Track.
3. 🎤 Oral presentation: Enhanced BioT5+ for Molecule-Text Translation: A Three-Stage Approach with Data Distillation, Diverse Training, and Voting Ensemble, Qizhi Pei, Lijun Wu, Kaiyuan Gao, Jinhua Zhu, Rui Yan.
CURE-Bench @ NeurIPS 2025: 2nd prize (3rd place among 76 teams) in Internal Reasoning Track.
OGB-LSC @ NeurIPS 2022: 7th place (PhiNeurons team) in PCQM4Mv2 leaderboard.

🎖 Honors and Awards

2025, National Scholarship for Doctoral Students (Top 1%).
2023~2026, Doctoral Scholarship for Elite Innovative Talents of RUC (Top 10%).
2022, Excellent Graduation Thesis, USTC.
2022, Outstanding Undergraduate Awards, USTC.
2018~2021, Outstanding Student Scholarship, USTC.

💬 Academic Service

Reviewer: NeurIPS, ARR, KDD, ICLR

📖 Educations

2022.09 - 2027.06 (expected), Ph.D. student in the Gaoling School of Artificial Intelligence, Renmin University of China.
2018.09 - 2022.06, undergraduate student in the School of Computer Science and Technology, University of Science and Technology of China.

💻 Internships

2024.08 - now, OpenDataLab, Shanghai Artificial Intelligent Laboratory, Beijing, China
2023.07 - 2024.06, Microsoft Research AI4Science, Beijing, China.
2021.07 - 2023.01, Microsoft Research Asia, Beijing, China.