Yihe Deng's Personal Page

SOCIALS

</aside>

<aside> <img src="https://prod-files-secure.s3.us-west-2.amazonaws.com/27eb5805-53fb-4a73-8248-9cca33adce3c/46a01e87-8cf8-4ca8-98b3-f6bc18fbef39/linkedin_480px.png" alt="https://prod-files-secure.s3.us-west-2.amazonaws.com/27eb5805-53fb-4a73-8248-9cca33adce3c/46a01e87-8cf8-4ca8-98b3-f6bc18fbef39/linkedin_480px.png" width="40px" /> LinkedIn

</aside>

<aside> <img src="https://prod-files-secure.s3.us-west-2.amazonaws.com/27eb5805-53fb-4a73-8248-9cca33adce3c/f30304aa-3449-4968-94ed-4711f30b0b92/icons8-twitter-48.png" alt="https://prod-files-secure.s3.us-west-2.amazonaws.com/27eb5805-53fb-4a73-8248-9cca33adce3c/f30304aa-3449-4968-94ed-4711f30b0b92/icons8-twitter-48.png" width="40px" /> Twitter

</aside>

I also maintain most of my study notes on LLM here.

$$ \Large \textbf {About Me} \\ $$

I did my Ph.D. studies at Department of Computer Science, UCLA, where I am very fortunate to be advised by Prof. Wei Wang.

Earlier, I completed research internships at **Google DeepMind,** **Google,** Microsoft Research and Amazon AWS, and I’m honored to receive the 2025 Amazon Fellowship.

I earned both my B.S. in Mathematics and M.S. in Computer Science from UCLA. During that time, I’ve been an student researcher at UCLA-NLP group with Prof. Kai-Wei Chang.

My research interests revolves around post-training strategies for Large Language Models (LLMs), particularly focusing on RL(VR), synthetic data generation, and self-improving LLMs. Most recently, I work on multi-modal and agentic reasoning.

Quick links:

My Blogs / Notes

My Talks / Presentations

PROFESSIONAL EXPERIENCE

2025

Member of Technical Staff | xAI

LLM Post-training

2025

Student Researcher | Google DeepMind

Synthetic Data for LLM Post-training

2025

Student Researcher | Google LLC

RL for LLM Agentic Reasoning

Project 1: Ultra-fast Exploration for Scalable Agentic Reasoner [Internal Contribution to Google LLMs]

Project 2: to be released.

2024

Research Intern | Microsoft Research

LLM Self-Training for Math Reasoning.

Paper: Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning

[NeurIPS 2024 Math-AI Workshop] [Media]

2023

Applied Scientist Intern | Amazon AWS

Large Language Model Reasoning with Knowledge Graphs.

PAPERS (See full list in my Google Scholar) *Equal Contribution

Multi-modal LLMs

<aside> 📄

OpenVLThinker: An Early Exploration to Vision-Language Reasoning via Iterative Self-Improvement. [NeurIPS 25’] Yihe Deng, Hritik Bansal, Fan Yin, Nanyun Peng, Wei Wang, Kai-Wei Chang

</aside>

<aside> 📄

Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance. [ICML 25’ Spotlight (top 2.6%)] Linxi Zhao*, Yihe Deng*, Weitong Zhang, Quanquan Gu

</aside>

<aside> 📄

Enhancing Large Vision Language Models with Self-Training on Image Comprehension. [NeurIPS 24’] Yihe Deng*, Pan Lu*, Fan Yin, Ziniu Hu, Sheng Shen, James Zou, Kai-Wei Chang, Wei Wang

</aside>

<aside> 📄

Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP. [ICLR 24’] Zixiang Chen*, Yihe Deng*, Yuanzhi Li, and Quanquan Gu </aside>

Synthetic Data for LLM Improvement

<aside> 📄

DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails. Yihe Deng*, Yu Yang*, Junkai Zhang*, Wei Wang, Bo Li

</aside>

<aside> 📄

More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment. [COLM 25’] Yifan Wang, Runjin Chen, Bolian Li, David Cho, Yihe Deng, Ruqi Zhang, Tianlong Chen, Zhangyang Wang, Ananth Grama, Junyuan Hong </aside>

<aside> 📄

Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning. [NeurIPS 24’ MATH-AI Workshop] Yihe Deng, Paul Mineiro

</aside>

<aside> 📄

Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models. [ICML 24’] Zixiang Chen*, Yihe Deng*, Huizhuo Yuan*, Kaixuan Ji, Quanquan Gu

</aside>