about

I am a Research Scientist working on reinforcement learning at NVIDIA. I completed my HBSc at the University of Toronto studying computer science, evolutionary and human biology. During my undergraduate studies, I was fortunate to work with Marzyeh Ghassemi and Sheldon Huang on unsupervised out-of-distribution detection.

My research interests revolve around RL for LLMs, ranging from systems to algorithms. I am involved in post-training of Nemotron models and was the core developer of NeMo-Aligner.

Research

NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment

Shen, Gerald, Wang, Zhilin, Delalleau, Olivier, Zeng, Jiaqi, Dong, Yi, Egert, Daniel, Sun, Shengyang, Zhang, Jimmy J., Jain, Sahil, Taghibakhshi, Ali, Ausin, Markel Sanz, Aithal, Ashwath, and Kuchaiev, Oleksii

In First Conference on Language Modeling 2024
HelpSteer 2: Open-source dataset for training top-performing reward models

Wang, Zhilin, Dong, Yi, Delalleau, Olivier, Zeng, Jiaqi, Shen, Gerald, Egert, Daniel, Zhang, Jimmy J., Sreedhar, Makesh Narsimhan, and Kuchaiev, Oleksii

In Advances in Neural Information Processing Systems 2024
Llama-Nemotron: Efficient Reasoning Models

Singhal, Soumye, Zeng, Jiaqi, Bukharin, Alexander, Zhang, Yian, Shen, Gerald, Mahabaleshwarkar, Ameya Sunil, Kartal, Bilal, Suhara, Yoshi, Bercovich, Akhiad, Levy, Itay, Golan, Izik, Dabbah, Mohammed, El-Yaniv, Ran, Majumdar, Somshubra, Gitman, Igor, Bakhturina, Evelina, Zhang, Jimmy J., Su, Bor-Yiing, Huang, Guyue, Putterman, Izzy, Patwary, Mostofa, Olabiyi, Oluwatobi, Delalleau, Olivier, Catanzaro, Bryan, Ginsburg, Boris, Kuchaiev, Oleksii, and Konuk, Tugrul

In The Exploration in AI Today Workshop at ICML 2025 2025