Prompt Engineer

All authors

Policy Improvement using Language Policy Improvement using Language Feedback Models (AI summary)

Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté

• April 7th, 2024

Scaling Laws for Fine-Grained Mixture of Experts (AI summary)

Jakub Krajewski, Jan Ludziejewski, Kamil Adamczewski, Maciej Pióro, Michał Krutul, Szymon Antoniak, Kamil Ciebiera, Krystian Król, Tomasz Odrzygóźdź, Piotr Sankowski, Marek Cygan, Sebastian Jaszczur

• April 6th, 2024

Read more

Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping (AI summary)

Haoyu Wang, Guozheng Ma, Ziqiao Meng, Zeyu Qin, Li Shen, Zhong Zhang, Bingzhe Wu, Liu Liu, Yatao Bian, Tingyang Xu, Xueqian Wang, Peilin Zhao

• April 6th, 2024

Read more

ODIN: Disentangled Reward Mitigates Hacking in RLHF (AI summary)

Lichang Chen, Chen Zhu, Davit Soselia, Jiuhai Chen, Tianyi Zhou, Tom Goldstein, Heng Huang, Mohammad Shoeybi, Bryan Catanzaro

• April 5th, 2024

Read more

Direct Language Model Alignment from Direct Language Model Alignment from Online AI Feedback (AI summary)

Shangmin Guo, Biao Zhang, Tianlin Liu, Tianqi Liu, Misha Khalman, Felipe Llinares, Alexandre Rame, Thomas Mesnard, Yao Zhao, Bilal Piot, Johan Ferret, Mathieu Blondel

• April 5th, 2024

Read more

Scaling Laws for Downstream Task Performance of Large Language Models (AI summary)

Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii, Sanmi Koyejo

• April 4th, 2024

Read more

MOMENT: A Family of Open Time-series Foundation Models (AI summary)

Mononito Goswami, Konrad Szafer, Arjun Choudhry, Yifu Cai, Shuo Li, Artur Dubrawski

• April 4th, 2024

Read more

MobileVLM V2: Faster and Stronger Baseline for Vision Language Model (AI summary)

Xiangxiang Chu, Limeng Qiao, Xinyu Zhang, Shuang Xu, Fei Wei, Yang Yang, Xiaofei Sun, Yiming Hu, Xinyang Lin, Bo Zhang, Chunhua Shen

• April 3rd, 2024

Read more

Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models (AI summary)

Jianyuan Guo, Hanting Chen, Chengcheng Wang, Kai Han, Chang Xu, Yunhe Wang

• April 3rd, 2024

Read more

LiPO: Listwise Preference Optimization through Learning-to-Rank (AI summary)

Tianqi Liu, Zhen Qin, Junru Wu, Jiaming Shen, Misha Khalman, Rishabh Joshi, Yao Zhao, Mohammad Saleh, Simon Baumgartner, Jialu Liu, Peter J. Liu, Xuanhui Wang

• April 2nd, 2024

Read more

31/55

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55

ML and AI papers

Prompt Engineer

Policy Improvement using Language Policy Improvement using Language Feedback Models (AI summary)

Scaling Laws for Fine-Grained Mixture of Experts (AI summary)

Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping (AI summary)

ODIN: Disentangled Reward Mitigates Hacking in RLHF (AI summary)

Direct Language Model Alignment from Direct Language Model Alignment from Online AI Feedback (AI summary)

Scaling Laws for Downstream Task Performance of Large Language Models (AI summary)

MOMENT: A Family of Open Time-series Foundation Models (AI summary)

MobileVLM V2: Faster and Stronger Baseline for Vision Language Model (AI summary)

Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models (AI summary)

LiPO: Listwise Preference Optimization through Learning-to-Rank (AI summary)