A benchmark of expert-level academic questions to assess AI capabilities

Phan, L.; Gatti, A.; Li, N.; Khoja, A.; Kim, R.; Ren, R.; Hausenloy, J.; Zhang, O.; Mazeika, M.; Hendrycks, D.; Han, Z.; Hu, J.; Zhang, H.; Zhang, C. B. C.; Shaaban, M.; Ling, J.; Shi, S.; Choi, M.; Agrawal, A.; Chopra, A.; Nattanmai, A.; Mckellips, G.; Cheraku, A.; Suhail, A.; Luo, E.; Deng, M.; Luo, J.; Zhang, A.; Jindel, K.; Paek, J.; Halevy, K.; Baranov, A.; Liu, M.; Avadhanam, A.; Zhang, D.; Cheng, V.; Ma, B.; Fu, E.; Do, L.; Lass, J.; Yang, H.; Sunkari, S.; Bharath, V.; Ai, V.; Leung, J.; Agrawal, R.; Zhou, A.; Chen, K.; Kalpathi, T.; Xu, Z.; Wang, G.; Xiao, T.; Maung, E.; Lee, S.; Yang, R.; Yue, R.; Zhao, B.; Yoon, J.; Sun, X.; Singh, A.; Peng, C.; Osbey, T.; Wang, T.; Echeazu, D.; Wu, T.; Patel, S.; Kulkarni, V.; Sundarapandiyan, V.; Le, A.; Nasim, Z.; Yalam, S.; Kasamsetty, R.; Samal, S.; Sun, D.; Shah, N.; Saha, A.; Zhang, A.; Nguyen, L.; Nagumalli, L.; Wang, K.; Wu, A.; Telluri, A.; Yue, S.; Wang, A.; Dodonov, D.; Nguyen, T.; Lee, J.; Anderson, D.; Doroshenko, M.; Stokes, A. C.; Mahmood, M.; Pokutnyi, O.; Iskra, O.; Wang, J. P.; Levin, J.; Kazakov, M.; Feng, F.; Feng, S. Y.; Zhao, H.; Yu, M.; Gangal, V.; Zou, C.; Wang, Z.; Popov, S.; Gerbicz, R.; Galgon, G.; Schmitt, J.; Yeadon, W.; Lee, Y.; Sauers, S.; Sanchez, A.; Giska, F.; Roth, M.; Riis, S.; Utpala, S.; Burns, N.; Goshu, G. M.; Naiya, M. M.; Agu, C.; Giboney, Z.; Cheatom, A.; Fournier-Facio, F.; Crowson, S.; Finke, L.; Cheng, Z.; Zampese, J.; Hoerr, R. G.; Nandor, M.; Park, H.; Gehrunger, T.; Cai, J.; Mccarty, B.; Garretson, A. C.; Taylor, E.; Sileo, D.; Ren, Q.; Qazi, U.; Li, L.; Nam, J.; Wydallis, J. B.; Arkhipov, P.; Shi, J. W. L.; Bacho, A.; Willcocks, C. G.; Cao, H.; Motwani, S.; Santos, E. D. O.; Veith, J.; Vendrow, E.; Cojoc, D.; Zenitani, K.; Robinson, J.; Tang, L.; Li, Y.; Vendrow, J.; Fraga, N. W.; Kuchkin, V.; Maksimov, A. P.; Marion, P.; Efremov, D.; Lynch, J.; Liang, K.; Mikov, A.; Gritsevskiy, A.; Guillod, J.; Demir, G.; Martinez, D.; Pageler, B.; Zhou, K.; Soori, S.; Press, O.; Tang, H.; Rissone, P.; Green, S. R.; Brüssel, L.; Twayana, M.; Dieuleveut, A.; Imperial, J. M.; Prabhu, A.; Yang, J.; Crispino, N.; Rao, A.; Zvonkine, D.; Loiseau, G.; Kalinin, M.; Lukas, M.; Manolescu, C.; Stambaugh, N.; Mishra, S.; Hogg, T.; Bosio, C.; Coppola, B. P.; Salazar, J.; Jin, J.; Sayous, R.; Ivanov, S.; Schwaller, P.; Senthilkumar, S.; Bran, A. M.; Algaba, A.; Houte, K. V. D.; Sypt, L. V. D.; Verbeken, B.; Noever, D.; Kopylov, A.; Myklebust, B.; Li, B.; Schut, L.; Zheltonozhskii, E.; Yuan, Q.; Lim, D.; Stanley, R.; Yang, T.; Maar, J.; Wykowski, J.; Oller, M.; Sahu, A.; Ardito, C. G.; Hu, Y.; Kamdoum, A. G. K.; Jin, A.; Vilchis, T. G.; Zu, Y.; Lackner, M.; Koppel, J.; Sun, G.; Antonenko, D. S.; Chern, S.; Zhao, B.; Arsene, P.; Cavanagh, J. M.; Li, D.; Shen, J.; Crisostomi, D.; Zhang, W.; Dehghan, A.; Ivanov, S.; Perrella, D.; Kaparov, N.; Zang, A.; Sucholutsky, I.; Kharlamova, A.; Orel, D.; Poritski, V.; Ben-David, S.; Berger, Z.; Whitfill, P.; Foster, M.; Munro, D.; Ho, L.; Sivarajan, S.; Hava, D. B.; Kuchkin, A.; Holmes, D.; Rodriguez-Romero, A.; Sommerhage, F.; Zhang, A.; Moat, R.; Schneider, K.; Kazibwe, Z.; Clarke, D.; Kim, D. H.; Dias, F. M.; Fish, S.; Elser, V.; Kreiman, T.; Vilchis, V. E. G.; Klose, I.; Anantheswaran, U.; Zweiger, A.; Rawal, K.; Li, J.; Nguyen, J.; Daans, N.; Heidinger, H.; Radionov, M.; Rozhoň, V.; Ginis, V.; Stump, C.; Cohen, N.; Poświata, R.; Tkadlec, J.; Goldfarb, A.; Wang, C.; Padlewski, P.; Barzowski, S.; Montgomery, K.; Stendall, R.; Tucker-Foltz, J.; Stade, J.; Rogers, T. R.; Goertzen, T.; Grabb, D.; Shukla, A.; Givré, A.; Ambay, J. A.; Sen, A.; Aziz, M. F.; Inlow, M. H.; He, H.; Zhang, L.; Kaddar, Y.; Ängquist, I.; Chen, Y.; Wang, H. K.; Ramakrishnan, K.; Thornley, E.; Terpin, A.; Schoelkopf, H.; Zheng, E.; Carmi, A.; Brown, E. D. L.; Zhu, K.; Bartolo, M.; Wheeler, R.; Stehberger, M.; Bradshaw, P.; Heimonen, J.; Sridhar, K.; Akov, I.; Sandlin, J.; Makarychev, Y.; Tam, J.; Hoang, H.; Cunningham, D. M.; Goryachev, V.; Patramanis, D.; Krause, M.; Redenti, A.; Aldous, D.; Lai, J.; Coleman, S.; Xu, J.; Lee, S.; Magoulas, I.; Zhao, S.; Tang, N.; Cohen, M. K.; Paradise, O.; Kirchner, J. H.; Ovchynnikov, M.; Matos, J. O.; Shenoy, A.; Wang, M.; Nie, Y.; Sztyber-Betley, A.; Faraboschi, P.; Riblet, R.; Crozier, J.; Halasyamani, S.; Verma, S.; Joshi, P.; Meril, E.; Ma, Z.; Andréoletti, J.; Singhal, R.; Platnick, J.; Nevirkovets, V.; Basler, L.; Ivanov, A.; Khoury, S.; Gustafsson, N.; Piccardo, M.; Mostaghimi, H.; Chen, Q.; Singh, V.; Khánh, T. Q.; Rosu, P.; Szlyk, H.; Brown, Z.; Narayan, H.; Menezes, A.; Roberts, J.; Alley, W.; Sun, K.; Patel, A.; Lamparth, M.; Reuel, A.; Xin, L.; Xu, H.; Loader, J.; Martin, F.; Wang, Z.; Achilleos, A.; Preu, T.; Korbak, T.; Bosio, I.; Kazemi, F.; Chen, Z.; Bálint, B.; E. J. Y., Lo; Wang, J.; Nunes, M. I. S.; Milbauer, J.; Bari, M. S.; Wang, Z.; Ansarinejad, B.; Sun, Y.; Durand, S.; Elgnainy, H.; Douville, G.; Tordera, D.; Balabanian, G.; Wolff, H.; Kvistad, L.; Milliron, H.; Sakor, A.; Eron, M.; Favre, D. O. A.; Shah, S.; Zhou, X.; Kamalov, F.; Abdoli, S.; Santens, T.; Barkan, S.; Tee, A.; Zhang, R.; Tomasiello, A.; Luca, G. B. D.; Looi, S.; Le, V.; Kolt, N.; Pan, J.; Rodman, E.; Drori, J.; Fossum, C. J.; Muennighoff, N.; Jagota, M.; Pradeep, R.; Fan, H.; Eicher, J.; Chen, M.; Thaman, K.; Merrill, W.; Firsching, M.; Harris, C.; Ciobâcă, S.; Gross, J.; Pandey, R.; Gusev, I.; Jones, A.; Agnihotri, S.; Zhelnov, P.; Mofayezi, M.; Piperski, A.; Zhang, D. K.; Dobarskyi, K.; Leventov, R.; Soroko, I.; Duersch, J.; Taamazyan, V.; Ho, A.; Ma, W.; Held, W.; Xian, R.; Zebaze, A. R.; Mohamed, M.; Leser, J. N.; Yuan, M. X.; Yacar, L.; Lengler, J.; Olszewska, K.; Fratta, C. D.; Oliveira, E.; Jackson, J. W.; Zou, A.; Chidambaram, M.; Manik, T.; Haffenden, H.; Stander, D.; Dasouqi, A.; Shen, A.; Golshani, B.; Stap, D.; Kretov, E.; Uzhou, M.; Zhidkovskaya, A. B.; Winter, N.; Rodriguez, M. O.; Lauff, R.; Wehr, D.; Tang, C.; Hossain, Z.; Phillips, S.; Samuele, F.; Ekström, F.; Hammon, A.; Patel, O.; Farhidi, F.; Medley, G.; Mohammadzadeh, F.; Peñaflor, M.; Kassahun, H.; Friedrich, A.; Perez, R. H.; Pyda, D.; Sakal, T.; Dhamane, O.; Mirabadi, A. K.; Hallman, E.; Okutsu, K.; Battaglia, M.; Maghsoudimehrabani, M.; Amit, A.; Hulbert, D.; Pereira, R.; Weber, S.; Peristyy, A.; Malina, S.; Mehkary, M.; Aly, R.; Reidegeld, F.; Dick, A.; Friday, C.; Singh, M.; Shapourian, H.; Kim, W.; Costa, M.; Gurdogan, H.; Kumar, H.; Ceconello, C.; Zhuang, C.; Park, H.; Carroll, M.; Tawfeek, A. R.; Steinerberger, S.; Aggarwal, D.; Kirchhof, M.; Dai, L.; Kim, E.; Ferret, J.; Shah, J.; Wang, Y.; Yan, M.; Burdzy, K.; Zhang, L.; Franca, A.; Pham, D. T.; Loh, K. Y.; Jackson, A.; Giordano, P.; Petersen, P.; Cosma, A.; Colino, J.; White, C.; Votava, J.; Vinnikov, V.; Delaney, E.; Spelda, P.; Stritecky, V.; Shahid, S. M.; Mourrat, J.; Vetoshkin, L.; Sponselee, K.; Bacho, R.; Yong, Z.; De La Rosa, F.; Cho, N.; Li, X.; Malod, G.; Weller, O.; Albani, G.; Lang, L.; Laurendeau, J.; Kazakov, D.; Adesanya, F.; Portier, J.; Hollom, L.; Souza, V.; Zhou, Y. A.; Degorre, J.; Yaln, Y.; Obikoya, G. D.; Pokorny, R. M.; Bigi, F.; Boscá, M. C.; Shumar, O.; Bacho, K.; Recchia, G.; Popescu, M.; Shulga, N.; Tanwie, N. M.; Lux, T. C. H.; Rank, B.; Ni, C.; Brooks, M.; Yakimchyk, A.; Liu, H. Q.; Cavalleri, S.; Häggström, O.; Verkama, E.; Newbould, J.; Gundlach, H.; Brito-Santana, L.; Amaro, B.; Vajipey, V.; Grover, R.; Wang, T.; Kratish, Y.; Li, W.; Gopi, S.; Caciolai, A.; Witt, C. S. D.; Hernández-Cámara, P.; Rodolà, E.; Robins, J.; Williamson, D.; Raynor, B.; Qi, H.; Segev, B.; Fan, J.; Martinson, S.; Wang, E. Y.; Hausknecht, K.; Brenner, M. P.; Mao, M.; Demian, C.; Kassani, P.; Zhang, X.; Avagian, D.; Scipio, E. J.; Ragoler, A.; Tan, J.; Sims, B.; Plecnik, R.; Kirtland, A.; Bodur, O. F.; Shinde, D. P.; Labrador, Y. C. L.; Adoul, Z.; Zekry, M.; Karakoc, A.; Santos, T. C. B.; Shamseldeen, S.; Karim, L.; Liakhovitskaia, A.; Resman, N.; Farina, N.; Gonzalez, J. C.; Maayan, G.; Anderson, E.; Pena, R. D. O.; Kelley, E.; Mariji, H.; Pouriamanesh, R.; Wu, W.; Finocchio, R.; Alarab, I.; Cole, J.; Ferreira, D.; Johnson, B.; Safdari, M.; Dai, L.; Arthornthurasuk, S.; Mcalister, I. C.; Moyano, A. J.; Pronin, A.; Fan, J.; Ramirez-Trinidad, A.; Malysheva, Y.; Pottmaier, D.; Taheri, O.; Stepanic, S.; Perry, S.; Askew, L.; Rodrguez, R. A. H.; Minissi, A. M. R.; Lorena, R.; Iyer, K.; Fasiludeen, A. A.; Clark, R.; Ducey, J.; Piza, M.; Somrak, M.; Vergo, E.; Qin, J.; Borbás, B.; Chu, E.; Lindsey, J.; Jallon, A.; Mcinnis, I. M. J.; Chen, E.; Semler, A.; Gloor, L.; Shah, T.; Carauleanu, M.; Lauer, P.; Huy, T. D.; Shahrtash, H.; Duc, E.; Lewark, L.; Brown, A.; Albanie, S.; Weber, B.; Vaz, W. S.; Clavier, P.; Fan, Y.; Silva, G. P. R. E.; Lian, L. T.; Abramovitch, M.; Jiang, X.; Mendoza, S.; Islam, M.; Gonzalez, J.; Mavroudis, V.; Xu, J.; Kumar, P.; Goswami, L. P.; Bugas, D.; Heydari, N.; Jeanplong, F.; Jansen, T.; Pinto, A.; Apronti, A.; Galal, A.; Ze-An, N.; Singh, A.; Jiang, T.; Xavier, J. O. A.; Agarwal, K. P.; Berkani, M.; Zhang, G.; Du, Z.; Junior, B. A. D. O.; Malishev, D.; Remy, N.; Hartman, T. D.; Tarver, T.; Mensah, S.; Loume, G. A.; Morak, W.; Habibi, F.; Hoback, S.; Cai, W.; Gimenez, J.; Montecillo, R. G.; Łucki, J.; Campbell, R.; Sharma, A.; Meer, K.; Gul, S.; Gonzalez, D. E.; Alapont, X.; Hoover, A.; Chhablani, G.; Vargus, F.; Agarwal, A.; Jiang, Y.; Patil, D.; Outevsky, D.; Scaria, K. J.; Maheshwari, R.; Dendane, A.; Shukla, P.; Cartwright, A.; Bogdanov, S.; Mündler, N.; Möller, S.; Arnaboldi, L.; Thaman, K.; Siddiqi, M. R.; Saxena, P.; Gupta, H.; Fruhauff, T.; Sherman, G.; Vincze, M.; Usawasutsakorn, S.; Ler, D.; Radhakrishnan, A.; Enyekwe, I.; Salauddin, S. M.; Muzhen, J.; Maksapetyan, A.; Rossbach, V.; Harjadi, C.; Bahaloohoreh, M.; Sparrow, C.; Sidhu, J.; Ali, S.; Bian, S.; Lai, J.; Singer, E.; Uro, J. L.; Bateman, G.; Sayed, M.; Menshawy, A.; Duclosel, D.; Bezzi, D.; Jain, Y.; Aaron, A.; Tiryakioglu, M.; Siddh, S.; Krenek, K.; Shah, I. A.; Jin, J.; Creighton, S.; Peskoff, D.; EL-Wasif, Z.; R. P. V.,; Richmond, M.; Mcgowan, J.; Patwardhan, T.; Sun, H.; Sun, T.; Zubić, N.; Sala, S.; Ebert, S.; Kaddour, J.; Schottdorf, M.; Wang, D.; Petruzella, G.; Meiburg, A.; Medved, T.; Elsheikh, A.; Hebbar, S. A.; Vaquero, L.; Yang, X.; Poulos, J.; Zouhar, V.; Bogdanik, S.; Zhang, M.; Sanz-Ros, J.; Anugraha, D.; Dai, Y.; Nhu, A. N.; Wang, X.; Demircali, A. A.; Jia, Z.; Zhou, Y.; Wu, J.; He, M.; Chandok, N.; Sinha, A.; Luo, G.; Le, L.; Noyé, M.; Perełkiewicz, M.; Pantidis, I.; Qi, T.; Purohit, S. S.; Parcalabescu, L.; Nguyen, T.; Winata, G. I.; Ponti, E. M.; Li, H.; Dhole, K.; Park, J.; Abbondanza, D.; Wang, Y.; Nayak, A.; Caetano, D. M.; Wong, A. A. W. L.; Rio-Chanona, M. D.; Kondor, D.; Francois, P.; Chalstrey, E.; Zsambok, J.; Hoyer, D.; Reddish, J.; Hauser, J.; Rodrigo-Ginés, F.; Datta, S.; Shepherd, M.; Kamphuis, T.; Zhang, Q.; Kim, H.; Sun, R.; Yao, J.; Dernoncourt, F.; Krishna, S.; Rismanchian, S.; Pu, B.; Pinto, F.; Wang, Y.; Shridhar, K.; Overholt, K. J.; Briia, G.; Nguyen, H.; Bartomeu, D. Q. S.; Pang, T. C.; Wecker, A.; Xiong, Y.; Li, F.; Huber, L. S.; Jaeger, J.; Maddalena, R. D.; X. H., Lù; Zhang, Y.; Beger, C.; Kon, P. T. J.; Li, S.; Sanker, V.; Yin, M.; Liang, Y.; Zhang, X.; Agrawal, A.; Yifei, L. S.; Zhang, Z.; Cai, M.; Sonmez, Y.; Cozianu, C.; Li, C.; Slen, A.; Yu, S.; Park, H. K.; Sarti, G.; Briański, M.; Stolfo, A.; Nguyen, T. A.; Zhang, M.; Perlitz, Y.; Hernandez-Orallo, J.; Li, R.; Shabani, A.; Juefei-Xu, F.; Dhingra, S.; Zohar, O.; Nguyen, M. C.; Pondaven, A.; Yilmaz, A.; Zhao, X.; Jin, C.; Jiang, M.; Todoran, S.; Han, X.; Kreuer, J.; Rabern, B.; Plassart, A.; Maggetti, M.; Yap, L.; Geirhos, R.; Kean, J.; Wang, D.; Mollaei, S.; Sun, C.; Yin, Y.; Wang, S.; Li, R.; Chang, Y.; Wei, A.; Bizeul, A.; Wang, X.; Arrais, A. O.; Mukherjee, K.; Chamorro-Padial, J.; Liu, J.; Qu, X.; Guan, J.; Bouyamourn, A.; Wu, S.; Plomecka, M.; Chen, J.; Tang, M.; Deng, J.; Subramanian, S.; Xi, H.; Chen, H.; Zhang, W.; Ren, Y.; N. |. V. |. J. |. H., Tu; Kim, S.; Chen, Y.; Marjanović, S. V.; Ha, J.; Luczyna, G.; J. J., Ma; Shen, Z.; Song, D.; Zhang, C. E.; Wang, Z.; Gendron, G.; Xiao, Y.; Smucker, L.; Weng, E.; Lee, K. H.; Ye, Z.; Ermon, S.; Lopez-Miguel, I. D.; Knights, T.; Gitter, A.; Park, N.; Wei, B.; Chen, H.; Pai, K.; Elkhanany, A.; Lin, H.; Siedler, P. D.; Fang, J.; Mishra, R.; Zsolnai-Fehér, K.; Jiang, X.; Khan, S.; Yuan, J.; Jain, R. K.; Lin, X.; Peterson, M.; Wang, Z.; Malusare, A.; Tang, M.; Gupta, I.; Fosin, I.; Kang, T.; Dworakowska, B.; Matsumoto, K.; Zheng, G.; Sewuster, G.; Villanueva, J. P.; Rannev, I.; Chernyavsky, I.; Chen, J.; Banik, D.; Racz, B.; Dong, W.; Wang, J.; Bashmal, L.; Gonçalves, D. V.; Hu, W.; Bar, K.; Bohdal, O.; Patlan, A. S.; Dhuliawala, S.; Geirhos, C.; Wist, J.; Kansal, Y.; Chen, B.; Tire, K.; Yücel, A. T.; Christof, B.; Singla, V.; Song, Z.; Chen, S.; Ge, J.; Ponkshe, K.; Park, I.; Shi, T.; M. Q., Ma; Mak, J.; Lai, S.; Moulin, A.; Cheng, Z.; Zhu, Z.; Zhang, Z.; Patil, V.; Jha, K.; Men, Q.; Wu, J.; Zhang, T.; Vieira, B. H.; Aji, A. F.; Chung, J.; Mahfoud, M.; Hoang, H. T.; Sperzel, M.; Hao, W.; Meding, K.; Xu, S.; Kostakos, V.; Manini, D.; Liu, Y.; Toukmaji, C.; Yu, E.; Demircali, A. E.; Sun, Z.; Dewerpe, I.; Qin, H.; Pflugfelder, R.; Bailey, J.; Morris, J.; Heilala, V.; Rosset, S.; Yu, Z.; Chen, P. E.; Yeo, W.; Jain, E.; Chigurupati, S.; Chernyavsky, J.; Reddy, S. P.; Venugopalan, S.; Batra, H.; Park, C. F.; Tran, H.; Maximiano, G.; Zhang, G.; Liang, Y.; Shiyu, H.; Xu, R.; Pan, R.; Suresh, S.; Liu, Z.; Gulati, S.; Zhang, S.; Turchin, P.; Bartlett, C. W.; Scotese, C. R.; Cao, P. M.; Wu, B.; Karwoski, J.; Scaramuzza, D.

doi:10.1038/s41586-025-09962-4

Benchmarks are important tools for tracking the rapid advancements in large language model (LLM) capabilities. However, benchmarks are not keeping pace in difficulty: LLMs now achieve more than 90% accuracy on popular benchmarks such as Measuring Massive Multitask Language Understanding1 , limiting informed measurement of state-of-the-art LLM capabilities. Here, in response, we introduce Humanity’s Last Exam (HLE), a multi-modal benchmark at the frontier of human knowledge, designed to be an expert-level closed-ended academic benchmark with broad subject coverage. HLE consists of 2,500 questions across dozens of subjects, including mathematics, humanities and the natural sciences. HLE is developed globally by subject-matter experts and consists of multiple-choice and short-answer questions suitable for automated grading. Each question has a known solution that is unambiguous and easily verifiable but cannot be quickly answered by internet retrieval. State-of-the-art LLMs demonstrate low accuracy and calibration on HLE, highlighting a marked gap between current LLM capabilities and the expert human frontier on closed-ended academic questions. To inform research and policymaking upon a clear understanding of model capabilities, we publicly release HLE at https:// lastexam.ai.