HumanEval

benchmarkko
GenRank Score
1.9

코드 생성 모델의 기능적 정확도를 평가하기 위한 벤치마크로, Python 프로그래밍 언어로 작성된 164개의 코딩 문제를 포함합니다.

Also Known As

HumanEval
1 question1 category

Score History

Loading score data...
Average Rank
#4.0
Median
#4
Range
#4#4
🎯Top 5 in 1/1 models

Rankings by Model

Gemini 2.0 Flash #4