HumanEval
benchmarkko
GenRank Score
1.9
코드 생성 모델의 기능적 정확도를 평가하기 위한 벤치마크로, Python 프로그래밍 언어로 작성된 164개의 코딩 문제를 포함합니다.
Also Known As
HumanEval
1 question•1 category
Score
1.9
Rank
#22
Score History
Loading score data...
Average Rank
#4.0
Median
#4
Range
#4–#4
🎯Top 5 in 1/1 models
Rankings by Model
Gemini 2.0 Flash #4