Skip to content

llama-cpp-pythonのggufでllama-cpp-pythonのggufを評価するスクリプト

Notifications You must be signed in to change notification settings

YoutechA320U/ELYZA-tasks-100-AutoEval

Repository files navigation

ELYZA-tasks100-AutoEval

gguf量子化したgemma-2-27b-itでELYZA-tasks100を自動評価します。

ELYZA-tasks100-ansuwer_*.pyは評価対象のggufモデルにELYZA-tasks100(test.csv)を回答させます。answer.csvが生成されます。

ELYZA-tasks100-judge_gemma-2.pyはgguf量子化したgemma-2-27b-itにanswer.csvを採点させます。judge.csvが生成されます。

ELYZA-tasks100-result.pyはELYZA-tasks100(test.csv)とanswer.csvjudge.csvを結合します。result.csvが生成されます。

gemma-2-27b-it-Q6_K-3436.gguf(llama.cpp_b3436)による自動評価(評価/被評価共にtemplreture=0.8)

※VRAM28GB環境で検証しています。

リンクの無いものはconvert_hf_to_gguf.pyで自前で量子化したもの。

モデル名など スコア
Qwen2.5-32B-Instruct-imatrix-Q5_K_M-3787.gguf 3.98
Qwen2.5-32B-Instruct-imatrix-Q4_K_M-3787.gguf 3.92
gemma-2-27b-it-imatrix-Q6_K-3490.gguf 3.89
Qwen2.5-32B-Instruct-Q4_K_M.gguf 3.88
gemma-2-27b-it-Q6_K-3436.gguf 3.86
EZO-Humanities-9B-gemma-2-it-Q8_0-3436.gguf 3.83
dahara1/gemma-2-27b-it.Q4_K_M.gguf 3.82
Gemma-2-9B-It-SPPO-Iter3-Q8_0-3436.gguf 3.82
EZO-Common-9B-gemma-2-it-f16-3436.gguf 3.74
EZO-Common-9B-gemma-2-it-Q8_0-3436.gguf 3.73
EZO-Humanities-9B-gemma-2-it-f16-3436.gguf 3.68
dahara1/gemma-2-9b-it.f16.Q8.gguf 3.61
YukiTomita-CC/ELYZA-tasks-100_Human_solved 3.58
grapevine-AI/calm3-22b-chat-Q6_K.gguf 3.53
Llama-3-ELYZA-JP-8B-Q8_0.gguf 3.38
Ninja-V3-Q8_0.gguf 3.27
mistral-yuki-7B-Q8_0.gguf 3.12
Oumuamua-7b-instruct-v2-Q8_0.gguf 3.11
Ninja-V2-7B-Q8_0.gguf 3.09
Ninja-v1-NSFW-Q_8_0.gguf 2.88
japanese-starling-chatv-7b.Q8_0.gguf 2.87
Japanese-Chat-Umievo-itr001-7b.Q8_0.gguf 2.83
chatntq-ja-7b-v1.0.Q8_0.gguf 2.55
ELYZA-japanese-Llama-2-13b-instruct-Q8_0.gguf 2.52
ReadyON/karakuri-lm-8x7b-instruct-v0.1-IQ3_XS.gguf 2.44
TheBloke/calm2-7b-chat.Q8_0.gguf 2.15

備考

採点テンプレートはうみゆき氏の次の記事のものをお借りしました。

ライセンスはELYZA-task-100に依存します。

履歴

[2024/07/15] - 初回リリース
[2024/07/22] - answer.csvに使用モデルを、judge.csvに平均点を追記するよう対応
[2024/07/22] - Qwen2に対応
[2024/07/22] - 採点者をgemma-2-27b-it-Q6_K前提に変更
[2024/09/20] - Qwen2.5に対応していることを追記

About

llama-cpp-pythonのggufでllama-cpp-pythonのggufを評価するスクリプト

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages