Russian SuperGLUE -- PARus - 0.58 accuracy (7b) #14
Closed
Andrew-MK
started this conversation in
Show and tell
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
Notebook из Colab: SUPERGLUE_PARus__saiga_7b__colab.zip
Оказалось, что тест PARus содержит два типа вопросов (выявить причину и выявить следствие):
Метки типа вопроса подаются во всех файлах теста вместе с вопросами, поэтому, как я понял, их можно использовать для выбора корректного промпта к заданию, где, в случае "effect", необходимо спрашивать у модели наиболее вероятное следствие, а, в случае "cause" - причину.
Пробовал разбивать варианты в вопросе на два вопроса к модели и делать как в тесте TERRa - для каждого варианта задавать отдельный вопрос: Это причина/следствие текста?/Насколько от 0 до 9 это может быть причиной/следствием текста? Но оказалось, что во многих случаях от TERRa тест отличается не только наличием двух вариантов гипотез, но и тем, что эти оба варианта могут быть/являются причиной/следствием и надо именно в сравнении выбрать из них наиболее вероятный, и, при разбиении вариантов ответов на два вопроса к модели, в обоих случаях ответ будет - да и сделать выбор не получится.
Результат по Лидерборду кажется в районе медианы, но, наверное, и потенциал еще есть, ведь я не владею и не пробовал методики "few-shot" или "Chain of Thought (CoT)" prompting, а также не преуспел в поиске и переводе хорошего промпта в papers. Пробовал перевести из Is ChatGPT a Good Causal Reasoner? A Comprehensive Evaluation.:
но хорошего результата это не дало, однако формат такой подачи вопроса "Событие: ...\n\nВопрос: выбери ... из следующих вариантов\n\nA: \n\n B: \n\n" модель воспринимает стабильно и для парсинга ответа отвечает "Выбор A/B", просто метрика не увеличивается и остается на уровне Accuracy: 0.57. Если понадобится, то код для подачи вопросов такой:
Beta Was this translation helpful? Give feedback.
All reactions