Evaluator:
Exact Match
GPT-4 Evaluator
GPT-3.5 Evaluator
F1
ROUGE