出典
Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks (arxiv)
所感
本論文では、対話エージェントを学習するために必要なスキルセットを評価するためのタスクの定義と、それらのタスクでの精度を評価するためのベースラインとなる結果を示していた。 印象として、上記の結果の表を見ている感じだと、正答率100%のタスクも多数出現しており、問題の難易度を考慮すると、これから先、このデータセットによるこれらのタスクによりモデルを評価できるかどうかには疑問が残る。 それでもbow of wordsから3-gramに変更してからの、精度の上昇は綺麗に確認することができてはいるので方向性としては悪くはないように感じる。