General_Language_Understanding_Evaluation_benchmark

parpe:glue

包括：

GLUE基准与模型无关，因此任何能够处理句子和句子对并产生相应预测的系统都有资格参与。选择基准测试任务以便使用参数共享或其他传输学习技术来支持跨任务共享信息的模型。GLUE的最终目标是推动研究开发通用和强大的自然语言理解系统。

11个任务

可以看到包括情感分析，语义分析，相似度评价，问答，文本识别等常见NLP任务

看看排行榜，是不是好多熟悉身影，Bert稳居第一