General_Language_Understanding_Evaluation_benchmark

parpe:glue

一个用于通用语言理解评估的基准,用来训练,预测和分析自然语言理解系统的资源整合

包括:

  • 基于现有数据集构建九个句子或句对语言理解任务的基准,并使用各种大小,不同难度,不同文本类型的数据集,

  • 一种诊断数据集,旨在评估和分析自然语言中发现的各种语言现象的模型性能

  • 用于跟踪基准测试性能的公共排行榜和用于可视化诊断集上模型性能

GLUE基准与模型无关,因此任何能够处理句子和句子对并产生相应预测的系统都有资格参与。选择基准测试任务以便使用参数共享或其他传输学习技术来支持跨任务共享信息的模型。GLUE的最终目标是推动研究开发通用和强大的自然语言理解系统。

11个任务

可以看到包括情感分析,语义分析,相似度评价,问答,文本识别等常见NLP任务

Leaderboard

看看排行榜,是不是好多熟悉身影,Bert稳居第一