斯坦福开源顶级Python NLP库:支持66种语言,NER提升显著

开源自然语言处理(NLP)工具包的出现推动了研究人类语言的计算方法的快速发展。

然而现有的NLP工具包,例如CoreNLP 、Flair、spaCy 和UDG 9 K p C v qPipe等本身都存在q % ( q ^ z 1 u一些缺陷:

首先,现有工具包通常仅支持几种主要语言B { z } ]。这极大地限制了处理多语言文本的能力;

其次,d ; U U 3 ) T @ v广泛使用的工具有时会针对准确性进行优化,可能会误导下游应用程序;o 4 i T c

第三,他们有时会假设输入文本已使用其他工具进行了标记或注释,但缺乏使用统一框架处理原始文本的能力。这限制了它们对来自不同来源的文本的广泛适用性;

针对以上缺点,斯坦福的研究人员开源了Q o n w |最新的NLP库:Stanza。

Stanza是Python自然语言分析软件包,它包含可以在 pipeline中使用的工具,可以将包含人类语言文本的字符串转换为句子和单词列表, = S @ *生成这些单词的基本形式,它们的词性和词法特征,给予句+ # I z j I法结构依赖性解析,并识别命名实体。该工具包被设计为使用“通用依赖”关系在70多种语言之间并v J h f 8 E % u行。

Stanza由高度精确的神经网络组件构建而成,这些组件也可以使用您自己的注2 - 7 m 5 B释数据进行有效的训练和评估。这些模块建立在PyTorch库之上。如果在支持GPU的计算机上运行此系统,将会获得更快的性能。

另外,Stanza包括一个CM y [ ? p q L r PoreNLP Java包的Pym x _ W Z pthon接口,该接口进一步扩展了其功能,以涵盖其他任务,例如共指解析和关系提取。

概括起来,w u { zStanza具有以下特点:

  • 原生Python实现,P : c只需花费很少的精力即可完成设B } d y + 7 0置;
  • 完整的神X H m t K z 7经网络pipeline,可进行强大的文本分析,包括标记化,多词标记(MWT)扩展,词形化,词~ ? X u B - g !性(POS)和词法特征标记,依赖项解析以及命名实体识别;
  • 支持66种(人类)语言的预训练神经F J J 4模型;
  • 一个稳定的,官方维护的CoreNLP Python接口。

性能方面,研究人员在总~ X c共112个数据集上训练了Stanzaf I J K 7 T ,,其中包括UniversL J u E 7 % Cal DependencL I 4ies树库和其他多语种语料库,并显示出相同的神经体系结构可以很好地泛化并在所有测试的语言上实现较8 - W r e m G a !好性能。

斯坦福开源顶级Python NLP库:支持66种语言,NER提升显著

Stanza与其他流行的自然语言处理工具包的功能比较。

此外,为了提高NER组件的性能,研究人员将Stanza与Flair和spaCy进行了比较。

对于spaCd % | K Xy,只要找到在同一数据集上训练过的模型,研究人员就会报告其公开可用的预训练模型的结果,否则,3 $ 1 U U X { O r他们们将使用默认的超参数在其数据集上对其模型进行训练。

对于Flair来说,由于其可下载模型在与规范模型不同的数据集版本上进行了预训练,因此研究人员使用自己报告的最佳超参数对我们自己的数据集拆分中的所有模型进行了再训练。所e ; l { M - x D A有测试结果如下表:

斯坦福开源顶级Python NLP库:支持66种语言,NER提升显著

跨不同语言和语料库的NER性能比较,报告的所有分数均为微平均测验F1。

Github上目前提供了用于66种语言的源代码,文档和经过预训练的模型:

https://stanfordnlp.githY % , ! r m Iub.io/stan? m _ h V A z #za/

论文:

https://www.arxiv-vanity.com/papers/2003.07082/

上一篇

虞书欣前绯闻男友赵志伟发文否认恋情:没恋爱,没出轨,没靠过谁

下一篇

割的双眼皮与天然双眼皮有啥区别?当林心如和陈意涵同框,真相了

你也可能喜欢

  • 暂无相关文章!

发表评论

您的电子邮件地址不会被公开。 必填项已用 * 标注

提示:点击验证后方可评论!

插入图片
返回顶部