进阶教程：用 Python 和 NLTK 进行 NLP 分析

进一步学习自然语言处理的基本概念

在之前的文章里，我介绍了自然语言处理 natural language processing （NLP）和宾夕法尼亚大学研发的自然语言处理工具包 Natural Language Toolkit (NLTK)。我演示了用 Python 解析文本和定义停顿词 stopword 的方法，并介绍了语料库 corpus 的概念。语料库是由文本构成的数据集，通过提供现成的文本数据来辅助文本处理。在这篇文章里，我将继续用各种语料库对文本进行对比和分析。

这篇文章主要包括以下部分：

词网 WordNet 和同义词集 synset
相似度比较 Similarity comparison
树 Tree 和树库 treebank
命名实体识别 Named entity recognition

词网和同义词集

词网 WordNet 是 NLTK 里的一个大型词汇数据库语料库。词网包含各单词的诸多认知同义词 cognitive synonyms （认知同义词常被称作“ 同义词集 synset ”）。在词网里，名词、动词、形容词和副词，各自被组织成一个同义词的网络。

词网是一个很有用的文本分析工具。它有面向多种语言的版本（汉语、英语、日语、俄语和西班牙语等），也使用多种许可证（从开源许可证到商业许可证都有）。初代版本的词网由普林斯顿大学研发，面向英语，使用类 MIT 许可证 MIT-like license 。

因为一个词可能有多个意义或多个词性，所以可能与多个同义词集相关联。每个同义词集通常提供下列属性：

属性	定义	例子

via: https://opensource.com/article/20/8/nlp-python-nltk

作者：Girish Managoli 选题：lujun9972 译者：tanloong 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

最后修改于：

2024年2月17日

词网和同义词集

发表回复 取消回复

发表回复取消回复