进一步学习自然语言处理的基本概念
在 之前的文章 里,我介绍了 自然语言处理 (NLP)和宾夕法尼亚大学研发的 自然语言处理工具包 (NLTK)。我演示了用 Python 解析文本和定义 停顿词 的方法,并介绍了 语料库 的概念。语料库是由文本构成的数据集,通过提供现成的文本数据来辅助文本处理。在这篇文章里,我将继续用各种语料库对文本进行对比和分析。
这篇文章主要包括以下部分:
- 词网 和 同义词集
- 相似度比较
- 树 和 树库
- 命名实体识别
词网和同义词集
词网 是 NLTK 里的一个大型词汇数据库语料库。词网包含各单词的诸多 认知同义词 (认知同义词常被称作“ 同义词集 ”)。在词网里,名词、动词、形容词和副词,各自被组织成一个同义词的网络。
词网是一个很有用的文本分析工具。它有面向多种语言的版本(汉语、英语、日语、俄语和西班牙语等),也使用多种许可证(从开源许可证到商业许可证都有)。初代版本的词网由普林斯顿大学研发,面向英语,使用 类 MIT 许可证 。
因为一个词可能有多个意义或多个词性,所以可能与多个同义词集相关联。每个同义词集通常提供下列属性:
属性 | 定义 | 例子 |
---|
via: https://opensource.com/article/20/8/nlp-python-nltk
作者:Girish Managoli 选题:lujun9972 译者:tanloong 校对:wxy
发表回复