NLP 基础：斯坦福词性标注器 (nr)210

在自然语言处理 (NLP) 中，词性标注是确定单词在句子中语法角色的过程。斯坦福词性标注器 (nr) 是最 widely-used 的工具之一，用于对英语文本执行词性标注任务。

nr 的词性标记

斯坦福词性标注器使用一组预先定义的词性标签来标记单词。一些最常见的标签包括：
NN（普通名词）：汽车、房屋、商店
NNS（复数普通名词）：汽车、房屋、商店
NNP（专有名词）：乔治、伦敦、美国
NNPS（复数专有名词）：乔治、伦敦、美国
VBD（过去式动词）：走了、说了、写了
VBG（现在分词）：走着、说着、写着
VBP（现在式动词）：走、说、写
RB（副词）：很快、很好、很坏
JJ（形容词）：大、小、高

nr 的工作原理

斯坦福词性标注器使用一种称为隐马尔可夫模型 (HMM) 的统计模型来分配词性标记。HMM 将句子建模为一系列隐藏状态（在这种情况下为词性），并使用单词序列和先验概率来推断这些状态。

nr 根据其在训练语料库中遇到的模式对单词进行标记。例如，如果一个词经常出现在动词后，它更有可能被标记为名词。同样，如果一个词经常出现在形容词后，它更有可能被标记为副词。

使用 nr

斯坦福词性标注器可以通过以下方式使用命令行命令：

```
java -mx300m -cp "*" -model models/ -text
```

您还可以将 nr 与 Python 的 Natural Language Toolkit (NLTK) 库一起使用：

```
import nltk
from import StanfordNERTagger
# 加载模型
pos_tagger = StanfordNERTagger('models/')
# 标注句子
sentence = 'The quick brown fox jumped over the lazy dog'
pos_tags = (())
# 打印词性标注
for word, tag in pos_tags:
print(f'{word}/{tag}')
```