深入浅出：使用 Python 进行分词和词性标注89

引言自然语言处理 (NLP) 中，分词和词性标注是两项基本任务。分词将文本分解成单词或词组等更小的单位，而词性标注为这些单位分配词性，例如名词、动词、形容词等。本文将介绍如何在 Python 中使用 NLTK 库进行分词和词性标注。

安装 NLTK首先，需要安装 NLTK 库：

```
pip install nltk
```

然后，在 Python 脚本中导入它：

```
import nltk
```

分词NLTK 提供了几种分词器，包括：
* WordPunctTokenizer：在单词和标点符号之间分词
* TreebankWordTokenizer：使用 Penn Treebank 标记方案分词
* RegexpTokenizer：使用正则表达式定制分词规则
以下是使用 WordPunctTokenizer 分词的示例：

```python
from import WordPunctTokenizer
sentence = "This is a sample sentence."
tokenizer = WordPunctTokenizer()
tokens = (sentence)
print(tokens)
```

这将输出：

```
['This', 'is', 'a', 'sample', 'sentence', '.']
```

词性标注NLTK 也提供了几个词性标注器，包括：
* DefaultTagger：始终分配默认词性（通常是名词）
* LookupTagger：使用查找表分配词性
* NgramTagger：使用 n 元语法分配词性
以下是使用 LookupTagger 标注词性的示例：

```python
from import LookupTagger
tagger = LookupTagger('taggers/universal_tagset/')
tagged_tokens = (tokens)
print(tagged_tokens)
```

这将输出：

```
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('sample', 'NN'), ('sentence', 'NN'), ('.', '.')]
```

标记表明“This”是一个限定词，“is”是一个动词，“a”是另一个限定词，以此类推。

自定义词性标注器除了内置标注器，还可以创建自定义词性标注器。以下是使用正则表达式创建标注器的示例：

```python
import re
class RegexpTagger(TaggerI):
def __init__(self, patterns):
= [((regex), tag) for (regex, tag) in patterns]
def tag(self, tokens):
tagged_tokens = []
for token in tokens:
for (regex, tag) in :
if (token):
((token, tag))
break
else:
((token, 'NN'))
return tagged_tokens
```

此标注器使用正则表达式模式来匹配令牌并分配词性。例如，可以创建以下模式：

```
patterns = [
(r'.*ing$', 'VBG'), # 动词进行时
(r'.*ed$', 'VBD'), # 动词过去式
(r'.*es$', 'VBZ'), # 动词第三人称单数
(r'.*s$', 'NNS'), # 名词复数
(r'.*[A-Z][a-z]*$', 'NNP'), # 专有名词
]
```