结巴分词词性标注说明278


结巴分词是中文分词工具,它可以将中文文本划分为词语,并为每个词语标注词性。结巴分词词性标注使用哈工大[ICTCLAS](/NLPthunlp/ICTCLAS)中的词性标注体系,该体系包含以下词性:名词
* n 普通名词
* nr 人名
* ns 地名
* nt 机构名
* nz 其他专有名词
动词
* v 动词
* vd 动词的过去式
* vn 名动词
* vg 形容词性动词
* vl 量词性动词
形容词
* a 形容词
* ad 形容词的程度词
* an 名词性形容词
副词
* d 副词
* dg 副词的程度词
* dl 限定副词
* m 数词
* mq 量词
介词
* p 介词
* rz 方位介词
连词
* c 连词
* cc 并列连词
* cs 选择连词
* ct 转折连词
助词
* u 助词
* ul 时态助词
* uv 语气助词
* y 语气词
标点符号
* w 标点符号
特殊符号
* x 未知词
其他
* nr1 姓氏
* nrf 复姓
* nrj 日本人名
* nrs 朝鲜人名
* nsf 外国人名
* nsg 国名
* ntc 公司名
* nto 组织名
* nts 山川名
* ntu 时间名
* f 方位词
* s 时序词
标注规则
* 同一个词语可以有多个词性,例如“中国”可以标注为“ns”和“n”。
* 标注结果以空格分隔,例如“中国 人民”标注为“ns n”。
* 未知词标注为“x”。
* 标点符号和特殊符号单独标注,例如“,”标注为“w”。
示例
```
输入文本:中国人民大学
结巴分词结果:中国 nr 人民 n 大学 nt
```
注意
* 结巴分词词性标注是基于统计模型,可能存在错误。
* 不同的结巴分词版本可能使用不同的词性标注体系。

2024-11-12


上一篇:螺纹标注:理解不同尺寸、公差和应用

下一篇:标注公差0.1:理解公差对制造的影响