结巴分词词性标注说明278
结巴分词是中文分词工具,它可以将中文文本划分为词语,并为每个词语标注词性。结巴分词词性标注使用哈工大[ICTCLAS](/NLPthunlp/ICTCLAS)中的词性标注体系,该体系包含以下词性:名词
* n 普通名词
* nr 人名
* ns 地名
* nt 机构名
* nz 其他专有名词
动词
* v 动词
* vd 动词的过去式
* vn 名动词
* vg 形容词性动词
* vl 量词性动词
形容词
* a 形容词
* ad 形容词的程度词
* an 名词性形容词
副词
* d 副词
* dg 副词的程度词
* dl 限定副词
* m 数词
* mq 量词
介词
* p 介词
* rz 方位介词
连词
* c 连词
* cc 并列连词
* cs 选择连词
* ct 转折连词
助词
* u 助词
* ul 时态助词
* uv 语气助词
* y 语气词
标点符号
* w 标点符号
特殊符号
* x 未知词
其他
* nr1 姓氏
* nrf 复姓
* nrj 日本人名
* nrs 朝鲜人名
* nsf 外国人名
* nsg 国名
* ntc 公司名
* nto 组织名
* nts 山川名
* ntu 时间名
* f 方位词
* s 时序词
标注规则
* 同一个词语可以有多个词性,例如“中国”可以标注为“ns”和“n”。
* 标注结果以空格分隔,例如“中国 人民”标注为“ns n”。
* 未知词标注为“x”。
* 标点符号和特殊符号单独标注,例如“,”标注为“w”。
示例
```
输入文本:中国人民大学
结巴分词结果:中国 nr 人民 n 大学 nt
```
注意
* 结巴分词词性标注是基于统计模型,可能存在错误。
* 不同的结巴分词版本可能使用不同的词性标注体系。
2024-11-12

CAD标注角度公差详解:规范、方法及注意事项
https://www.biaozhuwang.com/datas/122142.html

螺纹标注的奥秘:详解单线、双线及组合标注方法
https://www.biaozhuwang.com/datas/122141.html

普通螺纹标注详解:尺寸、类型及规范解读
https://www.biaozhuwang.com/datas/122140.html

数据标注利器:筛选、对比与标注策略详解
https://www.biaozhuwang.com/datas/122139.html

地图标注尺寸的完整指南:精确测量与高效表达
https://www.biaozhuwang.com/map/122138.html
热门文章

高薪诚聘数据标注,全面解析入门指南和职业发展路径
https://www.biaozhuwang.com/datas/9373.html

CAD层高标注箭头绘制方法及应用
https://www.biaozhuwang.com/datas/64350.html

形位公差符号如何标注
https://www.biaozhuwang.com/datas/8048.html

M25螺纹标注详解:尺寸、公差、应用及相关标准
https://www.biaozhuwang.com/datas/97371.html

CAD2014中三视图标注尺寸的详解指南
https://www.biaozhuwang.com/datas/9683.html