世界就是这样…做着做着就什么事情都要做一点点…
一、分词工具的评估
分词效果的好坏对于自然语言处理任务的成功与否有着至关重要的影响。
因此,在使用分词工具时,我们需要对分词效果进行评估。
分词效果评估通常使用准确率(Precision)、召回率(Recall)和F1值(F1-Score)这三个指标来衡量。
- 准确率表示正确分词的数量与分词器分出的总词数之比;
- 召回率表示正确分词的数量与参考标准中的总词数之比;
- F1值是准确率和召回率的调和平均数,用于综合评价分词工具的性能。
除了考虑准确性之外,我们还需要考虑分词工具的性能问题,在大数据场景下是否可用。
二、分词工具的对比
以下测试结果来自:https://github.com/howl-anderson/Chinese_tokenizer_benchmark?tab=readme-ov-file#msr
模型性能
MSR
Algorithm | Precision | Recall | F1-measure |
---|---|---|---|
jieba | 0.817 | 0.812 | 0.815 |
thulac | 0.834 | 0.878 | 0.856 |
nlpir | 0.869 | 0.914 | 0.891 |
ltp | 0.868 | 0.899 | 0.883 |
AS
Algorithm | Precision | Recall | F1-measure |
---|---|---|---|
jieba | 0.740 | 0.737 | 0.738 |
thulac | 0.732 | 0.745 | 0.738 |
nlpir | 0.485 | 0.651 | 0.556 |
ltp | 0.794 | 0.809 | 0.801 |
PKU
Algorithm | Precision | Recall | F1-measure |
---|---|---|---|
jieba | 0.853 | 0.787 | 0.818 |
thulac | 0.922 | 0.923 | 0.923 |
nlpir | 0.940 | 0.943 | 0.941 |
ltp | 0.960 | 0.946 | 0.953 |
CityU
Algorithm | Precision | Recall | F1-measure |
---|---|---|---|
jieba | 0.748 | 0.735 | 0.742 |
thulac | 0.730 | 0.745 | 0.738 |
nlpir | 0.452 | 0.620 | 0.523 |
ltp | 0.783 | 0.801 | 0.792 |
分词速度
测试结果
Algorithm | Time Cost (seconds) |
---|---|
jieba | 4.629725 |
thulac | 24.443029 |
nlpir | 2.9404 |
ltp | 7.118068 |
jieba分词分析与理解