世界就是这样…做着做着就什么事情都要做一点点…

一、分词工具的评估

分词效果的好坏对于自然语言处理任务的成功与否有着至关重要的影响。

因此，在使用分词工具时，我们需要对分词效果进行评估。

分词效果评估通常使用准确率（Precision）、召回率（Recall）和F1值（F1-Score）这三个指标来衡量。

除了考虑准确性之外，我们还需要考虑分词工具的性能问题，在大数据场景下是否可用。

二、分词工具的对比

以下测试结果来自：https://github.com/howl-anderson/Chinese_tokenizer_benchmark?tab=readme-ov-file#msr

Algorithm	Precision	Recall	F1-measure
jieba	0.817	0.812	0.815
thulac	0.834	0.878	0.856
nlpir	0.869	0.914	0.891
ltp	0.868	0.899	0.883

Algorithm	Precision	Recall	F1-measure
jieba	0.740	0.737	0.738
thulac	0.732	0.745	0.738
nlpir	0.485	0.651	0.556
ltp	0.794	0.809	0.801

Algorithm	Precision	Recall	F1-measure
jieba	0.853	0.787	0.818
thulac	0.922	0.923	0.923
nlpir	0.940	0.943	0.941
ltp	0.960	0.946	0.953

Algorithm	Precision	Recall	F1-measure
jieba	0.748	0.735	0.742
thulac	0.730	0.745	0.738
nlpir	0.452	0.620	0.523
ltp	0.783	0.801	0.792

jieba分词分析与理解

Tagged on: jieba PySpark 分词