无监督识别词语算法的 Python 实现

前几天写了简单的中文分词算法,今天就用Python写个伪分词算法实现。 说伪分词是因为我这脚本其实并不能对文本进行分词,只是计算两个汉字组合成词的概率(由于是无监督,前期没有人工介入,识别词的能力大大降低。)。 比如'中'、'过'、'国'三个字的组成的字对有 '中过'、'中国'、'过国'、'国过'...