小叮咚采用的是逆向最大匹配分词法,算法简单,可以满足大部分的分词应用。现在已经集成到WebLucene项目中,开放源代码。有需要的朋友可以下载代码使用。 这个版本还没有实现我在一种面向搜索引擎的中文切分词方法 一文中提到的分词思路。比如: 汉字的StopWords,对标点符号的处理等等。 也希望对分词感兴趣的朋友一起讨论实现改进实现小叮咚分词的切分效果。
下面是Readme.txt中的内容:
使用说明: ------------------------------------------------------------------------- ||| !!! 注意分词的词库位置: ||| Util.java 中的配置路径一定要正确,指向:dict\chinesePhraseIndex ||| 词库包括3个文件: ||| 2005-01-13 16:05 4 deletable ||| 2005-01-13 16:24 0 a.txt ||| 2005-01-13 16:05 30 segments ||| 2005-01-13 16:05 1,485,193 _11p5.cfs ||| 4 个文件 1,485,227 字节 ------------------------------------------------------------------------- java类说明: SentenceSpliter.java 分词主类,可以直接运行来打印测试分词语句. ChineseAnalyzer.java ChineseTokenizer.java 是为lucene写的中文分词算法,其中调用了SentenceSpliter.java来获得分词结果。 SearchUtil.java 中说明了使用ChineseAnalyzer的方法。 ------------------------------------------------------------------------- 使用的类库: java jdk 1.4.2 lucene-1.4.3.jar java-getopt.jar 下载地址:http://apache.justdn.org/jakarta/lucene/binaries/lucene-1.4.3.zip 相关说明: http://jakarta.apache.org/lucene/docs/index.html http://blog.csdn.net/accesine960/archive/2004/12/23/227134.aspx 可以使用eclipse 直接打开这个项目 ------------------------------------------------------------------------- 其他信息: ************************************************************************** 作者信息: * @time Created on 2005-1-13 * @author tcf * @mail [email protected] * @website http://blog.csdn.net/accesine960 * @info 欢迎大家来 http://blog.csdn.net/accesine960/category/35308.aspx * 这个算法还是beta版本,大家共同努力,把中文分词做的更好 **************************************************************************
近期将推出C#版本的实现。
有相关问题请写信给小叮咚: xiaodingdong A T Gmail dot Com 
|