月光软件站 - 编程文档 - Java - 小叮咚切分词方法加入sourceforge.net中WebLucene分词模块

Java

本类阅读TOP10

·使用MyEclipse开发Struts框架的Hello World!(录像1)
·hibernate配置笔记
·AOP编程入门--Java篇
·linux下Tomcat 5.0.20 与 Apache 2 安装/集成/配置
·在win2003下整合了整合Tomcat5.5+ apache_2.0.53+ mod_jk_2.0.47.dll
·构建Linux下IDE环境--Eclipse篇
·Jsp 连接 mySQL、Oracle 数据库备忘(Windows平台)
·ASP、JSP、PHP 三种技术比较
·Tomcat5.5.9的安装配置
·AWT GUI 设计笔记(二)

→ 分类导航

VC语言	Delphi
VB语言	ASP
Perl	Java
Script	数据库
其他语言	游戏开发
文件格式	网站制作
软件工程	.NET开发

小叮咚切分词方法加入sourceforge.net中WebLucene分词模块

作者：未知来源：月光软件站 加入时间：2005-2-28　月光软件站

    小叮咚采用的是逆向最大匹配分词法，算法简单，可以满足大部分的分词应用。现在已经集成到WebLucene项目中，开放源代码。有需要的朋友可以下载代码使用。
    这个版本还没有实现我在一种面向搜索引擎的中文切分词方法一文中提到的分词思路。比如：汉字的StopWords,对标点符号的处理等等。
    也希望对分词感兴趣的朋友一起讨论实现改进实现小叮咚分词的切分效果。

下面是Readme.txt中的内容：

使用说明：
-------------------------------------------------------------------------
||| !!! 注意分词的词库位置：
||| Util.java 中的配置路径一定要正确,指向：dict\chinesePhraseIndex
||| 词库包括3个文件：
||| 2005-01-13 16:05 4 deletable
||| 2005-01-13 16:24 0 a.txt
||| 2005-01-13 16:05 30 segments
||| 2005-01-13 16:05 1,485,193 _11p5.cfs
||| 4 个文件 1,485,227 字节
-------------------------------------------------------------------------
java类说明：
SentenceSpliter.java
分词主类,可以直接运行来打印测试分词语句.
ChineseAnalyzer.java
ChineseTokenizer.java
是为lucene写的中文分词算法，其中调用了SentenceSpliter.java来获得分词结果。
SearchUtil.java 中说明了使用ChineseAnalyzer的方法。
-------------------------------------------------------------------------
使用的类库：
java jdk 1.4.2
lucene-1.4.3.jar
java-getopt.jar
下载地址：http://apache.justdn.org/jakarta/lucene/binaries/lucene-1.4.3.zip
相关说明：
http://jakarta.apache.org/lucene/docs/index.html
http://blog.csdn.net/accesine960/archive/2004/12/23/227134.aspx
可以使用eclipse 直接打开这个项目
-------------------------------------------------------------------------
其他信息：
**************************************************************************
作者信息：
* @time Created on 2005-1-13
* @author tcf
* @mail [email protected]
* @website http://blog.csdn.net/accesine960
* @info 欢迎大家来 http://blog.csdn.net/accesine960/category/35308.aspx
* 这个算法还是beta版本，大家共同努力，把中文分词做的更好
**************************************************************************

近期将推出C#版本的实现。

有相关问题请写信给小叮咚： xiaodingdong A T Gmail dot Com

相关文章：

相关软件：