月光软件站 - 编程文档 - Java - Jive笔记2----关于Jive2中的中文搜索

Java

本类阅读TOP10

·使用MyEclipse开发Struts框架的Hello World!(录像1)
·hibernate配置笔记
·AOP编程入门--Java篇
·linux下Tomcat 5.0.20 与 Apache 2 安装/集成/配置
·在win2003下整合了整合Tomcat5.5+ apache_2.0.53+ mod_jk_2.0.47.dll
·构建Linux下IDE环境--Eclipse篇
·Jsp 连接 mySQL、Oracle 数据库备忘(Windows平台)
·ASP、JSP、PHP 三种技术比较
·Tomcat5.5.9的安装配置
·AWT GUI 设计笔记(二)

→ 分类导航

VC语言	Delphi
VB语言	ASP
Perl	Java
Script	数据库
其他语言	游戏开发
文件格式	网站制作
软件工程	.NET开发

Jive笔记2----关于Jive2中的中文搜索

作者：未知来源：月光软件站 加入时间：2005-2-28　月光软件站

Jive虽然构架不错，可是在中文处理上，实在可以算是垃圾。Lucene也是如此。最新版的Lucene1.2RC2中，queryParser类竟然只能处理A-Z|a-z|0-9的搜索。如果输入了中文，就给你扔出一个“Lexial parse Error”的错误。而且，E文中的Keyword是根据空格区分，这不适用于中文，所以一般采用基于字典的断词或者OverLapped断词。了解了上面的情况，我们就可以开始修改Lucene以实现中文搜索了。

(1)修改queryParser.jj，修改里边的词法定义，以适应Unicode双字节。QueryParser是由JavaCC生成的，建议了解一下JavaCC的语法，和EBNF概念相似。

(2)编写一个自己的Analyzer和Tokenizer。这里我从Lucene的Mail List中搞到了一个ChineseTokenizer.java,自己根据StandardAnalyzer.java写了一个ChineseAnalyzer.java。我们将用这个分析器用Overlapped方式切割一个完整的中文语句。

(3)修改Jive2中的dbQuery.java和SearchManager.java，
将imoprt com.lucene.*...改成import org.apache.lucene.*...
将里边的StandardAnalyzer改成ChineseAnalyzer

(4)编译，启动Jive,Rebuild index.现在，你的Jive2就能支持中文搜索了

注意:
Jive和AppServer必须在中文环境下运行。比如中文的NT/2000或者在Unix/Linux下边设置export LC_ALL=zh_CN.
同时，Global.jsp中加上request.setCharacterEncoding("gb2312");
分别给相关的页面加上contentType="text/html;charset=gb2312".这样可以不改动应付绝大多数AppServer,包括垃圾Tomcat4.0.1。
还有，修改dbURL为jdbc:mysql://localhost/jive2?useUnicode=true&characterEncoding=gb2312
附：
修改的
QueryParser.jjzh
\ChineseAnalyzer.java
zh\ChineseTokenizer.java
三个文件的Zip包

我是凭着记忆写的。讲得很模糊，也许老手不屑一顾，新手死活看不懂。对不住了，我的表达能力很差的。

Good Luck!

相关文章：

相关软件：