发信人: taoboy()
整理人: terryh(2002-03-22 20:28:35), 站内信件
|
如果知道了网上的不同的搜索工具是如何设计的,特别是知道了每个
工具的特殊的规则(对不同的工具这常常是不同的),就能更好地使用这
些工具。本文将介绍这方面的知识,文中提到的工具是按其实用的程度组
织的,并简要地介绍了它们的规则。文中还举出了一些简单的例子,如果
想得到更详细的例子,请查看站点上的帮助文档。
一、AltaVista(http://www.altavista.com)
AltaVista是网上搜索引擎的领先者,它有最大的、详尽的索引。但
这并不是说它是无所不包、无所不能的。在使用不同的搜索引擎时,不同
的人和不同的索引策略导致的是不同的结果。不过AltaVista总能返回有
用的信息,但由于没有对内容进行选择,它的“信噪比”也是最大的。
AltaVista可以对网页和很多Usenet Newgroups进行查找。它可以对
返回的结果的格式进行控制,分为标准、压缩和详细三种格式。它还能提
供简单的和高级的搜索。高级的搜索包括了简单的搜索的所有特性,还允
许使用布尔运算符和接近操作符、括号等,查找的结果按关键词排序。
1.简单的搜索
要进行有效的搜索,最好输入描述所感兴趣的主题的尽可能多而精确
的词或词组。提供的词组越精确,检索结果就越好。
大小写敏感性:若输入的都是小写字母的词,则对大小写不敏感;而
含大写字母的词则是对大小写敏感的。如HotDog只搜索含有这个词的内容,
而hotdog则不论大小写都搜索。
词组:要把词合成词组, 应把它们用上双引号。 " Abraham Lincoln"
查那些含有Abraham Lincoln这个名字的内容,区分大小写。另一种链接单
词的方法是在它们的中间插入分号,如:
Abraham;Lincoln;Gettysburg;Address.
要求的单词:如果要求特定单词包含在索引的文档中,可以在它前面
加一个+号,如:+HotDog。并且在+号和单词之间不能有空格。
排除的单词:如果要排除含有特定单词的文档,可以在它前面加一个
-号:-mustard。如果想查找F. Scott Fitzgerald 而不含有Gatsby, 应
这样: +"F. Scott Fitzgerald" -Gatsby。
通配符:进行简单查找的时候,可以在单词的末尾加一个通配符来代
替任意的字母组合。AltaVista的通配符是*号。如,butt*可以代表butt、
butts、butter和button等。星号不能用在单词的开始或中间, 它最多可
以代替5个小写的字母。
等级:AltaVista会为查得的结果按下列的标准赋予一个可靠等级:
①在结果的前几个单词中含有要查找的单词(特别是网页的标题);
②在结果中要查找的单词很靠近;
③该结果比其它的结果含有更多的要查找的词。
权衡了这些因素后,最高可靠等级的结果的得分是1.000。 所有的其
它结果按可靠度给与低于1.000的一个分。这并不是说得分是1.000的结果
是最好的资源,它只是最好地满足了分级的算法。除非你知道要查找的文
档的标题,否则得分第一的结果未必是“最好”的结果。例如,要查找标
题为“Mr.Willam Shakespeare and the Internet”的文档,可以通过
把该词组引起来来得到确切的网页。但如果分别地输入这几个词,或只是查找
“shakespeare”就会查得太多的无用的结果。
对使用AltaVista的最有用的建议是, 由于它的索引是基于整个单词
的正文的,在描述查找的单词时越精确越好,还要去掉那些不感兴趣的单
词。
2.高级的搜索
高级搜索包含了简单的搜索的所有特性,还可以有布尔和接近操作符、
括起来的逻辑组合等。布尔和接近搜索:Alta Vista支持二元操作符AND、
OR、NEAR和一元操作符NOT。可以使用下列符号来代替单词:& (AND)、
| (OR)、~ (NEAR)、! (NOT)。但作者建议使用单词而不是符号,因为单
词容易记忆而且对其它的搜索要求也通用。最好用括号把单词组括起来,不
过这并不是必须的。
例子:
horses AND carriages
"Abraham Lincoln" AND "civil war"
("Abraham Lincoln") AND NOT ("civil war")
(注意:不要使用x NOT y, 必须是x AND NOT y。)
"Thomas Middleton" OR "Beaumont and Fletcher"
(dogs OR cats) AND ("pet care")
"William Shakespeare" NEAR internet
结果等级:使用高级的搜索还能指定AltaVista 用于排序结果的关键
词。这样,虽然对查找的结果没有影响,但可能最感兴趣的结果会放在最
前面。
二、Excite(http://www.excite.com)
Excite使用的是基于关键词或基于概念的正文和主题搜索。按Excite
的作者的话来说,概念搜索不是只简单地查找含有要查找的单词的文档,
同时还搜索同要查找的概念相关的文档。缺省的查找是概念查找。用户可
以查找网上的文档、评论、UseNet NewsGroup或分类区。在同一个搜索框
内可以输入简单的或更高级的搜索,包括布尔搜索和逻辑组。用户不能像
其它一些搜索引擎一样控制搜索结果的格式。
对于所有的搜索引擎来说,在搜索框内输入的描述单词越多,查得的
相关结果越少。按照它的分级算法,在搜索框内出现的一个单词的次数越
多,含有它的结果的等级越高:dog dog dog cat将使含dog的结果的等级
比含cat的结果的等级高。
Excite中要求的单词和排除的单词的使用方法同AltaVista一样,使用
+号和-号。
布尔搜索:Excite支持二元操作符AND、OR、AND NOT 和一元操作符
NOT。它也支持用括号来构成逻辑组。缺省的关键词使用的是隐式的OR ,
即它搜索含有指定的任意的单词。
例子:
(illegal AND immigrant) AND NOT (Mexico)
alien OR ufo
alien AND NOT ufo
football AND (rugby OR soccer)
三、Webcrawler(http://www.webcrawler.com)
现在由America On-Line公司赞助的Webcrawler 是一个杰出的搜索引
擎, 它样子很象 AltaVista 。 实际上, 它在高级搜索方面的功能要比
AlataVista强。产量接近操作符NEAR和ADJ,它还有由GNN的编辑们事先分
好类的主题。它实现了基于主题的搜索,这方面很象Excite。最后,它还
有自己的优点, 因为有这样一个大公司支持, 它的商业化的色彩不象
Excite和Lycos那样浓。
Webcrawler号称支持“自然语言搜索”,所以可以输入象“highest
mountain in the world(世界上最高的山)”这样的查询条件。 它抛弃
了无意义的词,对其余的词做模糊的AND搜索。 含有所有的词的页面等级
最高, 但也能查到只含一个词的页面。 这是那些最佳引擎的通用策略。
Webcrawler的不同之处在于它定义的无意义的词相当广。
显示控制:可以选择显示结果的网页标题或标题和小结都显示。也可
以选择每页显示的结果数:10、25或100。 小结模式将显示该页的摘要,
它的URL,它的可靠等级的数字显示。
可靠等级:在每个结果的旁边有一个看起来有些象六月的幼虫的图标,
幼虫越满,结果的可靠等级越高。当选择小结模式时,显示的是数字,但
好象只是结果中含有的搜索词出现的次数。
词组、布尔和接近操作符的使用类似于AltaVista。 但它的接近操作
符很有特色。可以使用NEAR/n,n是两个被搜索词之间的单词的数目,如:
Shakespeare NEAR/5 Internet。如果不输入n,表示两个词挨在一起。为
了控制挨在一起的两个词之间的顺序,可以使用 ADJ 操作符,如:
reverse ADJ osmosis,表示reverse必须在osmosis之前。
Webcrawler不支持要求/排除的单词的查找,也不支持通配符。
主题目录:这也是 Webcrawler 的一个特点。 目录是由 Global
Network Navigator的编辑们创建的,相当的好。
总的来说,Webcrawler在使用的简便和实现的接近操作符搜索上是很
突出的,但它的索引好象不如AltaVista和Lycos那么广泛。它还提供了一
些特殊的服务,如“反向搜索网络”,可以看谁连到了你的网页上,还有
网络统计功能等。
四、Lycos(http://www.lycos.com)
Lycos是最早出现的搜索引擎之一。随着网络的爆炸, 出现了更好的
搜索引擎,虽然Lycos不象其它一些那么杰出,但它仍然又好又快。它提供
关键词和主题查询(主题查询叫做目录服务)。它的优点在于它的速度快、
使用简便、索引很大,它的弱点则是它不支持布尔搜索和其它如ALtaVista、
Webcrawler或Excite能提供的一些高级搜索。
显示控制:可以控制搜索的词之间的关系--OR(缺省)、AND等,每
页显示结果的数目(10、20、30或40),和结果的内容(标准、小结或详
细)等。
包含/排除和等级:Lycos不提供要求/排除单词的功能, 但可以在一
个单词前加一个"-"号,表示在给结果定等级时,不考虑这个单词, 如:
dogs-doberman,也能查到含doberman的页面, 但那些页面不会是很靠前
的结果。
通配符:它的通配符是$符号。如gen$ 表示 genetic、 genesis、
general等。它还提供了英文句号(.)的使用,可以禁止扩展一个单词。
如gene.,只能得到gene,而得不到genetics和general。
五、Opentext (http://www.opentxt.com)
Opentext早期流行过一阵,现在它的帮助页面上的信息已经不再
精确了。不过,它还是一个很好的搜索工具。
Opentext不支持通配符,但它能很好地处理复数。用户不用输入单词
的复数,它能自动地查找这些单词的复数形式。
接近操作符:它实现了NEAR操作符,但范围是80个单词,不能调整。
还实现了FOLLOWED BY操作符(就象Webcrawler的ADJ操作符),但范围也
是不能调整的80个单词。这么大的范围降低了操作符的用处。
Opentext不局限于整个单词,所以搜索head也能查到 headstrong 和
headline。但如果输入了复数而不是单数,就查不到这个词。所以,对于
Opentext来说,正确的拼写是很重要的。
六、Infoseek(http://www.infoseek.com)
Infoseek以前曾经是Netscape的缺省搜索引擎。它并不是最好的。它
的优点在于它的速度快和使用方便。它的缺点在于它缺乏高级功能(不支
持布尔搜索)。 它既是搜索引擎, 又是可搜索的主题目录, 可以搜索
UseNet NewsGroups、E-Mail地址和Web的FAQ。
搜索是对大小写敏感的。大写的单词被当成正确的名词来查找。相邻
的大写单词被认为是一个词组。大写的词组必须被逗号分开,如:The
Great Bambino, Baseball Hall Of Fame。词组也可以有双引号引起来,
另一种方法是使用连字符,如wonderful-life。
要求/排除操作符:同AltaVista一样,使用+号和-号。用法也相同。
接近操作符:把单词放在方括号里,要求它们的距离在100 个单词之
内,如[immune disease]。
七、Yahoo!(http://www.yahoo.com)
Yahoo!不是搜索引擎,而是严格的层次组织的主题索引。它已经开发
了很长时间,有很多编辑人员来维护,所以质量非常高。当不知该去哪里
的时候,在Yahoo!上浏览是找到好站点的最好方法。它也是找到好的“初
学者”站点的最好方法,从那里可以连到更专门的站点上。
Yahoo!的使用很简单。只要输入查找单词,单击按钮即可。它将返回
三种信息:
1)满足查询条件的Yahoo的目录(用户可以利用它们进行交叉引用);
2)满足条件的实际站点;
3)更广泛的含有页面索引的Yahoo!目录--这是一种更广泛的交叉
引用。
虽然不能进行很高级的搜索,但用户可以控制:
1.搜索的范围:Yahoo(缺省),Usenet或Email Address;
2.搜索词之间的关系:OR还是AND(缺省);
3.是进行子串搜索(如输入head,可以查headlines )还是进行完整
的单词搜索(如输入headlines 才搜索headlines),缺省是子串搜索;
控制每页显示的结果数目:10,25(缺省),50或100。
八、NlightN(http://www.nlightn.com)
NlightN是一种经典的信息/文档交付服务。可以免费地使用它的通用
索引,在订购文档的时候才支付费用。它的索引除了网页外,还包含参考
著作、新闻电信、书籍、论文和很多公共和专用的数据库。这是一个盈利
的组织。虽然可以得到一个免费的帐号,但查找的能力很有限。如果要想
付费使用的话,可以从它的帮助文档里得到FAQ。
它的搜索查看很简单,只要输入词,单击FIND按钮,就会进入一个中
间窗口,显示查到的结果有以下几种类型:
1.信息数据库;
2.当前的新闻简介;
3.新闻档案;
4.WWW互联网索引;
5.桌面参考;
6.折价的书店。
选择了WWW之后,会发现它的索引不如其它的完整, 但也能找到一些
有用的信息。
布尔查找:缺省的操作符是AND。建立布尔表达式的时候, 可以用符
号&代表AND,|代表OR,^代表NOT,如(Army & Navy) ^ (Air Force)。可
以用括号把单词组成词组。
如果得到了一个正式的帐号,搜索窗口就不一样了。可以在域内进行
选择(就象图书馆目录中的作者/书名/主题域),还可以控制搜索的数据
库的范围。通过LIMIT/FILTER和SEARCH LOG选项还能聚焦搜索的范围和访
问以前的搜索结果。
九、The Internet Sleuth(http://www.isleuth.com
这是一个很有用的工具,不过并不是那么完整。它同前面的工具有些
不同。它对大量的数据库做了索引,提供了一个前端的工具。因此,在搜
索框内输入尽可能广义的一个单词,然后在结果搜索窗口中选择最合适的。
例如,想要查找Sonny Bono的经典歌曲“I Got Your Babe”,首先搜索
“music",结果将是29个可搜索的数据库,如CD-Rom数据库、音乐学院、
芝加哥音乐会、Smithsonian民谣等。其中有一个叫歌词服务器,从中可
以得到想要的歌词。
它允许布尔搜索和通配符搜索,还有关于搜索的提示。它甚至能查到
Yahoo的索引。
十、Magellan(http://www.magellan.com)
Magellan实际上不是一个搜索引擎,而是一个在线的Internet指南,
包含了被分级和评价过的站点的目录,也有很多没评价过的站点的索引。
它有点象Yahoo!,虽然不太完整,但它的分级系统却很全(从一星到四
星)。它的优点在于它的评价系统。它的重点是流行站点(UFO是它的
前页的主要目录之一)。唯一的缺点是那些不可避免的广告。
-- ※ 来源:.月光软件站 http://www.moon-soft.com.[FROM: 202.102.120.105]
|
|