精华区 [关闭][返回]

当前位置:网易精华区>>讨论区精华>>网络专区>>● Network>>internet>>技术网站>>请用好网上搜索引擎大观园

主题:请用好网上搜索引擎大观园
发信人: taoboy()
整理人: terryh(2002-03-22 20:28:35), 站内信件
如果知道了网上的不同的搜索工具是如何设计的,特别是知道了每个 
工具的特殊的规则(对不同的工具这常常是不同的),就能更好地使用这 
些工具。本文将介绍这方面的知识,文中提到的工具是按其实用的程度组 
织的,并简要地介绍了它们的规则。文中还举出了一些简单的例子,如果 
想得到更详细的例子,请查看站点上的帮助文档。 
 
    一、AltaVista(http://www.altavista.com) 
 
    AltaVista是网上搜索引擎的领先者,它有最大的、详尽的索引。但 
这并不是说它是无所不包、无所不能的。在使用不同的搜索引擎时,不同 
的人和不同的索引策略导致的是不同的结果。不过AltaVista总能返回有 
用的信息,但由于没有对内容进行选择,它的“信噪比”也是最大的。 
 
     AltaVista可以对网页和很多Usenet Newgroups进行查找。它可以对 
返回的结果的格式进行控制,分为标准、压缩和详细三种格式。它还能提 
供简单的和高级的搜索。高级的搜索包括了简单的搜索的所有特性,还允 
许使用布尔运算符和接近操作符、括号等,查找的结果按关键词排序。 
 
    1.简单的搜索 
 
    要进行有效的搜索,最好输入描述所感兴趣的主题的尽可能多而精确 
的词或词组。提供的词组越精确,检索结果就越好。 
 
    大小写敏感性:若输入的都是小写字母的词,则对大小写不敏感;而 
含大写字母的词则是对大小写敏感的。如HotDog只搜索含有这个词的内容, 
而hotdog则不论大小写都搜索。 
 
    词组:要把词合成词组, 应把它们用上双引号。 " Abraham Lincoln" 
查那些含有Abraham Lincoln这个名字的内容,区分大小写。另一种链接单 
词的方法是在它们的中间插入分号,如: 
 
         Abraham;Lincoln;Gettysburg;Address. 
 
    要求的单词:如果要求特定单词包含在索引的文档中,可以在它前面 
加一个+号,如:+HotDog。并且在+号和单词之间不能有空格。 
 
    排除的单词:如果要排除含有特定单词的文档,可以在它前面加一个 
-号:-mustard。如果想查找F. Scott Fitzgerald 而不含有Gatsby, 应 
这样: +"F. Scott Fitzgerald" -Gatsby。 
 
    通配符:进行简单查找的时候,可以在单词的末尾加一个通配符来代 
替任意的字母组合。AltaVista的通配符是*号。如,butt*可以代表butt、 
butts、butter和button等。星号不能用在单词的开始或中间, 它最多可 
以代替5个小写的字母。 
 
    等级:AltaVista会为查得的结果按下列的标准赋予一个可靠等级: 
 
    ①在结果的前几个单词中含有要查找的单词(特别是网页的标题); 
    ②在结果中要查找的单词很靠近; 
    ③该结果比其它的结果含有更多的要查找的词。 
 
    权衡了这些因素后,最高可靠等级的结果的得分是1.000。 所有的其 
它结果按可靠度给与低于1.000的一个分。这并不是说得分是1.000的结果 
是最好的资源,它只是最好地满足了分级的算法。除非你知道要查找的文 
档的标题,否则得分第一的结果未必是“最好”的结果。例如,要查找标 
题为“Mr.Willam Shakespeare and the Internet”的文档,可以通过 
把该词组引起来来得到确切的网页。但如果分别地输入这几个词,或只是查找 

“shakespeare”就会查得太多的无用的结果。 
 
    对使用AltaVista的最有用的建议是, 由于它的索引是基于整个单词 
的正文的,在描述查找的单词时越精确越好,还要去掉那些不感兴趣的单 
词。 
 
    2.高级的搜索 
 
    高级搜索包含了简单的搜索的所有特性,还可以有布尔和接近操作符、 
括起来的逻辑组合等。布尔和接近搜索:Alta Vista支持二元操作符AND、 
OR、NEAR和一元操作符NOT。可以使用下列符号来代替单词:& (AND)、 
| (OR)、~ (NEAR)、! (NOT)。但作者建议使用单词而不是符号,因为单 
词容易记忆而且对其它的搜索要求也通用。最好用括号把单词组括起来,不 
过这并不是必须的。 
 
    例子: 
 
        horses AND carriages 
 
        "Abraham Lincoln" AND "civil war" 
 
        ("Abraham Lincoln") AND NOT ("civil war") 
 
        (注意:不要使用x NOT y, 必须是x AND NOT y。) 
 
        "Thomas Middleton" OR "Beaumont and Fletcher" 
 
        (dogs OR cats) AND ("pet care") 
 
        "William Shakespeare" NEAR internet 
 
    结果等级:使用高级的搜索还能指定AltaVista 用于排序结果的关键 
词。这样,虽然对查找的结果没有影响,但可能最感兴趣的结果会放在最 
前面。 
 
    二、Excite(http://www.excite.com) 
 
    Excite使用的是基于关键词或基于概念的正文和主题搜索。按Excite 
的作者的话来说,概念搜索不是只简单地查找含有要查找的单词的文档, 
同时还搜索同要查找的概念相关的文档。缺省的查找是概念查找。用户可 
以查找网上的文档、评论、UseNet NewsGroup或分类区。在同一个搜索框 
内可以输入简单的或更高级的搜索,包括布尔搜索和逻辑组。用户不能像 
其它一些搜索引擎一样控制搜索结果的格式。 
 
    对于所有的搜索引擎来说,在搜索框内输入的描述单词越多,查得的 
相关结果越少。按照它的分级算法,在搜索框内出现的一个单词的次数越 
多,含有它的结果的等级越高:dog dog dog cat将使含dog的结果的等级 
比含cat的结果的等级高。 
 
    Excite中要求的单词和排除的单词的使用方法同AltaVista一样,使用 
+号和-号。 
 
    布尔搜索:Excite支持二元操作符AND、OR、AND  NOT 和一元操作符 
NOT。它也支持用括号来构成逻辑组。缺省的关键词使用的是隐式的OR , 
即它搜索含有指定的任意的单词。 
 
    例子: 
 
         (illegal AND immigrant) AND NOT (Mexico) 
 
         alien OR ufo 
 
         alien AND NOT ufo 
 
         football AND (rugby OR soccer) 
 
    三、Webcrawler(http://www.webcrawler.com) 
 
    现在由America On-Line公司赞助的Webcrawler 是一个杰出的搜索引 
擎, 它样子很象 AltaVista 。 实际上, 它在高级搜索方面的功能要比 
AlataVista强。产量接近操作符NEAR和ADJ,它还有由GNN的编辑们事先分 
好类的主题。它实现了基于主题的搜索,这方面很象Excite。最后,它还 
有自己的优点, 因为有这样一个大公司支持,  它的商业化的色彩不象 
Excite和Lycos那样浓。 
 
    Webcrawler号称支持“自然语言搜索”,所以可以输入象“highest 
 mountain in the world(世界上最高的山)”这样的查询条件。 它抛弃 
了无意义的词,对其余的词做模糊的AND搜索。 含有所有的词的页面等级 
最高, 但也能查到只含一个词的页面。 这是那些最佳引擎的通用策略。 
Webcrawler的不同之处在于它定义的无意义的词相当广。 
 
    显示控制:可以选择显示结果的网页标题或标题和小结都显示。也可 
以选择每页显示的结果数:10、25或100。 小结模式将显示该页的摘要, 
它的URL,它的可靠等级的数字显示。 
 
    可靠等级:在每个结果的旁边有一个看起来有些象六月的幼虫的图标, 
幼虫越满,结果的可靠等级越高。当选择小结模式时,显示的是数字,但 
好象只是结果中含有的搜索词出现的次数。 
 
    词组、布尔和接近操作符的使用类似于AltaVista。 但它的接近操作 
符很有特色。可以使用NEAR/n,n是两个被搜索词之间的单词的数目,如: 
Shakespeare NEAR/5 Internet。如果不输入n,表示两个词挨在一起。为 
了控制挨在一起的两个词之间的顺序,可以使用 ADJ 操作符,如: 
 reverse ADJ osmosis,表示reverse必须在osmosis之前。 
 
    Webcrawler不支持要求/排除的单词的查找,也不支持通配符。 
 
    主题目录:这也是 Webcrawler 的一个特点。 目录是由 Global 
 Network Navigator的编辑们创建的,相当的好。 
 
    总的来说,Webcrawler在使用的简便和实现的接近操作符搜索上是很 
突出的,但它的索引好象不如AltaVista和Lycos那么广泛。它还提供了一 
些特殊的服务,如“反向搜索网络”,可以看谁连到了你的网页上,还有 
网络统计功能等。 
 
    四、Lycos(http://www.lycos.com) 
 
    Lycos是最早出现的搜索引擎之一。随着网络的爆炸, 出现了更好的 
搜索引擎,虽然Lycos不象其它一些那么杰出,但它仍然又好又快。它提供 
关键词和主题查询(主题查询叫做目录服务)。它的优点在于它的速度快、 
使用简便、索引很大,它的弱点则是它不支持布尔搜索和其它如ALtaVista、 
Webcrawler或Excite能提供的一些高级搜索。 
 
    显示控制:可以控制搜索的词之间的关系--OR(缺省)、AND等,每 
页显示结果的数目(10、20、30或40),和结果的内容(标准、小结或详 
细)等。 
 
    包含/排除和等级:Lycos不提供要求/排除单词的功能, 但可以在一 
个单词前加一个"-"号,表示在给结果定等级时,不考虑这个单词, 如: 
dogs-doberman,也能查到含doberman的页面, 但那些页面不会是很靠前 
的结果。 
 
    通配符:它的通配符是$符号。如gen$ 表示 genetic、 genesis、 
general等。它还提供了英文句号(.)的使用,可以禁止扩展一个单词。 
如gene.,只能得到gene,而得不到genetics和general。 
 
    五、Opentext (http://www.opentxt.com) 
 
    Opentext早期流行过一阵,现在它的帮助页面上的信息已经不再 
精确了。不过,它还是一个很好的搜索工具。 
 
    Opentext不支持通配符,但它能很好地处理复数。用户不用输入单词 
的复数,它能自动地查找这些单词的复数形式。 
 
    接近操作符:它实现了NEAR操作符,但范围是80个单词,不能调整。 
还实现了FOLLOWED BY操作符(就象Webcrawler的ADJ操作符),但范围也 
是不能调整的80个单词。这么大的范围降低了操作符的用处。 
 
    Opentext不局限于整个单词,所以搜索head也能查到 headstrong 和 
headline。但如果输入了复数而不是单数,就查不到这个词。所以,对于 
Opentext来说,正确的拼写是很重要的。 
 
    六、Infoseek(http://www.infoseek.com) 
 
    Infoseek以前曾经是Netscape的缺省搜索引擎。它并不是最好的。它 
的优点在于它的速度快和使用方便。它的缺点在于它缺乏高级功能(不支 
持布尔搜索)。 它既是搜索引擎, 又是可搜索的主题目录, 可以搜索 
UseNet NewsGroups、E-Mail地址和Web的FAQ。 
 
    搜索是对大小写敏感的。大写的单词被当成正确的名词来查找。相邻 
的大写单词被认为是一个词组。大写的词组必须被逗号分开,如:The 
 Great Bambino, Baseball Hall Of Fame。词组也可以有双引号引起来, 
另一种方法是使用连字符,如wonderful-life。 
 
    要求/排除操作符:同AltaVista一样,使用+号和-号。用法也相同。 
 
    接近操作符:把单词放在方括号里,要求它们的距离在100 个单词之 
内,如[immune disease]。 
 
    七、Yahoo!(http://www.yahoo.com) 
 
    Yahoo!不是搜索引擎,而是严格的层次组织的主题索引。它已经开发 
了很长时间,有很多编辑人员来维护,所以质量非常高。当不知该去哪里 
的时候,在Yahoo!上浏览是找到好站点的最好方法。它也是找到好的“初 
学者”站点的最好方法,从那里可以连到更专门的站点上。 
 
    Yahoo!的使用很简单。只要输入查找单词,单击按钮即可。它将返回 
三种信息: 
    1)满足查询条件的Yahoo的目录(用户可以利用它们进行交叉引用); 
    2)满足条件的实际站点; 
    3)更广泛的含有页面索引的Yahoo!目录--这是一种更广泛的交叉 
引用。 
    虽然不能进行很高级的搜索,但用户可以控制: 
 
    1.搜索的范围:Yahoo(缺省),Usenet或Email Address; 
 
    2.搜索词之间的关系:OR还是AND(缺省); 
 
    3.是进行子串搜索(如输入head,可以查headlines )还是进行完整 
的单词搜索(如输入headlines 才搜索headlines),缺省是子串搜索;  
控制每页显示的结果数目:10,25(缺省),50或100。 
 
    八、NlightN(http://www.nlightn.com) 
 
    NlightN是一种经典的信息/文档交付服务。可以免费地使用它的通用 
索引,在订购文档的时候才支付费用。它的索引除了网页外,还包含参考 
著作、新闻电信、书籍、论文和很多公共和专用的数据库。这是一个盈利 
的组织。虽然可以得到一个免费的帐号,但查找的能力很有限。如果要想 
付费使用的话,可以从它的帮助文档里得到FAQ。 
 
    它的搜索查看很简单,只要输入词,单击FIND按钮,就会进入一个中 
间窗口,显示查到的结果有以下几种类型: 
 
    1.信息数据库; 
 
    2.当前的新闻简介; 
 
    3.新闻档案; 
 
    4.WWW互联网索引; 
 
    5.桌面参考; 
 
    6.折价的书店。 
 
    选择了WWW之后,会发现它的索引不如其它的完整, 但也能找到一些 
有用的信息。 
 
    布尔查找:缺省的操作符是AND。建立布尔表达式的时候, 可以用符 
号&代表AND,|代表OR,^代表NOT,如(Army & Navy) ^ (Air Force)。可 
以用括号把单词组成词组。 
 
    如果得到了一个正式的帐号,搜索窗口就不一样了。可以在域内进行 
选择(就象图书馆目录中的作者/书名/主题域),还可以控制搜索的数据 
库的范围。通过LIMIT/FILTER和SEARCH LOG选项还能聚焦搜索的范围和访 
问以前的搜索结果。 
 
    九、The Internet Sleuth(http://www.isleuth.com 
 
 
    这是一个很有用的工具,不过并不是那么完整。它同前面的工具有些 
不同。它对大量的数据库做了索引,提供了一个前端的工具。因此,在搜 
索框内输入尽可能广义的一个单词,然后在结果搜索窗口中选择最合适的。 
例如,想要查找Sonny Bono的经典歌曲“I Got Your Babe”,首先搜索 
“music",结果将是29个可搜索的数据库,如CD-Rom数据库、音乐学院、 
芝加哥音乐会、Smithsonian民谣等。其中有一个叫歌词服务器,从中可 
以得到想要的歌词。 
 
    它允许布尔搜索和通配符搜索,还有关于搜索的提示。它甚至能查到 
Yahoo的索引。 
 
    十、Magellan(http://www.magellan.com) 
 
    Magellan实际上不是一个搜索引擎,而是一个在线的Internet指南, 
包含了被分级和评价过的站点的目录,也有很多没评价过的站点的索引。 
它有点象Yahoo!,虽然不太完整,但它的分级系统却很全(从一星到四 
星)。它的优点在于它的评价系统。它的重点是流行站点(UFO是它的 
前页的主要目录之一)。唯一的缺点是那些不可避免的广告。

--
※ 来源:.月光软件站 http://www.moon-soft.com.[FROM: 202.102.120.105]

[关闭][返回]