Mata Hari 有趣的网站搜索软件

(广西 韦杰)

  Mata Hari是美国的WebTools Company公司1998年的新产品,它是目前网络搜索软件市场上优秀的客户端搜索工具,有包括著名的Alta Vista、Excite、Yahoo等在内的超过100个搜索引擎站点支持它,该软件可根据用户的Web数据请求并利用其最新的文本分析技术处理从众多的搜索引擎站点返回的结果,经过判断、识别,将相关站点的资料保存到本地计算机桌面上的数据库以供离线浏览,且能在用户需要时及时地把过旧的桌面数据库更新,剔除掉那些死链接。因此用户甚至无需为记住一长串的站点IP地址而发愁。这套32位的共享软件目前最新版本为1.01,免费评估版可享用30天,正式版注册费用要79.95美元。MataHari的体积小巧,搜索、下载的速度飞快,可运行于Windows95-98/Windows NT,要求系统最少有8M内存和2M的硬盘空间,支持用户通过代理服务器来拨号访问Internet。想体验它的神奇功能的朋友可到http://www.thewebtools.com/register.htm下载,安装文件是MHInstall.exe,大小为1430K。图1是它的主界面,Mata Hari具有以下几个方面的特性:
  1. 支持以关键词或词组以及布尔逻辑指令搜索(Boolean search),允许发送两个请求到多个搜索引擎里,对不相关的网站与网页有强大的过滤作用,用户可通过最多两个远程数据请求来缩小搜索范围,提高精度。它虽不能像其它的同类工具那样能限制下载文件的特定的格式,但用户能主动地过滤掉自己不想访问的站点类型,创建一组自定义的过滤组合,可设置限制下载到的数据库的尺寸大小和估计下载所需的时间,并能在桌面数据库当中注解网页,把获得的网页分门别类地整理成数据库,使得Internet与用户的桌面数据库形成无缝界面,这是软件的最大特色;
  2. 集成的搜索引擎站点很多,且多个搜索引擎可并行、同时搜索(在同一时间内可使100多个搜索引擎站点并行处理数据请求),搜索引擎站点也可以手动添加;
  3. 搜索速度奇快、体积小巧,呈现的界面直观,使用方便;
  4. 支持HTTP代理服务器搜索,无内置浏览器来浏览获取的结果,离线浏览站点时要启动系统默认的浏览器,但同时使它运行速度加快和占用系统资源相应减少;
  5. 支持下载到本地硬盘里的特定网页在Internet上用集成搜索引擎搜索查找相关链接及其更新;
  6. 能够自动删除重复的资料,搜索结果(数据)打包保存到数据库中,避免了硬盘簇过大造成空间浪费。软件能同时预取60个站点的数据库并同时查询1000个网页。可用本地浏览器(目前支持网景和微软的浏览器)来浏览查看搜索到的结果,并能监视下载到的信息。下载保存到本地硬盘的不同数据库不能同时直观地显示在Mata Hari 的主界面里是它的缺点。
  让我们来熟悉一下利用Mata Hari布尔搜索命令进行搜索的过程。搜索请求必须严格地遵循布尔搜索命令精确的句法规定(有些同类的软件的布尔搜索命令参数与Mata Hari不一样,像Inforian Quest 98使用的是+、-号命令)。软件只允许用户使用大小写字母、阿拉伯数字、圆括号、单引号、双引号和*号作为关键词,像@、?、&、#、+、-、<、>号等都不允许使用。它的常用布尔查询命令形式及代表的含义如下(以A、B、C等来代表关键词为例):A AND B 表示搜索结果必须同时包含有A和B;A OR B 表示搜索结果包含有A,并有可能包含B;使用NOT命令,在请求陈述中NOT前面的内容被接受,而其后的所有内容会被拒绝在搜索之外,此设置仅用于本地搜索。例如:A NOT (B OR C)表示结果只包含A,拒绝搜索B和C;使用AND NOT命令,如(A OR B) AND NOT (C OR D OR E),表示结果只含有A或B,绝无C、D和E;使用NEAR命令,不论如何,使用NEAR命令得到的搜索结果是不确定的,因此用户必须掌握比较一致的精确搜索尺度,才能用NEAR来获得满意的结果。一般说来,应尽量避免在使用NEAR命令的同时,又使用AND或OR命令来搜索。
  Mata Hari提供有三种搜索方式,在“Search source”里选择。
  通过Internet搜索的方式,基于网址是未知的情况这种方式最益使用,在如图1的Queries标签内的Query1 和 Query 2 两栏内填入关键词,熟悉布尔逻辑指令的用户可通过适当的如*号、左、右括号、阿拉伯数字、英文字母等查询。打开“Filters”标签,如图2,点击“Sites”页面,这里设置把不相关的站点域名过滤掉,前提是您事先大致了解本次请求里的关键词不与哪些域名相关,从而把它们过滤掉,Mata Hari的Web数据过滤功能很有特色,它能过滤掉指定的域名、网站等,这里按照国家地区、州(指美国的州)、组织、语系、教育等分类,用户可灵活选择。首先在“Groups”窗口内把不要的域名置亮,然后点击中间方向向右的小箭头,被选者就移到右边的“Sites to exclude”窗口。接下来点击“Filters”标签的“Pages\Dates”页面,此处设置限制返回的网页尺寸大小等。打开“Internet”标签,如图3,点击“Engines”页面,此处设置用户本次请求所需的搜索引擎,点击“Limits”页面,设置好本次下载的时间、网页数量限制,以及返回的站点数量等,再点击“Connection”页面,这里是有关网络连接的设置,比如用户要通过代理服务器访问的话,请设好其服务器名称及端口。点击“Application”标签,这里设定搜索结果保存的  ,勾选下面两个可显示整个搜索过程与当搜索完成时出现消息框。最后按下左边的Search按钮开始搜索(事先要拨号上网),很快地跳出“Search Progress Details”窗口显示整个过程(如图4),窗口的上部是搜索引擎站点返回的链接摘要栏,选定其中任一链接,则在窗口下部的URL状态栏内显示出相关的未经检验的地址。您可以选定地址,按下“View”按钮来启动缺省的浏览器查看这一个链接。使用过程中,如果发生了停留在某个搜索引擎站点上的时间过长的话,您可以按下“Stop”按钮下的那只按钮,这样就可以跳过这个搜索引擎,按下“Stop”按钮则是立即停止本次搜索请求。结果保存的方法:依次点选File\Save as,将结果保存为.dba格式的文件。值得注意的是.dba文件总是伴随着一个同名的.ifs文件,您不必关心它们是如何运作的,只是当您要把下载到的资料拿到朋友处的PC来离线浏览时(当然他的机器也应安装有Mata Hari),一定得把这两个文件一起带去。用户还可以把本次搜索的设置保存为.cfg格式的文件,方法是依次点选File\Save。这个扩展名是cfg的文件只包含了本次请求所含的搜索引擎数、关键词以及过滤设置等信息,因此它的尺寸远小于一个数据库文件,作用是方便您与他人再次向Web发出同样的数据请求。
  其余两种搜索方式(Database和Local HTML)的使用方法与Internet方式大致上相同。值得注意的是Local HTML搜索方式,Mata Hari自动地将本地硬盘的HTML网页中有用的远程相关超链接全部剥离出来,比如您搜索的是安装在计算机上某个软件公司的网页,然后利用此搜索方式把与软件相关的制作公司站点、E-mail、注册地址等信息显示在“Search Progress Details”窗口的URL状态列表里,只要双击该链接就能启动系统默认浏览器连线浏览,而且这对于为您创建一个可搜索的书签数据库是非常有用的。
  综上所述,Mata Hari集中体现了在以下领域里的使用价值:
  1. 用户能把Internet资源下载后再非常从容地脱机离线浏览,无论是正在飞越海洋还是正在某个站点,您需要的 Web 数据总是随时随地垂手可得;
  2. 其内置的集成搜索引擎与搜索加速器为用户更好、更快地向Internet请求链接数据;
  3. 在文件管理和数据库领域方面。通常大多数的情况下,用户的远程数据请求或搜索引擎站点是不能被链接到本地计算机上的。而软件能让用户在访问一个站点服务器时,只要网页内容与别的站点发生链接关系它将会立即主动连接上这个网页指向的后续站点服务器,从而使得用户轻易地把网页编目、索引到本地硬盘的分类数据库当中。
  简要评价:可以说Mata Hari是一款初学冲浪者的合理选择,同时对于经常反复访问某个特定网站的用户来说,运用Mata Hari特有的请求、更新、识别、修改和提炼远程数据搜索结果的功能,能更有柔韧性地处理网络事务,与朋友分享下载的网络资源,这无疑是非常经济实惠的手段。

返回软件助手