离线浏览器是我们漫游茫茫网海的得力武器,然而一个站点里的东西往往太杂,总有你不感兴趣的。要是能提前预览到站点地图,实时进行过滤,那该多好啊,据说Website Extractor就可以做到。
1. 查看网站地图,设置过滤条件
Website Extractor的界面非常友好直观。左侧中间B是“Site map”(站点地图)窗口,它上面的窗口A让你填写要下载的站点网址,下面C是“Follow and extract new links”窗口,必须勾选此窗口才能探索站点的连接,建立站点地图。右侧上半部D是使用IE内核的浏览窗口(你的电脑中必须装有IE),可以在“Preview site online”(在线)和“View site offline”(离线)之间切换,其下侧窗口E用来查看下载线程的个数及进度。
“Site map”可以切换为两个窗口“Extracted links”、“Downloaded files”,分别显示已探索到的链接和已下载的文件。 点击“Extracted links”标签,窗口以树状显示探索到的站点结构图,如同Windows的资源管理器,包括目录名、文件名。当然并不是所有显示的都已下载到硬盘了,只有那些前面标有绿勾的才是。从这张站点地图中,你可以凭文件名大概了解网站中文件的分布。同时,点击已下载的页面,该页面会显示在右侧的“View site offline”窗口中,观察页面内的导航条,凭经验综合做出判断。一般来说,同类文件会放在同一文件夹下,图片会放在Image文件夹下,网页设计者一般会用英语或汉语拼音作为文件名(有的是简写)。
当你了解了站点结构后,可以即时按下界面右上角的“Options”按钮,在弹出界面“URL/Domain Filter”中设置过滤条件(分别为包含和排除),设置会即时生效,用得较多的是文件夹和文件名过滤。例如要排除文件名中含ad、pop等字样的文件,以及Guestbook文件夹下有关游客留言的内容,可先切换到“Filename”项,点击“Exclude”(排除)窗口中的“Add”按钮,在跳出窗口中填入“ad*.*”、“pop*.*”,最后点击“OK”即可;同理在“Directory”中排除“Guestbook”子目录。
小提示:在界面右上角设置了7个小按钮图中M处 ,每按一个就换一种界面,各界面分别隐藏一些不常用的窗口,相应扩大了常用窗口。

|