月光软件站 - 编程文档 - 其他语言 - cmsez挂接的新闻抓取模块

其他语言

本类阅读TOP10

·基于Solaris 开发环境的整体构思
·使用AutoMake轻松生成Makefile
·BCB数据库图像保存技术
·GNU中的Makefile
·射频芯片nRF401天线设计的分析
·iframe 的自适应高度
·BCB之Socket通信
·软件企业如何实施CMM
·入门系列--OpenGL最简单的入门
·WIN95中日志钩子（JournalRecord Hook）的使用

→ 分类导航

VC语言	Delphi
VB语言	ASP
Perl	Java
Script	数据库
其他语言	游戏开发
文件格式	网站制作
软件工程	.NET开发

cmsez挂接的新闻抓取模块

作者：未知来源：月光软件站 加入时间：2005-2-28　月光软件站

cmsez挂接的新闻抓取模块

前2天发了篇关于抓取的文章，而且看到大家对抓取的功能比较赶兴趣，画了点时间把抓取功能做到了cmsez 1.01中去了。
给大家看一下demo
http://www.cmsez.com/demo/admin.php
用户名:a1,a2,a3,admin
密码:admin

(测试版本，屏蔽了参数设定，用户管理，输出html不能删除前2个抓取的代码，也不能更新前2个代码，主要是给大家看一个范例)
如果你登陆上去了，很快就退出来了，说明有人用同样的用户上去了，你被挤下来了。
抓取速度和你要抓的网站速度和主机速度有关系，主机在湛江，可能北方的哥们访问的慢一些。）

测试抓取的方式如下：
点击“增强模块->新闻抓取”
点击：添加，可以增加抓取的url，并自己设定抓取的代码

下面是代码说明，整个过程无需写任何的正则表达式
原文在此：[url=http://www.cmsez.com/demo/db/fetch_intro.txt]原文[/url]
新闻专区功能的简单说明（以千龙网为例）
注意：默认抓取100条，多了就忽略了，而且只抓最新的，遇上以前抓取过的内容，程序就自动停止了。如果想抓取同样的数据，请点击站点后面的清零链接。
1)添加抓取的站点，此处的站点是你需要抓取的内容的列表页面。
   站点名称：随便写，便于记忆就可以了
   新闻类别：也是随便写，便于记忆的
   选择分类：是cmsez的文章分类，抓取结果直接进入此分类的数据库的
   url：你要抓取的新闻的列表页面，比如说：http://china.qianlong.com/ 这是千龙的国内新闻列表页面
   内容url：这个要注意，因为有些新闻列表页面的新闻链接是相对地址，你需要在这里把链接补足，变成绝对地址。
       比如说刚刚那个列表页面中，新闻地址是
       <a href=http://china.qianlong.com/4352/2004/10/10/[email protected] target=_blank>新闻标题</a>
       本身就是一个绝对的url地址，这里内容url就留空就可以了。
       假如说上面的地址是
       <a href=/4352/2004/10/10/[email protected] target=_blank>新闻标题</a>
       那么你就需要在这里填写http://china.qianlong.com，这样才能是一个完整的绝对的url地址。

  运行：随便，这个现在没用，是以前给自动运行准备的。
  简介：随便写，方便记忆的
  列表识别：这里你不需要写正则表达式，首先你分析一下http://china.qianlong.com/这个页面，找出列表前后的标记
  例如列表开始之前的代码是<table width="100%" border="0" cellspacing="0" cellpadding="0">，这个一定要够特别，否则不能保证抓取的正确性
  技术的标记是 
  那么列表识别的代码就是 <table width="100%" border="0" cellspacing="0" cellpadding="0">**
  没错就是这么简单的。

标题识别：具体文章的标题识别表达式，做法和列表识别类似，不过分析的是新闻页面。
比如：<div class="Heading">**</div>

日期识别代码：这里会写正则的就写，但是因为入库的时候日期字段是datatime，格式不正确是写不进去的。
来源识别：<div class="Date">**</div>
内容识别：就是正文前后的html代码加上**就可以了。比如：<td class="Content">**</td>
          </tr>
        </table>
这里要注意一下，html代码中的回车符号和空格符合一定要和页面中的一致，因为加上这些东西，才是唯一性的代码。你可以用文本编辑器直接打开页面，复制过来就可以了。
广告识别：这里识别出来的东西，将会被剔除的，代码范例：<table align = left><tr><td><SCRIPT**</SCRIPT></td></tr></table>

填写完上面的代码之后，保存一下，然后返回了站点列表页面，点击你刚刚增加的站点后面的测试，看看返回的信息是不是正确的，正确的说明你作的很好，不正确说明你哪里写错了，重新编辑一下，再来测试，直到返回的是正确的。
返回信息最上面是你抓取的url列表，下面是你抓取的标题和取出广告后的内容。

相关文章：

相关软件：