抓取“科技新闻”详细内容代码页(readNewsDetail.php):
<title>CTOHome.com 科技新闻频道</title>
<?php
/*
* ctohome.com 深圳新闻
*/
$url_ary = explode("/",$url);
$url = $url_ary[count($url_ary)-2] . "/" . $url_ary[count($url_ary)-1];
$url = "http://news.szptt.net.cn/" . $url;
if(isset($url)&&$url!="") {
$str = implode("",file($url));
$str_ary = explode("<table",$str);
echo "<CENTER><table bgcolor=#C0C0C0><tr><td>";
for ($i=4; $i<6; $i++) {
echo "<table" . $str_ary[$i];
}
echo "</td></tr></table></CENTER>";
}
?>
抓取的方法要视不同的原代码而定,事前要仔细分析你要抓取的页的HTML原代码,然后找出规律,最后才写代码。IE对HTML语法的纠错功能很强,所以只要显示结果正确,抓取后的代码有些语法错误也没关系。
|