如何抓取“深圳之窗”的新闻(2)

如何抓取“深圳之窗”的新闻(2)
 

      抓取“科技新闻”详细内容代码页（readNewsDetail.php）：

<title>CTOHome.com 科技新闻频道</title>

<?php

/*

 * ctohome.com 深圳新闻

 */

$url_ary = explode("/",$url);

$url = $url_ary[count($url_ary)-2] . "/" . $url_ary[count($url_ary)-1];

$url = "http://news.szptt.net.cn/" . $url;

if(isset($url)&&$url!="")    {

    $str = implode("",file($url));

    $str_ary = explode("<table",$str);

    echo "<CENTER><table bgcolor=#C0C0C0><tr><td>";

    for ($i=4; $i<6; $i++)    {

        echo "<table" . $str_ary[$i];

    }

    echo "</td></tr></table></CENTER>";

}

?>



抓取的方法要视不同的原代码而定，事前要仔细分析你要抓取的页的HTML原代码，然后找出规律，最后才写代码。IE对HTML语法的纠错功能很强，所以只要显示结果正确，抓取后的代码有些语法错误也没关系。