|
这个网页还真麻烦,我在看“阿土伯气”,第一页和第二页的结构不一样,出现出现在最后两个抓取内容上,如下图
红框里面的联系人,是不同点,还有网址。所以,要做两个规则,同一个主题名,为第一页做一个,再为第二页做一个,他们的规则编号用不同的值,这样就能区分开。爬虫运行的时候自动会选择。
还有一个改进建议:整理箱的顶层容器节点不用样例复制,而是用定位标志映射,这样可以过滤掉广告,因为广告的定位标志不一样。
另外,采集到的网址数量少的原因不是因为网址长被过滤了,而是因为规则不合适,有些没有采集到
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|