我抓取的列表都在1-2之前循环转,过一会就显示数据已抓完,但实际还有100多页,请问是什么原因?主题名是:财政局表


举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2017-4-19 14:09

沙发
HJLing 版主 发表于 2017-4-18 11:09:04 | 只看该作者
http://www.chizhou.gov.cn/openne ... amp;tag=&page=1

这个网址包含页码 可以直接用excel构造批量120页的网址 不做翻页线索
举报 使用道具
板凳
薇薇 中级会员 发表于 2017-4-18 11:53:18 | 只看该作者
EXCEL构造怎么做?
举报 使用道具
地板
薇薇 中级会员 发表于 2017-4-18 11:54:39 | 只看该作者
请教EXCEL构造怎么做?一个一个把网址添加进去当线索吗?
举报 使用道具
5#
Fuller 管理员 发表于 2017-4-18 11:56:18 | 只看该作者
薇薇 发表于 2017-4-18 11:54
请教EXCEL构造怎么做?一个一个把网址添加进去当线索吗?

那个网址,最后一个数字是递增的,在excel中做数字递增的复制操作
举报 使用道具
6#
HJLing 版主 发表于 2017-4-18 11:57:08 | 只看该作者
薇薇 发表于 2017-4-18 11:53
EXCEL构造怎么做?

参考教程《如何构造网址

举报 使用道具
7#
Fuller 管理员 发表于 2017-4-18 11:57:23 | 只看该作者
然后从会员中心,把这个excel导入进去,参看《如何管理规则的线索
举报 使用道具
8#
Fuller 管理员 发表于 2017-4-18 15:48:40 | 只看该作者
我有试了一下这个网站,问题出在有两个currentpage


我试了,可以用手工编辑生成的翻页规则,指定第二个节点。但是这样不如构造网址更好(因为手工修改翻页规则的话,下次加载规则会被冲掉,需要再次手工修改)。要注意一点,构造网址以后,看到的内容就只是iframe内部的内容了,外面左栏的内容都没有了。所以,定义规则的时候,要用没有左栏的iframe内部的网页作为样本页面
举报 使用道具
9#
HJLing 版主 发表于 2017-4-18 15:49:35 | 只看该作者
还可以自定义翻页路径来让爬虫翻页 这样就不用去构造网址了

具体做法如下:

1.对尾页做记号线索

找到尾页所在的text()节点做记号线索,具体可以参考记号线索教程,

点击查看规则,可以看到程序生成了翻页路径,不过这不是想要的路径,后面要做修改
注意:虽然目的并不是为了点击“尾页”,但是这样操作之后才会生成一条翻页路径,后续才能做修改

2.修改翻页路径
真正需要的翻页路径如下:
//*[@class='currentpage'][last()]/following-sibling::a[1]/span<context>//*[@id='conTarget']</context>
这样就能点击当前页节点的下一个节点

把上面的路径复制到“线索规则”窗口,这样就修改了翻页路径

需要注意的是:
要先点击右上方的存规则,再点击一次线索规则窗口右方的保存修改,然后直接点击爬数据,这样操作后自定义路径才会被保存,并且不能再点击右上方的存规则,否则翻页路径又会变成程序自动的那个。
并且以后每次加载规则时,翻页路径都会被最原始的程序自动生成的那个覆盖,也就是以后修改规则还得重复上面操作,所以建议在备注记下翻页路径,方便以后修改规则用到。


举报 使用道具
10#
薇薇 中级会员 发表于 2017-4-19 10:50:56 | 只看该作者
尾页做记号,才抓一页就显示已抓完,那前面的再如何操作?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-5 08:20