刚使用GooSeeker,在抓取以下网页的时候,遇到以下几个问题,望大家多赐教。
网页地址:http://law.npc.gov.cn/FLFG/ksjsCateGroup.action?zlsxid=01&bmflid=01&zdjg=&txtid=&keyword=
一、爬取目标:
1.1、获取表格中的数据;
1.2、目标图片内容示意图,如下:
二、个人使用GS爬虫配置如下图:
三、遇到的问题主要如下:
3.1、表格数据格式不一致,目前只有一个规则匹配,不知道是否需要多个规则?
3.2、如何动态获取表格中的数据,比如需要鼠标滑动才出现的文本;
3.3、翻页问题未处理;(可暂不考虑,已找到使用说明)
3.3、3层链接的爬取问题;(还未到此步骤。已找到说明文档,但还未试用)。
谢谢大家。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 9 个关于本帖的回复 最后回复于 2016-11-24 19:29