本帖最后由 tengxinyu 于 2017-8-10 16:53 编辑
层级抓取的问题
第一层级网址:http://data.miit.gov.cn/resultSearch?categoryTreeId=1128
它共有100多页,3000多条信息
然后每点击一条,就会进入详细信息,也就是我要提取的第二层级
第一个第二层级网址为:http://data.miit.gov.cn/viewCar?carId=51986
然后我是这样操作的,列表如下:
1.页面开始
2.命名:第298批产品公示,显示该名称可以使用,整理箱命名第一级,并选择了企业名称,品牌名称,产品名称,产品型号四种,其中企业名称为关键内容
3.开始设置样例复制,点整理箱:第一级,勾选启用,样例复制第一个,样例复制第二个
4.设置翻页,选择爬虫线索-新建-记号线索-连贯抓取
5.选择翻页处,出现DIV-线索映射-定位-线索1
6.选择下一页的那个小标标,在SPAN下的text进行线索映射-记号映射
7.完成结果如下
8.开始设置层级抓取,回到创建规则面板,找到第一栏名称对应节点TD-A下的@herf,进行内容映射-新建抓取内容-命名网址
9.对网址进行处理,勾选下级线索,选择爬虫路线,选择线索2,命名主题名:企业申报车型公示详情2
10.检测,存规则
11.规则菜单-新建-清空工作台内容-确定,选择第二级层级样本网址:http://data.miit.gov.cn/viewCar?carId=51986,输入,刷新进入,设置主题名:企业申报车型公示详情2
12.整理箱命名第二级,选择产品商标,产品型号,公司名称,注册地址作为抓取内容,宣泄公司名称作为关键内容
13.测试
14.存规则,爬数据
然后就出现只采集了,第一级的第一条,和第一条下的第二级内容,第一级第二条以及翻页的部分都没有啦????怎么办怎么办???
怎么办?谢谢解答!祝身体健康,平安喜乐!
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 20 个关于本帖的回复 最后回复于 2017-8-11 16:05