10 20162

求助 定位标志映射

123456fan 于 2018-11-12 18:02 发表 [复制链接]
主题名:裕华安居客详情new ,爬取数据时,有一半的数据都采集失败。想做定位标志映射,但是映射都在同一个dom节点上,无法映射。麻烦能不能把各抓取内容的xpath路径发给我。。。
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2018-11-12 22:30

Fuller 管理员 发表于 2018-11-12 18:05:11 | 显示全部楼层
有没有失败的网址?发一些出来
举报 使用道具
123456fan 新手上路 发表于 2018-11-12 18:13:37 | 显示全部楼层
Fuller 发表于 2018-11-12 18:05
有没有失败的网址?发一些出来

在哪里找失败的网址?
举报 使用道具
123456fan 新手上路 发表于 2018-11-12 18:17:58 | 显示全部楼层
Fuller 发表于 2018-11-12 18:05
有没有失败的网址?发一些出来

https://sjz.anjuke.com/prop/view/A1479229227?from=filter&spread=filtersearch&invalid=1&position=8&kwtype=filter&now_time=1541823463
https://sjz.anjuke.com/prop/view/A1482759181?from=filter&spread=filtersearch&invalid=1&position=12&kwtype=filter&now_time=1541823463
https://sjz.anjuke.com/prop/view/A1480006675?from=filter&spread=filtersearch&invalid=1&position=14&kwtype=filter&now_time=1541823463
https://sjz.anjuke.com/prop/view/A1491727854?from=filter&spread=filtersearch&invalid=1&position=21&kwtype=filter&now_time=1541823463
https://sjz.anjuke.com/prop/view/A1489984853?from=filter&spread=filtersearch&invalid=1&position=30&kwtype=filter&now_time=1541823463
https://sjz.anjuke.com/prop/view/A1489152746?from=filter&spread=filtersearch&invalid=1&position=39&kwtype=filter&now_time=1541823463
难道是链接错了?
举报 使用道具
Fuller 管理员 发表于 2018-11-12 18:52:04 | 显示全部楼层
123456fan 发表于 2018-11-12 18:17
https://sjz.anjuke.com/prop/view/A1479229227?from=filter&spread=filtersearch&invalid=1&position=8& ...

这些网址似乎都失效了,这些网址是上级采集的时候抓取到的?我建议上级采集完以后立即采集这一级,也可以在爬虫群模式下,同时采集,不要等太久
举报 使用道具
123456fan 新手上路 发表于 2018-11-12 18:55:23 | 显示全部楼层
嗯嗯,是上级采集的 ,也是上级采集完后马上采集的,我重新设置了一下链接的定位标志映射,再试一下
举报 使用道具
maomao 论坛元老 发表于 2018-11-12 18:56:47 | 显示全部楼层
你上一级的规则名是什么?你抓取的网址似乎不对。
举报 使用道具
123456fan 新手上路 发表于 2018-11-12 19:09:29 | 显示全部楼层
裕华安居客列表new  ,您帮我看一下吧,我重新设置了链接的定位标志,详情抓取时 还是不行呢,才抓了没几条就停止了,“18:58:7 12/11        4        20926395        ValidateDelayedPage        抓取失败(超时),抓取规则不合适或者超时时间设置太短”,这是导出的错误原因。
举报 使用道具
maomao 论坛元老 发表于 2018-11-12 19:55:49 | 显示全部楼层
你为什么要给链接做定位标志?不用做也可以的。列表规则,我这样改,


S2.png
举报 使用道具
123456fan 新手上路 发表于 2018-11-12 22:21:03 | 显示全部楼层
我按照您说的改了 也重新抓取了链接,然后马上抓详情,但是抓着抓着出现“运行的爬虫数量超出了配额,请购买更多配额”的提示框,打数机就暂停了抓取,但是还有两千五百多条数据没有抓取呢 一共三千条数据。是什么原因呢?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 17:22