本人需要采集https://shop1406911995275.1688.com/?spm=0.0.0.0.URhL1N页面   导航内 联系方式的链接作为下级线索
目前思路:
规则一、列表抓取线索一获得公司首页链接 作为下级线索一
规则二、在线索页面 获得联系方式模块的链接作为下级线索
规则三、在页面抓取需要信息。


目前问题:
规则二:阿里的导航设置有一定的自定义,部分商家的 联系方式模块并不在导航内的第5个位置。   有些在第四个、有些在最后、有些没有联系方式
这个问题在规则三也会出现,可以如何解决?



举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-2-4 16:31

沙发
Fuller 管理员 发表于 2017-2-4 14:10:45 | 只看该作者
构造网址就行了,比如这个联系方式网址:
  1. https://shop1406911995275.1688.com/page/contactinfo.htm
复制代码


所有店铺的格式都是一样的
  1. https://xxxx.1688.com/page/contactinfo.htm
复制代码
只要把前面的xxxx换成具体店铺的就行了。
其他菜单对应的 网址也是这样的规律




举报 使用道具
板凳
15857228289 初级会员 发表于 2017-2-4 15:03:53 | 只看该作者
问题已解决。新问题:每采集一条都要输入验证码、抓取延迟10、滚屏8、速度-3。 (部分页面太短、根本不用滚屏)
举报 使用道具
地板
Fuller 管理员 发表于 2017-2-4 15:43:24 | 只看该作者
15857228289 发表于 2017-2-4 15:03
问题已解决。新问题:每采集一条都要输入验证码、抓取延迟10、滚屏8、速度-3。 (部分页面太短、根本不用滚 ...

爬虫群模式,在会员中心设置调度参数,放慢采集速度
举报 使用道具
5#
15857228289 初级会员 发表于 2017-2-4 16:31:23 | 只看该作者
谢谢!辛苦,新年快乐,给你10086个敬业福
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 10:02