这是第一步,只需要点击到具体的商品,不需要采集任何信息。进入下一页面

第二步,点击联系,同样不用采集任何信息,进入到下一图

第三步,点击箭头指向的地方,进入到下一图

第四步,采集信息。完成后回到第一图,进入第二个商品,重复以上操作。




求指点,从第一层开始都不需要采集信息,我怎么做规则呢,是做三个层级三个规则吗?

1.jpg (36.78 KB, 下载次数: 433)

1.jpg
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-12-21 11:35

沙发
yangxiaoling 初级会员 发表于 2016-12-21 10:38:35 | 只看该作者
最后一张图是图1 ,最上面一次是234图,格式有点混乱,先图后文字,文字说明的是上面的图。
举报 使用道具
板凳
xandy 论坛元老 发表于 2016-12-21 10:51:28 | 只看该作者
本帖最后由 xandy 于 2016-12-21 11:00 编辑
yangxiaoling 发表于 2016-12-21 10:38
最后一张图是图1 ,最上面一次是234图,格式有点混乱,先图后文字,文字说明的是上面的图。 ...

看你发的截图,图一点击后要进入一个页面,所以要做一个规则,这个规则做层级抓取
进入第二张图之后还要点击“view details”,所以规则二可以做一个模拟点击
第三个规则就是针对联系方式做具体的采集规则就可以了
举报 使用道具
地板
xandy 论坛元老 发表于 2016-12-21 10:55:13 | 只看该作者
本帖最后由 xandy 于 2016-12-21 11:00 编辑
xandy 发表于 2016-12-21 10:51
看你发的截图,图一点击后要进入一个页面,所以要做一个规则,这个规则做层级抓取
进入第二张图之后还要 ...

另外,具体的联系方式采集完后不需要回到第一个页面,只要你有很多图1同种结构的网址,你就可以以线索的形式导入到规则1,这样就可以批量抓取了。参看《如何管理规则的线索》。
假如图1同种网页结构的网址可以从一个列表里面抓取,那更好了,那就在规则1,规则2,规则3前再做一个规则0,勾选网址作为下级,目标主题是规则1。
举报 使用道具
5#
yangxiaoling 初级会员 发表于 2016-12-21 11:22:55 | 只看该作者
xandy 发表于 2016-12-21 10:55
另外,具体的联系方式采集完后不需要回到第一个页面,只要你有很多图1同种结构的网址,你就可以以线索的形 ...

把规则连起来的是 目标主题=上一级的规则吗??也就是您这句 ‘目标主题是规则1’

举报 使用道具
6#
xandy 论坛元老 发表于 2016-12-21 11:35:42 | 只看该作者
yangxiaoling 发表于 2016-12-21 11:22
把规则连起来的是 目标主题=上一级的规则吗??也就是您这句 ‘目标主题是规则1’

...

如果是我刚刚说的采集流程。
规则0,采集公司列表,勾选公司详情网址作为下级线索,下级线索的目标主题名是规则1
规则1,采集联系方式详情页的链接,勾选下级线索,下级线索的目标主题名是规则2
规则2,为了看到更全的公司联系资料,做模拟点击,爬虫路线中模拟点击线索的目标主题名是规则3
规则3,具体的联系方式的采集规则
规则0、规则1和规则2都要运行,规则3不用运行,因为规则2运行后会自动运行规则3
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-30 06:06