5 14839

样例复制与机器验证

ellachen 于 2018-10-22 14:00 发表 [复制链接]
规则名:infobel-austria
网址:https://www.infobel.com/en/austria/business/90100/travel_agency
在抓取的时候遇到两个问题
设置了样例复制 ,但只能抓取每一页的前两条,第三条无法抓取
翻页抓取到25页左右网页无法加载,需要验证不是机器人。但是网页无法点击验证。
捕1.PNG

请问这样子的网页抓取应该怎么来设规则或者有什么好的解决方案么?
谢谢了~


举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-10-22 16:39

Fuller 管理员 发表于 2018-10-22 15:39:58 | 显示全部楼层
class20181022153627.png
前面两条的class和后面的不一样,爬虫生成规则的时候会自动使用class,就会造成这个问题。可以选择定位按钮,选择绝对定位,就能避免class

另外,你的整理箱中有三个抓取内容使用了相同的class最为定位标志,这样爬虫就很容易搞混淆。那就别用定位标志映射了。

相同class20181022153915.png
举报 使用道具
ellachen 中级会员 发表于 2018-10-22 16:08:19 | 显示全部楼层
Fuller 发表于 2018-10-22 15:39
前面两条的class和后面的不一样,爬虫生成规则的时候会自动使用class,就会造成这个问题。可以选择定位按 ...

谢谢~ 试过绝对定位 还是只能爬前两条  但是从第三条开始爬就可以爬到每页的底部
请问机器验证这个有什么好的解决方法么?

举报 使用道具
Fuller 管理员 发表于 2018-10-22 16:11:43 | 显示全部楼层
ellachen 发表于 2018-10-22 16:08
谢谢~ 试过绝对定位 还是只能爬前两条  但是从第三条开始爬就可以爬到每页的底部
请问机器验证这个有什 ...

机器验证不好解决的,这是专门针对爬虫设计的。

因为前两条的class有所不同,结构可能也不同,你可以把不必要的“关键内容”去掉,只保留必要的抓取内容设置“关键内容”
举报 使用道具
Fuller 管理员 发表于 2018-10-22 16:19:54 | 显示全部楼层
间隔20181022161816.png

要抓取的两个样例之间有时候间隔1个div,有时候间隔2个div,那么就不好找规律了。那么就把紧挨着的两个div作为样例复制做映射,即使第二个div并不包含需要的内容,也用来做样例复制映射。这样就好了
举报 使用道具
ellachen 中级会员 发表于 2018-10-22 16:39:14 | 显示全部楼层
Fuller 发表于 2018-10-22 16:19
要抓取的两个样例之间有时候间隔1个div,有时候间隔2个div,那么就不好找规律了。那么就把紧挨着的两个di ...

好的,谢谢~

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 14:35