快捷导航
已经试了两个网页,都一样的情况,这个采集软件上手难度有点高啊。我想让爬虫选择选项,然后点击报价进入报价页,获取选项跟报价。不重复选项,反复执行直到需要的选项爬完。某些特定的选项可以让爬虫直接略过。



任务名 速回收采集测试
目标任务名 报价采集

举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2019-10-7 18:41

Fuller 管理员 发表于 2019-10-7 11:15:56 | 显示全部楼层
点击20191007111122.png

这样的网页,用这样的绝对定位的xpath一般定位不上
  1. /html/body/div[position()=3]/div[position()=3]/div/div[position()=2]/form/div[position()=1]/div[position()=2]/div[position()=1]
复制代码
因为网页加载的时候,可能一个节点的position会变化,就定位不上了,应该用自定义xpath,含有“国行”这个词作为条件,用contains()函数判断
举报 使用道具
爱锋贝 新手上路 发表于 2019-10-7 12:04:01 | 显示全部楼层
Fuller 发表于 2019-10-7 11:15
这样的网页,用这样的绝对定位的xpath一般定位不上
因为网页加载的时候,可能一个节点的position会变化 ...

感谢回答,如果这一行,我希望爬虫三个选项都爬怎么弄。
举报 使用道具
爱锋贝 新手上路 发表于 2019-10-7 12:07:09 | 显示全部楼层
Fuller 发表于 2019-10-7 11:15
这样的网页,用这样的绝对定位的xpath一般定位不上
因为网页加载的时候,可能一个节点的position会变化 ...

用class的话,匹配到这些节点33个,爬虫会依次点击遍历吗

举报 使用道具
爱锋贝 新手上路 发表于 2019-10-7 12:12:34 | 显示全部楼层
我在工作台页面,点击保存规则点击爬数据,明明网址是产品估价页面,系统却打开的是首页,还要人工进入产品页面。这个是什么原因。用单搜就正常
举报 使用道具
爱锋贝 新手上路 发表于 2019-10-7 13:45:43 | 显示全部楼层
Fuller 发表于 2019-10-7 11:15
这样的网页,用这样的绝对定位的xpath一般定位不上
因为网页加载的时候,可能一个节点的position会变化 ...

能不能劳烦您做一个示例,包含关键词的定位是怎么样的
举报 使用道具
Fuller 管理员 发表于 2019-10-7 17:56:41 | 显示全部楼层
爱锋贝 发表于 2019-10-7 12:12
我在工作台页面,点击保存规则点击爬数据,明明网址是产品估价页面,系统却打开的是首页,还要人工进入产品 ...

可能是存规则的时候,样本页面网址跳转成首页了,可以在会员中心那里删除不要的网址。
网址20191007175541.png
举报 使用道具
Fuller 管理员 发表于 2019-10-7 17:57:18 | 显示全部楼层
爱锋贝 发表于 2019-10-7 12:07
用class的话,匹配到这些节点33个,爬虫会依次点击遍历吗

如果匹配到33个,会循环33遍,把他们都点击一遍
举报 使用道具
爱锋贝 新手上路 发表于 2019-10-7 18:33:47 | 显示全部楼层
Fuller 发表于 2019-10-7 17:56
可能是存规则的时候,样本页面网址跳转成首页了,可以在会员中心那里删除不要的网址。

...

是的,有一个网址被存为首页了。已经删除
举报 使用道具
爱锋贝 新手上路 发表于 2019-10-7 18:37:48 | 显示全部楼层
Fuller 发表于 2019-10-7 17:57
如果匹配到33个,会循环33遍,把他们都点击一遍

33个组合起来有几百种结果。而且每一次爬取的数量都可能不一样。可能第一次爬取首个选项,爬下来就是10个,其中某个选项改变了的话,后续选项就不出现了。那可能就是6个。这个页面的爬取很复杂,希望您能帮忙实测一下。可以自动爬取所有数据,或者爬取指定的数据就行了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 14:51