账号 smallG 规则:FARM1;FARM2

抓取网址:http://e-catalogue.uci-fram.com.cn/fram/Index.aspx

01.jpg 06.jpg


02.jpg
目前抓取“5”处做的样例复制,导致数据重复问题;


03.jpg
如何通过“”4“”处每点击一次搜索;爬取“5”处的每一行text内容后再爬取“6”处的text内容;



举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-3-28 23:20

HJLing 版主 发表于 2017-3-28 21:25:02 | 显示全部楼层
因为你做了样例复制
所以每次都把5处的三行数据采下来
加上连续动作是点击一次采一次
所以就会生成多个结果文件
举报 使用道具
Fuller 管理员 发表于 2017-3-28 21:28:55 | 显示全部楼层
第一个规则是入口,整理箱没有必要那么复杂,而且内容2是抓不到内容的,因为只有第一个下拉框选择了,才有第二个,否则,第二个是空的,所以这个规则加载是失败的,但是不影响运行
举报 使用道具
smallG 初级会员 发表于 2017-3-28 21:42:00 | 显示全部楼层
如何解决“”5“”处根据点击行为抓取点击处对应行内的text数据,每次点击循环没有问题,但是抓取的车型排量等字段 永远都是第一行的数据,如何根据连续点击的行为抓取对应的车型/排量字段里的内容额。
举报 使用道具
smallG 初级会员 发表于 2017-3-28 21:42:32 | 显示全部楼层
HJLing 发表于 2017-3-28 21:25
因为你做了样例复制
所以每次都把5处的三行数据采下来
加上连续动作是点击一次采一次

取消样例复制后;;
如何解决“”5“”处根据点击行为抓取点击处对应行内的text数据,每次点击循环没有问题,但是抓取的车型排量等字段 永远都是第一行的数据,如何根据连续点击的行为抓取对应的车型/排量字段里的内容额。

举报 使用道具
HJLing 版主 发表于 2017-3-28 21:59:45 | 显示全部楼层
写自定义xpath
点击搜索后那一行文本会变成橙色 其他行就是黑色
然后对应的@style属性值就会有颜色的rgb值 可以利用这个来写xpath
QQ截图20170328215600.jpg
如图所示 就是点击了第二行的搜索 该行变成橙色
要给整理箱节点列表做定位标志映射框定采集范围
然后给车型等字段写自定义xpath
可以这样写
.//*[@id='div_carModel']/form//tr[contains(./@style,'237')]/td[2]
其他字段类似
不需要做样例复制
这样就只采到当前选择搜索的那一行了
举报 使用道具
Fuller 管理员 发表于 2017-3-28 22:05:06 | 显示全部楼层
smallG 发表于 2017-3-28 21:42
取消样例复制后;;
如何解决“”5“”处根据点击行为抓取点击处对应行内的text数据,每次点击循环没有问 ...

只抓取被点击的那一行,做这样的规则太麻烦了,没有这么灵活的自定义手段。但是,可以通过别的办法达到相同的目的。参看《连续动作的结果文件解析》,有个actionno字段,记录了每个步骤的执行次数,根据这个次数就知道点击到第几个了
举报 使用道具
smallG 初级会员 发表于 2017-3-28 23:16:39 | 显示全部楼层
HJLing 发表于 2017-3-28 21:59
写自定义xpath
点击搜索后那一行文本会变成橙色 其他行就是黑色
然后对应的@style属性值就会有颜色的rgb值 ...

十分感谢;已经完美解决这个问题!
举报 使用道具
smallG 初级会员 发表于 2017-3-28 23:20:10 | 显示全部楼层
Fuller 发表于 2017-3-28 22:05
只抓取被点击的那一行,做这样的规则太麻烦了,没有这么灵活的自定义手段。但是,可以通过别的办法达到相 ...

感谢管理,版主已经完美解决了我发布的问题。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 06:40