goodhanbin 中级会员 发表于 2019-12-7 09:43:44 | 显示全部楼层
Fuller 发表于 2019-12-7 09:35
把红框这句xpath拷贝出来,拷入下图的输入框中,点击搜索,看看能否定位到那个翻页按钮,也看到能定位到 ...

翻页记号

翻页记号

翻页记号
举报 使用道具
Fuller 管理员 发表于 2019-12-7 09:51:09 | 显示全部楼层

看来是定位到了两个,第一个是翻页按钮吗?爬虫只会用第一个
举报 使用道具
Fuller 管理员 发表于 2019-12-7 09:52:09 | 显示全部楼层

你可以尝试换一下翻页区,用刚才你发的截图中的7137那个A节点做翻页区映射,这样更加精确
举报 使用道具
goodhanbin 中级会员 发表于 2019-12-7 10:06:57 | 显示全部楼层
Fuller 发表于 2019-12-7 09:52
你可以尝试换一下翻页区,用刚才你发的截图中的7137那个A节点做翻页区映射,这样更加精确
...

按要求,换过之后,爬数据时,一直不动
56停止不动.png
举报 使用道具
goodhanbin 中级会员 发表于 2019-12-7 10:11:32 | 显示全部楼层
goodhanbin 发表于 2019-12-7 10:06
按要求,换过之后,爬数据时,一直不动

未做自动翻页,一直在第一页,自上而下,逐行重复采集,
55未做自动翻页.png
举报 使用道具
Fuller 管理员 发表于 2019-12-7 11:19:52 | 显示全部楼层
goodhanbin 发表于 2019-12-7 10:06
按要求,换过之后,爬数据时,一直不动

你这个DS打数机运行时的窗口,宽度不够,显示不出来 “下一页”按钮,如果勾上“模拟点击”,这个按钮一定要能显示出来。目前爬虫没有做自动的横向滚屏,那么必须宽度方向足够宽。如果已经把窗口放大到最大了还不够,就把左栏的任务列表收缩起来
举报 使用道具
goodhanbin 中级会员 发表于 2019-12-7 11:26:01 | 显示全部楼层
这是,翻页线索规则:
<?xml version="1.0" encoding="UTF-8"?>
<spider-clue-extraction>
<theme>阿里访客详情分析1</theme>
<scope>
<from>HTML</from>
<path-type>a</path-type>
<path>
/html/body/div[position()=1]/div[position()=3]/div[position()=1]/div[position()=9]/div[position()=6]/div/div[position()=1]//a[.//text()="next"]

</path>
<clue-type>inthread</clue-type>
<target-theme>
<name>阿里访客详情分析1</name>
<prefix-position>hostname+pathname</prefix-position>
</target-theme>
<simClick>true</simClick>
</scope>
undefined
</spider-clue-extraction>
举报 使用道具
Fuller 管理员 发表于 2019-12-7 11:31:07 | 显示全部楼层
goodhanbin 发表于 2019-12-7 11:26
这是,翻页线索规则:

这样不行:
  1. /html/body/div[position()=1]/div[position()=3]/div[position()=1]/div[position()=9]/div[position()=6]/div/div[position()=1]//a[.//text()="next"]
复制代码
不用用绝对定位
举报 使用道具
goodhanbin 中级会员 发表于 2019-12-7 11:38:31 | 显示全部楼层
Fuller 发表于 2019-12-7 11:19
你这个DS打数机运行时的窗口,宽度不够,显示不出来 “下一页”按钮,如果勾上“模拟点击”,这个按钮一 ...

这是打数机,抓数据截图
举报 使用道具
goodhanbin 中级会员 发表于 2019-12-7 11:45:56 | 显示全部楼层
Fuller 发表于 2019-12-7 11:31
这样不行:不用用绝对定位

用哪种定位?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 19:43