翻页问题，主题名是一组连续动作，etest12051，etest12052，etest12053

xuhan1434139021

本帖最后由 xuhan1434139021 于 2016-12-5 14:29 编辑

抓取数据是最后一个etest12053，翻页只成功翻一页，剩下的页码无法翻，有的时候直接无法进行翻页动作。翻页的是一个表格数据，网址是始终不变的，采用的是ajax动态加载方式，我看其他的网页翻页的href都是有网址的，我这个翻页里面的href只有一个javascript的标志，这种情况下要以如何来做翻页线索？

scraper · 发表于 2016-12-5 14:48:54

你采集的需要登录所以查看不到页面
你在爬虫路线工作台点击“查看规则” 把那些内容复制粘贴出来看看

xuhan1434139021 · 发表于 2016-12-5 14:52:49

scraper 发表于 2016-12-5 14:48
你采集的需要登录所以查看不到页面
你在爬虫路线工作台点击“查看规则” 把那些内容复制粘贴出来看看 ...

<?xml version="1.0" encoding="UTF-8"?>
<spider-clue-extraction>
<theme>etest12053</theme>
<scope>
<from>HTML</from>
<path-type>a</path-type>
<path>
//*[@class='wodeej_biankuan']/tbody/tr[position()=4]/td/span/a[.//text()="下页" and position()=4]
<context>//*[@id='frmMain']</context>
</path>
<clue-type>inthread</clue-type>
<target-theme>
<name>etest12053</name>
<prefix-position>hostname+pathname</prefix-position>
</target-theme>
</scope>
undefined
</spider-clue-extraction>

这是线索规则里面的

scraper · 发表于 2016-12-5 15:05:26

xuhan1434139021 发表于 2016-12-5 14:52
etest12053

HTML

//*[@class='wodeej_biankuan']/tbody/tr[position()=4]/td/span/a[.//text()="下页" and position()=4]<context>//*[@id='frmMain']</context>

这里的a[.//text()="下页" and position()=4]包含了position 猜测应该是翻到第二页之后下页的按钮就不在第4个a节点了所以就找不到翻页标志来翻页

xuhan1434139021 · 发表于 2016-12-5 15:11:33

scraper 发表于 2016-12-5 15:05
//*[@class='wodeej_biankuan']/tbody/tr/td/span/a[.//text()="下页" and position()=4]//*[@id='frmMai ...

实际上我现在在网页上的定位这个下页的A节点的xpath是这样的，而且每次可能这个下页都会在微变，这种情况下该怎么处理？他既没有id，也没有class

ym · 发表于 2016-12-5 15:12:26

修改一下“定位选项”，选择偏好class或者id，再看看效果怎样，如果都不行的话，可以试试修改定位编号的范围，要找到合适的范围节点重新做映射

ym · 发表于 2016-12-5 15:15:06

xuhan1434139021 发表于 2016-12-5 15:11
实际上我现在在网页上的定位这个下页的A节点的xpath是这样的，而且每次可能这个下页都会在微变，这种情况 ...

这种情况，不勾“全匹配”，看看爬虫路线是怎样的

xuhan1434139021 · 发表于 2016-12-5 15:35:46

ym 发表于 2016-12-5 15:15
这种情况，不勾“全匹配”，看看爬虫路线是怎样的

我把全匹配的勾去掉了，而且选了偏好class，但是我这个页面是动态加载的，下页既没有class，也没有id的标识。而且这样下来确实是可以翻到第二页，下面就不行了。而且我把规则加载了一遍，定位编号又变了

ym · 发表于 2016-12-5 16:33:13

xuhan1434139021 发表于 2016-12-5 15:35
我把全匹配的勾去掉了，而且选了偏好class，但是我这个页面是动态加载的，下页既没有class，也没有id的标 ...

都不行的话，只能自定义爬虫路线的xpath，操作可以参考帖子《翻页失败了怎么自定义xpath解决》，xpath语法可以百度教程学习。

翻页问题，主题名是一组连续动作，etest12051，etest12052，etest12053

本帖子中包含更多资源

共 8 个关于本帖的回复最后回复于 2016-12-5 16:33

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

翻页问题，主题名是一组连续动作，etest12051，etest12052，etest12053

本帖子中包含更多资源

共 8 个关于本帖的回复 最后回复于 2016-12-5 16:33

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 8 个关于本帖的回复最后回复于 2016-12-5 16:33