本帖最后由 xuhan1434139021 于 2016-12-5 14:29 编辑

抓取数据是最后一个etest12053,翻页只成功翻一页,剩下的页码无法翻,有的时候直接无法进行翻页动作。翻页的是一个表格数据,网址是始终不变的,采用的是ajax动态加载方式,我看其他的网页翻页的href都是有网址的,我这个翻页里面的href只有一个javascript的标志 ,这种情况下要以如何来做翻页线索?
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-12-5 16:33

沙发
scraper 论坛元老 发表于 2016-12-5 14:48:54 | 只看该作者
你采集的需要登录 所以查看不到页面
你在爬虫路线工作台点击“查看规则” 把那些内容复制粘贴出来看看
举报 使用道具
板凳
xuhan1434139021 初级会员 发表于 2016-12-5 14:52:49 | 只看该作者
scraper 发表于 2016-12-5 14:48
你采集的需要登录 所以查看不到页面
你在爬虫路线工作台点击“查看规则” 把那些内容复制粘贴出来看看 ...

<?xml version="1.0" encoding="UTF-8"?>
<spider-clue-extraction>
<theme>etest12053</theme>
<scope>
<from>HTML</from>
<path-type>a</path-type>
<path>
//*[@class='wodeej_biankuan']/tbody/tr[position()=4]/td/span/a[.//text()="下页" and position()=4]
<context>//*[@id='frmMain']</context>
</path>
<clue-type>inthread</clue-type>
<target-theme>
<name>etest12053</name>
<prefix-position>hostname+pathname</prefix-position>
</target-theme>
</scope>
undefined
</spider-clue-extraction>

这是线索规则里面的

举报 使用道具
地板
scraper 论坛元老 发表于 2016-12-5 15:05:26 | 只看该作者

//*[@class='wodeej_biankuan']/tbody/tr[position()=4]/td/span/a[.//text()="下页" and position()=4]<context>//*[@id='frmMain']</context>

这里的a[.//text()="下页" and position()=4]包含了position 猜测应该是翻到第二页之后 下页的按钮就不在第4个a节点了 所以就找不到翻页标志来翻页



举报 使用道具
5#
xuhan1434139021 初级会员 发表于 2016-12-5 15:11:33 | 只看该作者
scraper 发表于 2016-12-5 15:05
//*[@class='wodeej_biankuan']/tbody/tr/td/span/a[.//text()="下页" and position()=4]//*[@id='frmMai ...

实际上我现在在网页上的定位这个下页的A节点的xpath是这样的,而且每次可能这个下页都会在微变,这种情况下该怎么处理?他既没有id,也没有class
举报 使用道具
6#
ym 版主 发表于 2016-12-5 15:12:26 | 只看该作者
修改一下“定位选项”,选择偏好class或者id,再看看效果怎样,如果都不行的话,可以试试修改定位编号的范围,要找到合适的范围节点重新做映射


举报 使用道具
7#
ym 版主 发表于 2016-12-5 15:15:06 | 只看该作者
xuhan1434139021 发表于 2016-12-5 15:11
实际上我现在在网页上的定位这个下页的A节点的xpath是这样的,而且每次可能这个下页都会在微变,这种情况 ...

这种情况,不勾“全匹配”,看看爬虫路线是怎样的


举报 使用道具
8#
xuhan1434139021 初级会员 发表于 2016-12-5 15:35:46 | 只看该作者
ym 发表于 2016-12-5 15:15
这种情况,不勾“全匹配”,看看爬虫路线是怎样的

我把全匹配的勾去掉了,而且选了偏好class,但是我这个页面是动态加载的,下页既没有class,也没有id的标识。而且这样下来确实是可以翻到第二页,下面就不行了。而且我把规则加载了一遍,定位编号又变了

QQ截图20161205153019.png (153.61 KB, 下载次数: 533)

QQ截图20161205153019.png
举报 使用道具
9#
ym 版主 发表于 2016-12-5 16:33:13 | 只看该作者
xuhan1434139021 发表于 2016-12-5 15:35
我把全匹配的勾去掉了,而且选了偏好class,但是我这个页面是动态加载的,下页既没有class,也没有id的标 ...

都不行的话,只能自定义爬虫路线的xpath,操作可以参考帖子《翻页失败了怎么自定义xpath解决》,xpath语法可以百度教程学习。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 20:16