本帖最后由 skykate 于 2016-10-27 13:23 编辑

规则主题:user_information_Mafengwo-TS

在MS谋数台加载主题后,网页结构只显示一部分内容(DIV节点只有几个);需要滚屏到“正在加载更多足迹...”,网页才会继续加载,如下图所示:




网页滚到“正在加载更多足迹...”后,会加载出新的网页内容,如下图所示:

但图中横线下(在网页上可以看到一条横线)为新加载的内容,但是点击新的内容,会提示,定位不到网页结构
就是原来的网页结构中,并没有新加载内容对应的节点,就需要“刷新网页结构”

才会出现新内容对应的节点(刷新网页结构后DIV节点明显比第一个图中的DIV节点多了很多)


但由于刷新后网页结构发生了变动,DIV节点的定位发生了变化;此时再次在MS谋数台进行测试,就会出现问题



出现的问题大致就是这样子;
我想咨询一下,如何在网页滚屏到“正在加载更多足迹...”加载出新的网页后,刷新网页结构?然后才定义抓取规则、爬取数据?



举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-10-27 15:53

沙发
Fuller 管理员 发表于 2016-10-27 14:28:46 | 只看该作者
用来定义抓取规则的内容都加载上了,刷新网页结构后,才能定义抓取抓取规则。爬数据的时候,要在DS打数机上设置滚屏参数,打开滚屏
举报 使用道具
板凳
skykate 中级会员 发表于 2016-10-27 15:18:31 | 只看该作者
Fuller 发表于 2016-10-27 14:28
用来定义抓取规则的内容都加载上了,刷新网页结构后,才能定义抓取抓取规则。爬数据的时候,要在DS打数机上 ...

那在DS打数机时怎么“刷新网页结构”呢?
每一个网页在刚加载出来的时候有部分内容没有出现在网页结构上,必须要先滚到底部,加载出所有网页信息后,才能刷新网页结构。
在MS谋数台定义抓取规则时,可以先全部加载后,刷新网页结构,才定义抓取内容;但打数机怎么做,才能刷新网页结构呢?
否则,在抓取数据时,即使设置了“滚屏参数”,虽然会滚屏,但滚屏采集完一开始网页结构中就存在的数据后,就不再加载新的内容,也不会“刷新网页结构”

举报 使用道具
地板
ym 版主 发表于 2016-10-27 15:50:31 | 只看该作者
skykate 发表于 2016-10-27 15:18
那在DS打数机时怎么“刷新网页结构”呢?
每一个网页在刚加载出来的时候有部分内容没有出现在网页结构上 ...

你可以试试把滚屏次数设为20,滚屏速度为2,我这边用这个参数设置都可以滚屏到底部的。

举报 使用道具
5#
skykate 中级会员 发表于 2016-10-27 15:53:25 | 只看该作者
ym 发表于 2016-10-27 15:50
你可以试试把滚屏次数设为20,滚屏速度为2,我这边用这个参数设置都可以滚屏到底部的。

...

好的,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-17 17:59