本帖最后由 beanbing 于 2016-10-28 11:35 编辑

成功抓取的规则是:oliviapalermo
失败的是kendaljennerinstagram
这两个都是一模一样的规则,但是k这个只能够抓取到第一页,没有进行点击也没有进行滚屏,导致失败
为什么呢?试验了几次都是如此?

4.jpg (40.54 KB, 下载次数: 572)

4.jpg

3.jpg (40.27 KB, 下载次数: 588)

3.jpg

2.jpg (39.96 KB, 下载次数: 564)

2.jpg

1.jpg (42.83 KB, 下载次数: 554)

1.jpg
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2016-10-29 11:16

沙发
xandy 论坛元老 发表于 2016-10-28 11:40:29 | 只看该作者
执行动作之后的目标主题名有两个?一个是kendaljennerinstagram,一个是oliviapalermo?
举报 使用道具
板凳
beanbing 中级会员 发表于 2016-10-28 11:54:47 | 只看该作者
不是,这两个是不同的,是个体,但是两个的网页结构,规则都是一样的,但是o成功抓取了,但是K没有成功,我都是按照一样的规则设置的呀
举报 使用道具
地板
xandy 论坛元老 发表于 2016-10-28 12:12:43 | 只看该作者
beanbing 发表于 2016-10-28 11:54
不是,这两个是不同的,是个体,但是两个的网页结构,规则都是一样的,但是o成功抓取了,但是K没有成功,我 ...

这是国外的网址吗?估计要连VPN,加载很慢
举报 使用道具
5#
beanbing 中级会员 发表于 2016-10-28 12:52:32 | 只看该作者
有的,那就是没有错,只能多试几次了?或者是将滚屏速度调慢一点?
举报 使用道具
6#
xandy 论坛元老 发表于 2016-10-28 14:38:47 | 只看该作者
beanbing 发表于 2016-10-28 12:52
有的,那就是没有错,只能多试几次了?或者是将滚屏速度调慢一点?

你做的这两个规则的样本网址不一样,但是它们的网页结构是一样的,你没必要分别做两个相同的规则,在一个规则里添加新的线索就可以了。《通过会员中心添加线索
举报 使用道具
7#
Fuller 管理员 发表于 2016-10-28 17:34:40 | 只看该作者
beanbing 发表于 2016-10-28 12:52
有的,那就是没有错,只能多试几次了?或者是将滚屏速度调慢一点?

我有如下建议:

1,如果两个网页结构有些细微的变化,你可以在同一个主题名下定义两个不同的规则,他们的规则编号不一样,DS打数机运行的时候会自动选择。具体可以参看这篇文章《怎么在同一个主题名下建立多个规则

如果网页结构的语义差别很大,就各自定义主题。主题与语义对应

2,以k开头的那个规则,你没有定义翻页抓取,所以只能抓第一页。虽然网页上没有“下一页”,但是有Load more,作用于“下一页”一样,跟定义“下一页”翻页规则一样

举报 使用道具
8#
beanbing 中级会员 发表于 2016-10-28 18:00:48 | 只看该作者
xandy 发表于 2016-10-28 14:38
你做的这两个规则的样本网址不一样,但是它们的网页结构是一样的,你没必要分别做两个相同的规则,在一个 ...

添加之后就会自动抓取吗还是要在DS中单独一个个打开,还是只需要打开以O命名的就可以了(就是最初的规则)
举报 使用道具
9#
beanbing 中级会员 发表于 2016-10-28 18:02:03 | 只看该作者
Fuller 发表于 2016-10-28 17:34
我有如下建议:

1,如果两个网页结构有些细微的变化,你可以在同一个主题名下定义两个不同的规则,他们 ...

1.有关于翻页抓取的,这个网页结构是只需要点击一次loadmore就会无限滚动的了,所以我这里做了模拟点击来处理,有什么区别吗?
举报 使用道具
10#
Fuller 管理员 发表于 2016-10-28 19:16:13 | 只看该作者
beanbing 发表于 2016-10-28 18:02
1.有关于翻页抓取的,这个网页结构是只需要点击一次loadmore就会无限滚动的了,所以我这里做了模拟点击来 ...

我看到了,你是在“连续动作”那里定义的点击动作。没有必要再连续动作这里做,因为你只需点一次,在爬虫路线那里做,就像做翻页规则一样

在“连续动作”这里做的话,有几个不合理的地方需要修改
1)第一个是点击动作,其实网页上只会点击一次,然后loadmore就没有对吧?那么,要设置“高级设置”,不要选必做。以为点击和滚屏的循环是这样的
点击load more-》滚屏-》点击load more(没有了就失败了)-》滚屏-》点击load more(没有了就失败了)-》滚屏-》....,除了第一次点击,后面的都点击失败


其他还在测试,现在电脑要更新,先存一下盘,这个网页特别怪,竟然不滚屏,MS谋数台初始加载也是有定位不到的节点,要用菜单刷新网页结构后在分析页面才能成功

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 02:50