问题:为什么操作连续动作的时候,采集不到数据??

参考教程:http://www.gooseeker.com/doc/article-371-1.html

采集地址:https://list.jd.com/list.html?cat=737,794,870

采集关键词:小米;;360

问题:
1、卡在如下图的一个界面不动了,然后提示采集完成。
2、采集结果中只有样例网址的数据,关键词小米和360的数据都没有
3.测试的时候商品名字,价格都是正确的,采集下来之后,商品名字变成了相对地址








举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2017-2-28 11:45

沙发
guiguzhu 初级会员 发表于 2017-2-28 10:59:34 | 只看该作者
规则:
鬼京东1
鬼京东2
举报 使用道具
板凳
scraper 论坛元老 发表于 2017-2-28 11:04:21 | 只看该作者
你的第一级主题名是“鬼京东1” 连续动作后主题名是“鬼京东2” 为什么你查看的文件名是“京东第二集”? 而且我也找不到有“京东第二集”这个主题
加载你的第二级主题“鬼京东2”失败 你重新映射并且加上定位标志映射试试
举报 使用道具
地板
Fuller 管理员 发表于 2017-2-28 11:05:15 | 只看该作者
主题名要两级之间对的上
举报 使用道具
5#
Fuller 管理员 发表于 2017-2-28 11:08:31 | 只看该作者
京东搜索没有必要做连续输入,因为在url中含有你所搜索的关键词,所以,成批生成网址即可。

连续动作是效率较低的抓取方式,因为要在一个窗口中一口气做完动作,没法并行放在多个窗口中爬。而构造的多个网址就能分在多个窗口并行爬
举报 使用道具
6#
guiguzhu 初级会员 发表于 2017-2-28 11:10:07 | 只看该作者
scraper 发表于 2017-2-28 11:04
你的第一级主题名是“鬼京东1” 连续动作后主题名是“鬼京东2” 为什么你查看的文件名是“京东第二集”?  ...

喔  是我写错图片了  我的规则是 鬼京东1  鬼京东2  
在文件夹里只有鬼京东1,鬼京东2这个文件夹都没有,这个是什么情况啊?


举报 使用道具
7#
scraper 论坛元老 发表于 2017-2-28 11:10:31 | 只看该作者

还有DS下方可以看到报错日志 点击图中红框位置就能看到日志窗口
你的报错应该是规则匹配失败 就是第二级规则有问题

举报 使用道具
8#
guiguzhu 初级会员 发表于 2017-2-28 11:12:41 | 只看该作者
Fuller 发表于 2017-2-28 11:08
京东搜索没有必要做连续输入,因为在url中含有你所搜索的关键词,所以,成批生成网址即可。

连续动作是效 ...

我的规则在测试的时候整个页面的数据输出都是正确的,怎么在抓数据的时候商品名字变成了链接了?   直观标注和映射都试过了


你的建议是正确的,但是我按照http://www.gooseeker.com/doc/article-371-1.html这个帖子操作,却得不到正确的结果,请问这个问题出在哪里
举报 使用道具
9#
scraper 论坛元老 发表于 2017-2-28 11:14:25 | 只看该作者
guiguzhu 发表于 2017-2-28 11:12
我的规则在测试的时候整个页面的数据输出都是正确的,怎么在抓数据的时候商品名字变成了链接了?   直观 ...

加上定位标志映射 你直接运行第二级规则应该也是报错的

举报 使用道具
10#
guiguzhu 初级会员 发表于 2017-2-28 11:17:19 | 只看该作者
scraper 发表于 2017-2-28 11:10
还有DS下方可以看到报错日志 点击图中红框位置就能看到日志窗口
你的报错应该是规则匹配失败 就是第二级规 ...

我的二级规则好像没有问题啊  测试都是正确的




举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-14 08:13