抓取美团外卖数据,有报错日志。

2016-10-26_18-20-12.png
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2016-10-26 22:26

GotoSeek 新手上路 发表于 2016-10-26 18:25:53 | 显示全部楼层
这个错误是什么意思?页面滚动到最下面,就停止不动了,也没有进行第二级规则的抓取
举报 使用道具
Fuller 管理员 发表于 2016-10-26 18:59:35 | 显示全部楼层
GotoSeek 发表于 2016-10-26 18:25
这个错误是什么意思?页面滚动到最下面,就停止不动了,也没有进行第二级规则的抓取 ...

你做了下级线索,是不是在整理箱中有一个抓取内容,把href映射给他,同时勾选了“下级线索”

但是在抓取的时候,发现href中不是个网址,而是一个javascript代码,就报错了。如果遇到javascript代码,是不能做下级线索的,一定要连贯抓取。有多个点击位置,得用连续动作功能
举报 使用道具
Fuller 管理员 发表于 2016-10-26 19:04:44 | 显示全部楼层
如果确实解决不了,把主题名帖出来,帮你诊断一下
举报 使用道具
GotoSeek 新手上路 发表于 2016-10-26 19:21:32 | 显示全部楼层
本帖最后由 GotoSeek 于 2016-10-26 19:29 编辑
Fuller 发表于 2016-10-26 18:59
你做了下级线索,是不是在整理箱中有一个抓取内容,把href映射给他,同时勾选了“下级线索”

但是在抓取 ...

又看了一下,没有勾选下级线索,href确实是JavaScript代码。不知道怎么办了。

举报 使用道具
GotoSeek 新手上路 发表于 2016-10-26 19:23:54 | 显示全部楼层
Fuller 发表于 2016-10-26 19:04
如果确实解决不了,把主题名帖出来,帮你诊断一下

第一级主题名是“美团外卖_所有”;
第二级主题名是“模拟点击_第二级超市”。求帮助
举报 使用道具
xandy 论坛元老 发表于 2016-10-26 20:18:29 | 显示全部楼层
GotoSeek 发表于 2016-10-26 19:21
又看了一下,没有勾选下级线索,href确实是JavaScript代码。不知道怎么办了。

...

href确实是JavaScript代码,你要定义连续动作实现连贯采集,先看看上面帖子发的链接,了解下连续动作,然后再修改你的规则,碰到这种是不能通过层级抓取深入页面采集的,要用连续动作。
举报 使用道具
GotoSeek 新手上路 发表于 2016-10-26 20:27:31 | 显示全部楼层
xandy 发表于 2016-10-26 20:18
href确实是JavaScript代码,你要定义连续动作实现连贯采集,先看看上面帖子发的链接,了解下连续动作,然 ...

哦,谢xandy。那这种情况下也就不能用模拟点击了吧.

举报 使用道具
Fuller 管理员 发表于 2016-10-26 20:57:48 | 显示全部楼层
GotoSeek 发表于 2016-10-26 20:27
哦,谢xandy。那这种情况下也就不能用模拟点击了吧.

两级基本上都做对了,只差关键一点,在第一级的爬虫路线工作台上,要为下级勾上“连贯抓取”,跟这个教程的原理一样:http://www.gooseeker.com/doc/article-150-1.html

这个不用连续动作,因为你只需点击一次“超市”这个链接
举报 使用道具
xandy 论坛元老 发表于 2016-10-26 21:12:01 | 显示全部楼层
GotoSeek 发表于 2016-10-26 20:27
哦,谢xandy。那这种情况下也就不能用模拟点击了吧.

哈哈,我理解错了。
我以为你是下面的这种应用场景——
比如某网页有一个商品列表,点击每个商品名称之后可以进入到商品详情页面。
如果要抓商品详情页面里的信息,第一个想法是定义两个规则,第一个规则抓取列表页的链接(映射给@href)并勾选下级线索,然后第二个规则以详情页面的为样本网址,定义该页面的采集规则。如果没有@href的话,是javascript跳转的链接,那么就得用连续动作连贯抓取了。

你的这种情况可以用模拟点击,其实你可以把模拟点击当作是连续动作中的“点击”动作,这里你只需要定义模拟点击就行了,以后碰到上面的应用场景,你就可以用上连续动作。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 14:07