11#
Fuller 管理员 发表于 2016-9-10 20:20:42 | 只看该作者
ray_zhurui 发表于 2016-9-10 18:25
这种结构的网页不是应该在主题A采集所有href然后制定下级线索给主题B,然后主题B里整理箱里采集需要字段就可 ...

因为href是 javascript:viewpage('1143'); 这样的代码,如果抓取href,不能直接用,需要破解才能构造出下一级网址,也有可能破解工作很花时间。

所以,我们想通过一种完全模拟人的方式进行点击抓取,比较便捷。但是要做一次返回,目前的程序返回后总是从第一个开始抓取,需要把程序改造一下
举报 使用道具
12#
ray_zhurui 中级会员 发表于 2016-9-10 23:32:36 | 只看该作者
本帖最后由 ray_zhurui 于 2016-9-10 23:34 编辑
Fuller 发表于 2016-9-10 20:20
因为href是 javascript:viewpage('1143'); 这样的代码,如果抓取href,不能直接用,需要破解才能构造出下 ...

目前这种结构的网页没办法采集?让GS先打开第一页里所有的href,然后把打开后的地址依次序给爬虫可以 实现吗?
举报 使用道具
13#
Fuller 管理员 发表于 2016-9-11 00:28:35 | 只看该作者
ray_zhurui 发表于 2016-9-10 23:32
目前这种结构的网页没办法采集?让GS先打开第一页里所有的href,然后把打开后的地址依次序给爬虫可以 实现 ...

要是点击一个href就弹出一个新窗口就好了,可以用飞掠模式抓弹出窗口。而现在他不弹窗口,是在当前窗口中显示网页内容,目前我还没有想到好的方法,只能修改爬虫程序
举报 使用道具
14#
ray_zhurui 中级会员 发表于 2016-9-11 00:34:48 | 只看该作者
Fuller 发表于 2016-9-11 00:28
要是点击一个href就弹出一个新窗口就好了,可以用飞掠模式抓弹出窗口。而现在他不弹窗口,是在当前窗口中 ...

不能让爬虫抓取以后执行浏览器的后退按钮么?
举报 使用道具
15#
Fuller 管理员 发表于 2016-9-11 08:48:53 | 只看该作者
ray_zhurui 发表于 2016-9-11 00:34
不能让爬虫抓取以后执行浏览器的后退按钮么?

很好的建议,我们试试在连续动作中加入后退动作,通常后退不如点击那个返回按钮,网页上如果安排了一个返回按钮,那么应该是有所考虑的。后退动作很可能会再次回到列表的第一页,而返回按钮会保持在当前页码。我只是试过点击返回,还没有试后退
举报 使用道具
16#
ray_zhurui 中级会员 发表于 2016-9-11 09:15:06 | 只看该作者
Fuller 发表于 2016-9-11 08:48
很好的建议,我们试试在连续动作中加入后退动作,通常后退不如点击那个返回按钮,网页上如果安排了一个返 ...

一般页面不会去改正常用户使用按钮的功能吧。我感觉爬虫只要尽量模拟人浏览网页的动作都不应该被网站阻止的。
举报 使用道具
17#
ShelleyWu 初级会员 发表于 2016-9-12 08:54:47 | 只看该作者
Fuller 发表于 2016-9-11 08:48
很好的建议,我们试试在连续动作中加入后退动作,通常后退不如点击那个返回按钮,网页上如果安排了一个返 ...

手动试了下, 在第二层点击返回(List)的按钮 和 后退(上一页)的页面是一样的
目前连续动作有支持采集完作后退(上一页)的功能吗?

因为目前就谋数台看到的, 不论是爬虫路线或是连续动作, 都是针对页面上做点击,
请问后退(上一页)动作如何设定呢?
举报 使用道具
18#
ShelleyWu 初级会员 发表于 2016-9-12 09:11:37 | 只看该作者
Fuller 发表于 2016-9-10 16:59
在第二级L2_Sim_Click,连续动作的主题名应该是L1_Sim_Click,让他回去。

但是我发现了一个问题,回去以 ...

是的, 这个问题我也发现了, 目前我先设定为返回(L2_Sim_Click), 虽然中间会有几个error, 可是没有真正回到第一级的动作, 只是因为错误产生的跳转(?), 这样做回到第一级时会依序向下点击。只是这样会导致第一页点完就出错了。我也想过是否需要跳到第三级, 但是逻辑上不通。

我个人的理解是, 如果连续动作的主题名设为L1_Sim_Click, 让他跳回第一级, 因为没有所谓的”下级搜寻”设定, 跳回第一级时就像重新载一个新的页面, 所以老点击第一个。这样跳转点击的动作, 让两个页面没有上下级的区分。不知道这样的理解是否正确?
举报 使用道具
19#
ShelleyWu 初级会员 发表于 2016-9-17 08:44:04 | 只看该作者
大神你们好
请问这个问题有解决方案了吗?
举报 使用道具
20#
Fuller 管理员 发表于 2016-9-17 08:52:50 | 只看该作者
ShelleyWu 发表于 2016-9-17 08:44
大神你们好
请问这个问题有解决方案了吗?

这个问题还没有排上开发计划,最近开发任务比较多
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-17 19:34