我只能抓取一页的内容,总是显示刷新页面结构
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-3-3 14:13

沙发
Fuller 管理员 发表于 2017-3-1 22:06:45 | 只看该作者
你定义的规则有没有存过?如果存规则了,请告诉我主题名,我帮你看看
举报 使用道具
板凳
Fuller 管理员 发表于 2017-3-1 22:08:31 | 只看该作者
如果在定义规则期间提示需要刷新网页结构,说明这个网页内容是动态改变的,为了在定义规则期间不受干扰,需要冻结页面不让他变化。按照如下顺序操作
1)加载网页,看到内容都显示全了,选择菜单 规则-〉冻结页面
2)选择菜单 规则-〉刷新页面结构,这样就准备好了
3)定义规则,并存规则
举报 使用道具
地板
商店的实习生 新手上路 发表于 2017-3-2 15:13:37 | 只看该作者
Fuller 发表于 2017-3-1 22:06
你定义的规则有没有存过?如果存规则了,请告诉我主题名,我帮你看看

万分感谢,名字是豆瓣电子,我用翻页采集,但好像还是不对
举报 使用道具
5#
ym 版主 发表于 2017-3-2 16:10:31 | 只看该作者
商店的实习生 发表于 2017-3-2 15:13
万分感谢,名字是豆瓣电子,我用翻页采集,但好像还是不对

规则设置是没有问题的,可以自动翻页,采到每一页的信息。
你前面说的刷新页面结构的问题,是因为用爬虫对这个网页做规则时,它依然可以滚屏翻页,每次滚屏都都会改变网页结构,而规则是要对静态网页来定义的,所以,你做规则前,先要选择菜单 规则-〉冻结页面-〉刷新页面结构,这样做网页就不会变动了。

举报 使用道具
6#
商店的实习生 新手上路 发表于 2017-3-2 20:18:31 | 只看该作者
ym 发表于 2017-3-2 16:10
规则设置是没有问题的,可以自动翻页,采到每一页的信息。
你前面说的刷新页面结构的问题,是因为用爬虫 ...

我自己改了一下,名字是电子豆瓣,已经能够把所有试读部门下载下来了,但是弄成text还比较麻烦
举报 使用道具
7#
商店的实习生 新手上路 发表于 2017-3-3 11:25:11 | 只看该作者
Fuller 发表于 2017-3-1 22:08
如果在定义规则期间提示需要刷新网页结构,说明这个网页内容是动态改变的,为了在定义规则期间不受干扰,需 ...

现在是电子豆瓣。能够导出,但是速度很慢,而且没有办法导出txt
举报 使用道具
8#
xandy 论坛元老 发表于 2017-3-3 11:47:29 | 只看该作者
商店的实习生 发表于 2017-3-3 11:25
现在是电子豆瓣。能够导出,但是速度很慢,而且没有办法像八爪鱼导出txt ...

excel是可以转成txt文档的,如果要批量转的话,可以百度“excel批量转成txt”
举报 使用道具
9#
商店的实习生 新手上路 发表于 2017-3-3 13:49:04 | 只看该作者
xandy 发表于 2017-3-3 11:47
excel是可以转成txt文档的,如果要批量转的话,可以百度“excel批量转成txt”
...

我把他转成excel会有很多别的无用的东西,还要自己手动删除,

QQ图片20170303134504.png (66.08 KB, 下载次数: 912)

杂的

杂的
举报 使用道具
10#
商店的实习生 新手上路 发表于 2017-3-3 13:52:13 | 只看该作者
Fuller 发表于 2017-3-1 22:06
你定义的规则有没有存过?如果存规则了,请告诉我主题名,我帮你看看

存了规则就可以使用么,还是必须发布,发布审核太慢了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-15 23:02