评论 Fuller 2018-10-6 11:31
18009214778: 如何将同一网站 不同页面的相同模块进行爬去尼
把规则做好以后,添加网址就行了,参看这个教程:https://www.gooseeker.com/doc/thread-667-1-1.html
评论 18009214778 2018-10-6 10:35
如何将同一网站 不同页面的相同模块进行爬去尼
评论 Fuller 2016-8-30 11:36
有正事的小青年: 一个网站,有很多列表,每个列表点进去是一篇文章,设置后再爬文章,有很多匹配失败的,我猜可能是不同文章的结构不同,有的是长篇文字,有的是短篇文字,有的带 ...
在论坛版块发一个帖子吧,那里方便贴图和讨论。把主题名和样本页面网址发出来
评论 有正事的小青年 2016-8-30 11:25
一个网站,有很多列表,每个列表点进去是一篇文章,设置后再爬文章,有很多匹配失败的,我猜可能是不同文章的结构不同,有的是长篇文字,有的是短篇文字,有的带附件,有的不带附件,有的附件是一个excel或者word的链接,有的附件是一篇小短文。还要爬文章中右下角的日期,有的文章有日期,有的没有。有的文章是一个大表格,有的文章即有文字又有表格,这种情况怎么办啊,求大神指导。先谢谢了!
评论 有正事的小青年 2016-8-30 11:19
刷新不了页面啊,点击刷新页面之后,下面浏览器没反应,再点页面分析,就说找不到页面结构
评论 Fuller 2016-8-1 21:40
waq0902: 同一主题不同规则制定之前还要先做下级线索吧?
同一主题下的多个规则基本结构是应该一样的,比如,都有爬虫路线,都有整理箱。只用过程一定要注意:如果有个规则缺爬虫路线或者整理箱,他先存规则,把最全的那个放在最后存。如果以前已经存过了,再存一遍。这是程序的一个bug,按照顺序就不会有问题
评论 waq0902 2016-8-1 20:15
同一主题不同规则制定之前还要先做下级线索吧?
评论 waq0902 2016-8-1 18:53
如果有视频教程就好啦

GMT+8, 2024-11-5 12:22