主题名是 东方财经爬取
              东方财经爬取2
              东方财经爬取3
              东方财经爬取4

每次都是爬取几百页后说爬取完了 我的目标要爬取40万页 每次都要手动调停止那页开始太累了
另外我可以一个网页建立20个怕虫群吗 这样会快更多
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-7-13 22:59

沙发
shengchengx 金牌会员 发表于 2017-7-13 09:23:30 | 只看该作者
停止是因为报什么错么,有截图么?
举报 使用道具
板凳
joanne 初级会员 发表于 2017-7-13 18:22:14 | 只看该作者
shengchengx 发表于 2017-7-13 09:23
停止是因为报什么错么,有截图么?

没有报错 就说是抓取完成
我检查过线索也是没有问题
举报 使用道具
地板
Fuller 管理员 发表于 2017-7-13 18:32:25 | 只看该作者
没有查到你的规则,主题名是 东方财经爬取 吗?
举报 使用道具
5#
Fuller 管理员 发表于 2017-7-13 18:33:45 | 只看该作者
如果用同一台电脑,同时运行20个爬虫群窗口,可能会被目标网站封锁了,你可以试试。如果封锁了,清缓存和cookie,把爬虫群窗口少开几个,再运行
举报 使用道具
6#
joanne 初级会员 发表于 2017-7-13 19:23:15 | 只看该作者
Fuller 发表于 2017-7-13 18:32
没有查到你的规则,主题名是 东方财经爬取 吗?

啊 对不起 是东方财富爬取
举报 使用道具
7#
Fuller 管理员 发表于 2017-7-13 20:54:19 | 只看该作者
joanne 发表于 2017-7-13 19:23
啊 对不起 是东方财富爬取

股吧这个网站很好采集,你可以不用在规则中做翻页规则,因为它的每个分页都有独立的网址,比如, http://guba.eastmoney.com/default_200.html ,里面的200这个数字就是页码。你可以把每个页码都构造出来。每个分页单独采集。这样就不怕翻页中断了。可以随时从任何分页开始采集
举报 使用道具
8#
joanne 初级会员 发表于 2017-7-13 21:42:38 | 只看该作者
Fuller 发表于 2017-7-13 20:54
股吧这个网站很好采集,你可以不用在规则中做翻页规则,因为它的每个分页都有独立的网址,比如, http:// ...

哦哦 谢谢你的建议
但是我一共要采集40多万页
一个一个构造感觉很累 有其他办法可以一次性构造所有线索吗
举报 使用道具
9#
joanne 初级会员 发表于 2017-7-13 22:59:42 | 只看该作者
Fuller 发表于 2017-7-13 20:54
股吧这个网站很好采集,你可以不用在规则中做翻页规则,因为它的每个分页都有独立的网址,比如, http:// ...

我找到批量导入的方法了 谢谢~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 17:22