本帖最后由 马涌河畔 于 2020-7-20 09:37 编辑

我看到论坛常见问题版块下有一篇文章:如何在excel中合并多层级采集结果
这个帖子讲了用层级采集的多级结果文件的合并, 合并的原理是:判断上级采集的线索网址和下级采集网址是否相同。
那对于微热点,搜狗微信文章这样的, 通过连续动作来点开下级页面的, 怎样合并呢?


举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-7-20 10:08

沙发
内容分析应用 金牌会员 发表于 2020-7-20 09:34:36 | 只看该作者
对于使用连续动作来点开下级页面采集数据的, 在上级的结果里没有下级网址这个字段, 那么可以用另外2个系统字段来匹配:
上级的<currentstamp>和下级的<prestamp>


举报 使用道具
板凳
内容分析应用 金牌会员 发表于 2020-7-20 09:56:32 | 只看该作者
对于微热点,搜狗微信文章这样的, 如果通过连续动作来点开一个新的下级页面的, 需要开通飞掠功能,这是旗舰版用户才有的功能

举报 使用道具
地板
Fuller 管理员 发表于 2020-7-20 10:08:30 | 只看该作者
如果设置了爬虫群采集模式(更多资料参看:教程板块左栏目录爬虫群专题),既可以采用集搜客爬虫软件,也可以用数据管家
1,集搜客爬虫软件功能更加完备,但是将不再有大的发展
2,数据管家操作简便,是未来重点发展的软件,版本升级很快,请及时下载最新版本,现在是V1.7.3,。这个版本才具有多级规则同时打包功能。
在设置爬虫群调度参数的时候,如果是连续动作或者连续翻页,只需为第一级规则勾上“数据自动入库”。注意,普通层级采集跟连续动作和连续翻页不一样,因为普通层级采集的各级任务是分开独立运行的,层级采集速度会更快,能更充分利用多台电脑的多个爬虫窗口,但是有些网页一定要一口气点击完,只能用连续动作。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 22:10