这个是百度搜索seo这个关键词出来的相关搜索,这个的参考意思不大,就没有用百度拓词工具了。


如果想采集淘宝的,搜狗的相关搜索词,好像没有办法了,我做了个测试,



这是一个规则,

第二个规则我把主题名和目标主题名设置成相反的


然后启用爬虫群


这样好像能循环采集下去,但是重复的url不知道怎么预处理




举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2016-10-22 19:17

沙发
Fuller 管理员 发表于 2016-10-21 17:40:49 | 只看该作者
用一级规则就够了,在 入口a 这一级,下级线索还是 入口a
举报 使用道具
板凳
Fuller 管理员 发表于 2016-10-21 17:42:49 | 只看该作者
如果不想重复抓,看这个截图


红框内的参数要选择 “否”

举报 使用道具
地板
gooscape 新手上路 发表于 2016-10-21 17:44:46 | 只看该作者
谢谢。
举报 使用道具
5#
gooscape 新手上路 发表于 2016-10-21 17:46:27 | 只看该作者
这个再高级设置里面的,重复内容中断,默认选择是  否 的。 但是还是在重复的抓取
举报 使用道具
6#
Fuller 管理员 发表于 2016-10-21 17:52:25 | 只看该作者
gooscape 发表于 2016-10-21 17:46
这个再高级设置里面的,重复内容中断,默认选择是  否 的。 但是还是在重复的抓取 ...

重复内容中断 = 是:那么遇到重复的网页,会重复三次就中断。

请注意:这个只能用在
1)翻页
2)连续动作
他们都是只有一条线索一直翻下去。

相反,如果你有多个独立的线索,用这些线索抓网页的时候,爬虫不做内容重复判断。爬虫只判断网址有没有重复

像你这个主题,每个关键词都有一个独立的网址,这个只能判断网址重复。

但是,可能会遇到一个小麻烦,在同一个关键词情况下,比如,淘宝的网址可能不一样,他们的参数有多有少,这样就当成不同的网址了。这个问题爬虫不去解决,需要预先把网址清理一遍
举报 使用道具
7#
gooscape 新手上路 发表于 2016-10-21 17:59:30 | 只看该作者
大大,有没有好的思路。。。
举报 使用道具
8#
Fuller 管理员 发表于 2016-10-21 18:12:40 | 只看该作者
gooscape 发表于 2016-10-21 17:59
大大,有没有好的思路。。。

哪个问题?
举报 使用道具
9#
gooscape 新手上路 发表于 2016-10-21 22:44:37 | 只看该作者
采集的网址作为下一轮的线索,并且能够清洗一下这些线索,不重复。。。
举报 使用道具
10#
Fuller 管理员 发表于 2016-10-21 23:11:30 | 只看该作者
gooscape 发表于 2016-10-21 22:44
采集的网址作为下一轮的线索,并且能够清洗一下这些线索,不重复。。。

如果要清洗网址,那么按顺序执行下面的步骤
1)修改第一级规则,不要在第一级规则中定义下级线索,把网址当成纯内容采集下来。
2)将采集结果导入excel,
3)在excel中用清洗算法修改成你需要的网址,
4)把地址这一列单独拷贝到一个excel文件中,一行一个网址
5)在会员中心,找到第二级规则,在规则管理网页上有线索导入按钮,点击后把网址excel上载上去
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-30 23:50