50 89272

线索是什么意思?

gdzxLyzh 于 2016-1-23 20:18 发表 [复制链接]
Fuller 管理员 发表于 2016-1-23 21:43:56 | 显示全部楼层
gdzxLyzh 发表于 2016-1-23 21:34
明白! 就是在第二个规则中定义翻页线索,如果是矮楼则不影响,如果是高楼贴,那么规则2也可以顺利抓取, ...

是的
举报 使用道具
Fuller 管理员 发表于 2016-1-23 21:52:31 | 显示全部楼层
gdzxLyzh 发表于 2016-1-23 21:39
恩恩, 规则1也要定义翻页线索,因为版块有20页。 规则2也要有翻页线索,因为要抓高楼贴。那么再问下主题 ...

不要做成一个主题,这两个规则明显是为了两件事
第一个:在板块中翻页抓取所有帖子的列表
第二个:针对每个帖子,翻页抓取每一楼

应该用两个不同的主题。

如果用同一个主题,DS打数机根据整理箱中设置的关键内容进行核对,能核对上的规则就使用,通常也能达到目的。

如果两个规则都能核对上,根据 规则编号 进行排序,规则编号是在MS谋数台的 命名主题 工作台上设置的。
规则编号_1.png

举报 使用道具
gdzxLyzh 初级会员 发表于 2016-1-23 21:59:18 | 显示全部楼层
Fuller 发表于 2016-1-23 21:52
不要做成一个主题,这两个规则明显是为了两件事
第一个:在板块中翻页抓取所有帖子的列表
第二个:针对每 ...

好的。  如果我在页面只需要抓取作者aaa发的帖子,怎么办?
因为用样例复制是把所有结构相同的都抓下来了
举报 使用道具
gdzxLyzh 初级会员 发表于 2016-1-23 22:04:51 | 显示全部楼层
Fuller 发表于 2016-1-23 21:52
不要做成一个主题,这两个规则明显是为了两件事
第一个:在板块中翻页抓取所有帖子的列表
第二个:针对每 ...

还有MS里的逻辑问题:
1、一个主题是用于实现一个功能的,这么描述可对?所以抓取所有帖子列表和 抓取每个帖子的楼层要做成两个主题。
2、在一个主题下可以有多个规则吗?这多个规则都是为了实现一个功能服务的,理解可对?
3、每个规则对应多个整理箱?
就是这样 主题 包含规则s 规则包含整理箱s?
举报 使用道具
Fuller 管理员 发表于 2016-1-23 22:42:02 | 显示全部楼层
gdzxLyzh 发表于 2016-1-23 21:59
好的。  如果我在页面只需要抓取作者aaa发的帖子,怎么办?
因为用样例复制是把所有结构相同的都抓下来了 ...

抓取的时候通常不能做筛选。都抓下来后再筛选

可以自定义xpath,使用contains()函数作为条件进行过滤。但是,万一有一页上没有aaa发的帖子,如果抓取内容设置了关键内容,那么在这页上就失败了。

如果不在这个字段上设置关键内容,不会失败,会继续翻页。但是,肯定都要翻一遍,不如就抓下来后再筛选
举报 使用道具
Fuller 管理员 发表于 2016-1-23 22:42:38 | 显示全部楼层
gdzxLyzh 发表于 2016-1-23 22:04
还有MS里的逻辑问题:
1、一个主题是用于实现一个功能的,这么描述可对?所以抓取所有帖子列表和 抓取每 ...

可以这样理解
举报 使用道具
beanbing 中级会员 发表于 2016-10-22 18:02:57 | 显示全部楼层
如果是一个页面网址下面有无数个URL,你怎么知道数字呢?
举报 使用道具
shenzhenwan10 金牌会员 发表于 2016-10-22 18:23:46 | 显示全部楼层
你说的“怎么知道数字”是什么意思?
举报 使用道具
Fuller 管理员 发表于 2016-10-23 07:46:21 | 显示全部楼层
beanbing 发表于 2016-10-22 18:02
如果是一个页面网址下面有无数个URL,你怎么知道数字呢?

你想构造网址?比如,把所有京东产品的网址构造出来?

对于京东产品,因为数字不连续,你无法构造。比如进入京东的产品分类页面,在那里把所有分类的网址抓下来,然后进入每个类,把所有产品的网址抓下来。一层层抓取。

可以看这个《采集流程规划教程
举报 使用道具
beanbing 中级会员 发表于 2016-10-23 08:39:32 | 显示全部楼层
嗯  没有理解,如果你要采集瀑布流的网址,那你线索里(也就是滚屏参数要输入多少呢?)
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 20:57