如果你需要完整且全面的数据,最好每个抓取规则都设置关键内容(一个整理箱设置至少一个关键内容),这是检验规则有效性的一种方法,能知道哪些页面采集失败了,并且能从中分析出失败的原因进而修改规则,重新激活失败线索进行补采,这样就能把你需要的数据采集全。

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-4-22 10:21

沙发
Fuller 管理员 发表于 2017-4-22 10:21:29 | 只看该作者
如果有些抓取内容时有时无,即使抓不到他们也不影响其他数据,那么就不要勾选抓取内容。

但是,通常需要至少设置一个关键内容。否则,DS打数机运行的时候就没有检验依据,就不知道抓取规则是否符合当前的网页结构。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?
  • top2vec话题发现原理和使用方法
  • 将文本聚类和LDA分析模块安装在数据盘上的
  • GooSeeker分词软件的tf-idf算法和特征词选

热门用户

GMT+8, 2026-4-17 07:28