11#
HJLing 版主 发表于 2016-6-21 15:41:17 | 只看该作者
759924607 发表于 2016-6-21 14:04
您好,又来打扰您了。改了一上午,采集结果优化了许多。目前是天猫的都可以采集到,淘宝页面全部采集不到 ...

你可以看DS下面的日志报错 根据这篇帖子加载错误的线索号来修改 http://www.gooseeker.com/doc/thread-663-1-3.html
举报 使用道具
12#
HJLing 版主 发表于 2016-6-21 15:44:45 | 只看该作者
本帖最后由 HJLing 于 2016-6-21 15:50 编辑
759924607 发表于 2016-6-21 14:04
您好,又来打扰您了。改了一上午,采集结果优化了许多。目前是天猫的都可以采集到,淘宝页面全部采集不到 ...

你每个抓取内容都设为关键内容 这样子只要有一个抓取内容找不到这个规则就不适应了 不需要设置这么多抓取内容
还有  你在整理箱节点即“淘宝记录仪详情”做一个定位标志映射
也建议你像天猫那个规则那样 分开整理箱来采集
举报 使用道具
13#
759924607 高级会员 发表于 2016-6-21 16:05:40 | 只看该作者
HJLing 发表于 2016-6-21 15:44
你每个抓取内容都设为关键内容 这样子只要有一个抓取内容找不到这个规则就不适应了 不需要设置这么多抓取 ...

整理箱做定位标记,这个还是第一次尝试,我待会去试试。
您说不用设置这么多抓取内容,这个是不做内容映射嘛,还是不勾选关键内容?这个没有理解。爬虫采集网页上的信息,尤其是网页上的文字,采集text文本,感觉一定要做内容映射,并且要勾选关键内容。
举报 使用道具
14#
HJLing 版主 发表于 2016-6-21 16:07:28 | 只看该作者
759924607 发表于 2016-6-21 16:05
整理箱做定位标记,这个还是第一次尝试,我待会去试试。
您说不用设置这么多抓取内容,这个是不做内容映 ...

内容映射一定要做 我说的不用每个都勾选关键内容
举报 使用道具
15#
759924607 高级会员 发表于 2016-6-21 16:08:35 | 只看该作者
HJLing 发表于 2016-6-21 16:07
内容映射一定要做 我说的不用每个都勾选关键内容

好嘞 明白了!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 16:55