规则名:健客网第三层_抓大图
今天运行了好久打数机,显示也是在抓数据,中间无响应断了几次,然后我看规则里总有70多条显示未抓取,运行多久都是70多条未抓取
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2018-4-23 15:39

yangwenge 金牌会员 发表于 2018-4-20 18:06:29 | 显示全部楼层
本帖最后由 yangwenge 于 2018-4-20 18:07 编辑

JWZPC4Z6}BKW`JEX}V1BNQD.png
用单搜或者集搜采集的时候,有多少待采集的线索就需要输入多少线索,才能全部采集。
在打数机中可以右键规则名--统计线索

举报 使用道具
bsh331400 中级会员 发表于 2018-4-22 12:35:37 | 显示全部楼层
yangwenge 发表于 2018-4-20 18:06
用单搜或者集搜采集的时候,有多少待采集的线索就需要输入多少线索,才能全部采集。
在打数机中可以右键规 ...

单搜是这样做的啊,用爬虫群也是这种结果,还老是出现软件自动退出现象
举报 使用道具
Fuller 管理员 发表于 2018-4-22 13:03:29 | 显示全部楼层
打数机下方的日志栏有没有报错?
举报 使用道具
bsh331400 中级会员 发表于 2018-4-23 10:47:37 | 显示全部楼层
Fuller 发表于 2018-4-22 13:03
打数机下方的日志栏有没有报错?

没有提示,是不是软件有缓存啊,我今天打开软件显示是116条未采集
举报 使用道具
yangwenge 金牌会员 发表于 2018-4-23 11:23:25 | 显示全部楼层
}6{$$LHRX7]TVAOI_G9NX@W.png
有做下级线索指向自己,一个商品有多个规则就会自动生成下级线索到当前规则中。

举报 使用道具
bsh331400 中级会员 发表于 2018-4-23 14:02:15 | 显示全部楼层
yangwenge 发表于 2018-4-23 11:23
有做下级线索指向自己,一个商品有多个规则就会自动生成下级线索到当前规则中。

...

是啊,关键是显示已采集的条数总是没变,未采集的条数总是76,爬虫群一直在工作,这是什么问题,如果是线索变多了,总条数应该增加啊
举报 使用道具
yangwenge 金牌会员 发表于 2018-4-23 14:11:59 | 显示全部楼层
本帖最后由 yangwenge 于 2018-4-23 14:24 编辑
bsh331400 发表于 2018-4-23 14:02
是啊,关键是显示已采集的条数总是没变,未采集的条数总是76,爬虫群一直在工作,这是什么问题,如果是线 ...

网站的原因,到某个规格后采集到的网址会回到前面某个规则的网址。
DUWDZYV(_{1EMW)E002W3_B.png
比如这个页面的久正的链接进入选中的却是君寿堂,采集到的链接就会变成君寿堂后面一个规则的链接
https://www.jianke.com/product/174712.html
可以在会员中心---爬虫群---点击规则名---调度设中将是否激活下级线索选择否
447%8OQBP8246035LNASBKS.png
这样设置后,出现重复的线索就不会重新激活采集,
不过久正及其后面的规格会采集不到,如果需要采
集后面的规格就需要手工添加久正后面一个规则的链接。
举报 使用道具
yangwenge 金牌会员 发表于 2018-4-23 14:28:22 | 显示全部楼层
yangwenge 发表于 2018-4-23 14:11
网站的原因,到某个规格后采集到的网址会回到前面某个规则的网址。

比如这个页面的久正的链接进入选中的 ...

最好的办法是做样例复制采集所有规格的链接(规则的链接不需要写xpath),然后按照上面的设置将是否激活下级线索选择为否。

举报 使用道具
bsh331400 中级会员 发表于 2018-4-23 14:47:33 | 显示全部楼层
yangwenge 发表于 2018-4-23 14:28
最好的办法是做样例复制采集所有规格的链接(规则的链接不需要写xpath),然后按照上面的设置将是否激活 ...

谢谢你哈,我又发现一个问题:有的商品点击最后一个规格是跳到首页,这样的链接我可以采取什么办法不采集它
商品链接:https://www.jianke.com/product/71587.html
无标题.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-16 20:22