https://bj.lianjia.com/ershoufang/pg3co32/
一级规格是采集该网页里的房源基本信息,例如价格户型面积等,二级规则是采集下级线索里的挂牌时间等,一共采集3个网址,两个规格点击集搜,分别为3和90,也就是说一级规则应该有3个xml文档,二级规则采集应该有90个文档,可二级的每次都只有30个文档,求解,谢谢!
举报 使用道具
| 回复

共 32 个关于本帖的回复 最后回复于 2018-3-13 10:48

沙发
shengchengx 金牌会员 发表于 2018-3-9 10:25:24 | 只看该作者
本帖最后由 shengchengx 于 2018-3-9 10:29 编辑

如果采集中有翻页的话,是采集一页就会产生一个xml文件,你可以先去采集一级规则中的数据,采集完一级规则的数据之后,去查看下二级规则一共有多少条线索,采集完了之后再去检查数据是否采集完整
举报 使用道具
板凳
希渺 初级会员 发表于 2018-3-9 10:40:28 | 只看该作者
shengchengx 发表于 2018-3-9 10:25
如果采集中有翻页的话,是采集一页就会产生一个xml文件,你可以先去采集一级规则中的数据,采集完一级规则 ...

没有翻页,我是一页一页采集的啊
举报 使用道具
地板
yangwenge 金牌会员 发表于 2018-3-9 10:43:51 | 只看该作者
希渺 发表于 2018-3-9 10:40
没有翻页,我是一页一页采集的啊

规则名是什么?
举报 使用道具
5#
希渺 初级会员 发表于 2018-3-9 10:46:20 | 只看该作者

标题列表页-lj0308和详情列表页-lj0308
刚试了下,连标题列表页采集到的数量也不对了。。

举报 使用道具
6#
yangwenge 金牌会员 发表于 2018-3-9 11:26:14 | 只看该作者
本帖最后由 yangwenge 于 2018-3-9 11:30 编辑
希渺 发表于 2018-3-9 10:46
标题列表页-lj0308和详情列表页-lj0308
刚试了下,连标题列表页采集到的数量也不对了。。


我这边测试一点问题都没,先删除所以采集的xml文件和两个规则的线索,然后重新添加线索采集看看;
另外单搜的时候输入的线索数要大于等于待抓取的线索数。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
希渺 初级会员 发表于 2018-3-9 12:54:56 | 只看该作者
yangwenge 发表于 2018-3-9 11:26
我这边测试一点问题都没,先删除所以采集的xml文件和两个规则的线索,然后重新添加线索采集看看;
另外单 ...

我试了好几次,还是只有30个二级线索采集数据。。。
把xml文件全部删除了,而且在打数机里激活了所有线索和所有失败线索啊
删除两个规则的线索是什么意思啊?

举报 使用道具
8#
yangwenge 金牌会员 发表于 2018-3-9 14:01:41 | 只看该作者
希渺 发表于 2018-3-9 12:54
我试了好几次,还是只有30个二级线索采集数据。。。
把xml文件全部删除了,而且在打数机里激活了所有线索 ...


这是输入的几?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
9#
希渺 初级会员 发表于 2018-3-9 14:59:49 | 只看该作者

一级输入的是5二级输入的是100
举报 使用道具
10#
yangwenge 金牌会员 发表于 2018-3-9 15:08:48 | 只看该作者
希渺 发表于 2018-3-9 14:59
一级输入的是5二级输入的是100

打数机右键规则名-统计线索,分别统计两个规则的线索看看

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-26 03:22