建立规则之后,可以正常爬取数据,我根据得到的结果,去对照原始网页,发现与爬取的结果顺序有所差异,比如原始网页是1234,爬下来的结果可能是1423,等等。而且爬取的结果,还有很多重复的条数。
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2016-9-25 13:01

沙发
Fuller 管理员 发表于 2016-6-16 22:38:36 | 只看该作者
1234是4个独立网址吗?如果是独立网址,那么不确保顺序的,因为每个独立网址都是一个线索,当网络爬虫部署多个的时候,大家就不能确保顺序,即使运行一个爬虫,也确保不了顺序

如果是翻页的话,顺序是确定的
举报 使用道具
板凳
banjolaura 初级会员 发表于 2016-6-17 10:02:33 | 只看该作者
Fuller 发表于 2016-6-16 22:38
1234是4个独立网址吗?如果是独立网址,那么不确保顺序的,因为每个独立网址都是一个线索,当网络爬虫部署 ...

哦,不是的,可能我没说清楚。我爬取的是企业列表。一页内有十个企业,假如企业的排序是12345,那我爬取下来的企业的排序可能是15234,会错乱。而且还有很多重复的企业。我将爬取的结果合并成excel之后,根据每个企业对应的URL,打开,有时候那一页中,并没有相应的企业。
举报 使用道具
地板
Fuller 管理员 发表于 2016-6-17 11:08:17 | 只看该作者
banjolaura 发表于 2016-6-17 10:02
哦,不是的,可能我没说清楚。我爬取的是企业列表。一页内有十个企业,假如企业的排序是12345,那我爬取 ...

抓取结果是xml文件,在这个文件中,顺序是否错乱?如果规则做的正确,在xml文件中不会错乱。

如果是转换成excel错乱了,要看使用了哪个转换工具?
举报 使用道具
5#
banjolaura 初级会员 发表于 2016-6-17 15:50:27 | 只看该作者
Fuller 发表于 2016-6-17 11:08
抓取结果是xml文件,在这个文件中,顺序是否错乱?如果规则做的正确,在xml文件中不会错乱。

如果是转换 ...

我现在大概知道是怎么回事了,excel和xml是一致的,没有问题。是我抓取的网站是变化的,不同时间去访问同一个页面,它的排序是不同的。这样是不是集搜客也没有办法啦?
举报 使用道具
6#
gsk117520 中级会员 发表于 2016-6-17 16:44:22 | 只看该作者
banjolaura 发表于 2016-6-17 15:50
我现在大概知道是怎么回事了,excel和xml是一致的,没有问题。是我抓取的网站是变化的,不同时间去访问同 ...

你好像没表达清楚,其实我现在也在找方法,
你的意思是你在这个网页抓出来的数据,顺序不对 有时候甚至不是你需要的数据 对吗?
目前好像要通过XPATH来做,但是CLASS相同的情况下做不出来
举报 使用道具
7#
banjolaura 初级会员 发表于 2016-6-17 17:16:03 | 只看该作者
gsk117520 发表于 2016-6-17 16:44
你好像没表达清楚,其实我现在也在找方法,
你的意思是你在这个网页抓出来的数据,顺序不对 有时候甚至不 ...

对的,而且如果它顺序变化的话,就会抓到很多重复的数据。xpath感觉好难,我还不会
举报 使用道具
8#
Fuller 管理员 发表于 2016-6-17 17:17:08 | 只看该作者
banjolaura 发表于 2016-6-17 15:50
我现在大概知道是怎么回事了,excel和xml是一致的,没有问题。是我抓取的网站是变化的,不同时间去访问同 ...

集搜客是原样抓取,如果网页上的内容变化了,爬虫没有办法解决,你可以在处理数据的时候,根据内容进行排序,比如,如果有发布时间,那就根据时间排序
举报 使用道具
9#
banjolaura 初级会员 发表于 2016-6-17 17:18:50 | 只看该作者
Fuller 发表于 2016-6-17 17:17
集搜客是原样抓取,如果网页上的内容变化了,爬虫没有办法解决,你可以在处理数据的时候,根据内容进行排 ...

好,我再看看,感谢大神
举报 使用道具
10#
格子回弈城了 初级会员 发表于 2016-9-25 13:00:25 | 只看该作者
banjolaura 发表于 2016-6-17 10:02
哦,不是的,可能我没说清楚。我爬取的是企业列表。一页内有十个企业,假如企业的排序是12345,那我爬取 ...

对对对,我也是错乱
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 11:01