以前使用火狐浏览器采集数据时,翻页从来没有出现过问题,这几天用gooseeker浏览器之后,发现建的规则爬到的数据跟想象的不一样。主要有3个:
1、翻页采集,网址https://s.1688.com/company/compa ... acugeneral.search.0
规则:粉末涂料供应商1级
问题:爬取的一级线索数量只有一页的量,按道理应该是一页一个xml文件,但是采集的数据除了第一个xml有十几条外,其余几个里面只有5条数据,而且出现了重复的xml。
2、class定位标志,网址:https://shop6b57v92249722.1688.c ... t.15.38d17aa8m5wcJS
规则:粉末涂料供应商2级和粉末涂料供应商3级。
问题:定位标志是用class定位,但是由于不同店铺,“联系方式”菜单的位置不同,采用class定位标志之后,采集的数据有的是联系方式页面,有的是其他菜单页面,跟预想的不太一样。
3、下级线索还是模拟点击,网址:https://shop6b57v92249722.1688.c ... t.15.38d17aa8m5wcJS
规则:粉末涂料供应商2级和粉末涂料供应商3级。
问题:之前是通过3级采集的方式,1级获取店铺主页网址,2级获取联系方式页面的网址,3级获取所需信息;后来由于提取的数据没有很满意,换了思路。
于是在粉末涂料供应商2级中的爬虫路线中使用了模拟点击线索,但还是没有达到想要的数据。
想问一下,这种情况,可以用模拟点击线索吗?还是用原来的方法,在2层规则中获取店铺联系方式页面网址再进行采集。
非常感谢!
|
共 5 个关于本帖的回复 最后回复于 2020-9-2 14:30