层级抓取数据,第二层抓取2个数据就不动了

层级抓取数据,我的最多只能抓取2个商品的数据。后面就不动了……
抓取描述:

规则名【cxw_taobao_njfluke】

(1)打开网页-->http://njfluke.taobao.com/?q=fluke&searcy_type=item&s_from=newHeader&source=&ssid=s5-e&search=y&initiative_id=shopz_20130520
(2)抓取下面每个商品的URL作为线索(线索指向的规则名:cxw_taobao_njfluke_xx)。(依次翻页抓取所有数据)

规则名:【cxw_taobao_njfluke_xx】
(1)根据线索进入商品详细页面,抓取商品的名称、价格、销量。

可能是规则2里 FreeFormat标志出错了,具体我不清楚,请指教。
顺便问一下,企业版是否可以把抓取每页数据合并,而不是每页都是一个xml~~!是否可以把抓取的数据表格化导出的是excel。
价格如何?在哪里看O(∩_∩)O~

补充一下

补充一下,问题是:每次启动cxw_taobao_njfluke_xx,只抓取1个商品的数据,然后就没了,继续运行cxw_taobao_njfluke_xx,又抓取下一个商品的数据,生成新文件

信息结构定义没有错

能够用MetaStudio加载,而且FreeFormat映射也对。抓取第二级的时候,如果采用手工启动抓取,DataScraper会询问抓取多少个线索,你是不是只输入了1?另外,DataScraper的日志窗口上显示什么?

MetaSeeker企业版也不负责合并XML,而是由配套的MetaCorpora软件负责将XML存入关系数据库

V5 线索我填成20抓了20个

是的,是线索我填成1才造成这样的,分析1个之后,DataScraper的日志窗口上没有显示什么。(不知道是否需要等待)
之后我填了20抓取数据,之后一共抓到38个商品,也就是38个XML文件。
然后我打开了10几个xml,观察了抓取的数据,发现有个问题:抓取的38个商品里面至少有10个商品的销量显示为"-".而不是数字。
列出2个抓取正常的地址:
第一页第一列第一个:http://item.taobao.com/item.htm?spm=a1z10.3.w17-6975436368.10.1XtgIb&id=13638242456&
第二页第一列第一个:http://item.taobao.com/item.htm?spm=a1z10.3.w17-6975436368.11.GrNSpI&id=14344009320&
列出2个抓取数据不完整的地址:
第二页第一列第三个:http://item.taobao.com/item.htm?spm=a1z10.3.w17-6975436368.15.GrNSpI&id=19039891493&
第二页第一列第四个:http://item.taobao.com/item.htm?spm=a1z10.3.w17-6975436368.17.GrNSpI&id=17218716321&
直到第二页第四列第二个销量抓取正常。
--------------------------------------------------
我还想请教4个问题:
第一如何重新抓取数据(我把抓取的数据删除后,再次抓取20个,发现是继续以前的进度抓取的)
PS:我都是手动抓取的。
第二,为什么有的时候,我使用DataScraper,规则用不了了,比如我上述的2个规则,使用之后,状态面板显示1PLINE
,0SUPA。启动不了。
第三,这2条规则是抓取淘宝A店铺fluke的月销量。我是否可以用来抓取店铺B数据(和A店铺性质一样,都是集市店)。
第四“MetaCorpora软件负责将XML存入关系数据库”,MetaCorpora软件我怎么获取?

淘宝抓取需要设置AJAX选项

淘宝商品的销量是用AJAX技术动态加载的,如果没有设置AJAX选项,那么可能没有等到这个数据加载上就抓取完了。另外,如果每个商品总是有这个数据,而且对你来说是必须要的,那么需要设置key特性。如果不设置key特性,即使设置了AJAX选项,也会没有等到加载上就执行了抓取。但是,如果有些商品可能没有销量这一项,就不能设置key特性,那么只有想办法让抓取操作推迟一些,可以设置滚屏模式,就能延迟抓取操作。

其他问题:
1,如果要重新抓取,用DataScraper菜单上的激活操作无法激活已经抓取完成的线索,只能用周期性抓取指令文件中的指令进行激活
2,出现SUPA状态,似乎不太合理,是不是没有可用线索了?
3,通常一个规则可以适合多个店铺,要验证一下就知道了
4,MetaCorpora软件不是免费软件,下载不了,需要购买

周期性网页信息提取,只能抓取3页,后面就动不了

抓取商品的30天销量显示“-”,是因为数据还没有加载出来。

我用周期性网页信息提取(规则:cxw_taobao_njfluke),发现只能抓取3页的数据(一共8页),不知道为什么,调整了一些参数还是这样,日志显示:
ExtractSpiderClue_Simp Duplication ratio is over the threshold. The pipe line stops
以下是代码(加*防止屏蔽):
<?xml version="1.0" encoding="UTF-8"?>
<*crontab>
<*thread name="cxw_taobao_njfluke">
<*parameter>
<*auto>true
<*start>10
<*period>10800
<*waitOnload>flase
<*minIdle>2
<*maxIdle>10

<*step name="renewClue">
<*theme>cxw_taobao_njfluke

<*step name="crawl">
<*theme>cxw_taobao_njfluke
<*loadTimeout>60000
<*lazyCycle>5
<*updateClue>false
<*dupRatio>80
<*timerTriggered>true
<*depth>-1
<*width>-1
<*renew>false
<*period>10800
<*scrollWindowRatio>2
<*scrollMorePages>10
<*allowPlugin>false
<*allowImage>false
<*allowJavascript>false

<*step name="crawl">
<*theme>cxw_taobao_njfluke
<*updateClue>false
<*dupRatio>80
<*depth>-1
<*width>-1
<*renew>false
<*period>10800
<*resumePageLoad>true
<*resumeMaxCount>3

规则是适合多个店铺的,我就是不知道怎么设置,是把2条规则加载,修改页面地址,然后上传吗?
MetaCorpora的购买详情有吗?
E-mail:669314508@qq.com

仔细看下 crontab.xml的说明

dupRatio如果设置80的话,就是增量抓取,会判断以前是否已经抓取过,如果重复率达到80%,那么就会提示

ExtractSpiderClue_Simp Duplication ratio is over the threshold. The pipe line stops

如果想激活哪个主题,那么就renewClue哪个主题

第二级的抓取也可以放在同一个crontab.xml中

MetaCorpora比较贵,而且通常先买MetaSeeker,再买MetaCorpora,如果单独买MetaCorpora,有点不划算

谢谢你的答复,太有帮助了

到今天,遇到2个问题,一直解决不了,请教。

(1)dupRatio我设置成了100或者0,之后可以抓取全部数据一共142个商品(142个xml文件)。
有一次,我删除抓取的文件,重新抓取到一小半的时候,我把它关闭了,之后,我删除文件,再重新抓取,结果上面显示,线索有284个(抓284个)!不知道如何调整,可以只抓142个。谢谢!
(2)规则cxw_taobao_njfluke_xx我修改了一下,重要数据都是key属性。设置了延长模式。
crontab.xml中waitOnload:true ,实际抓取商品的30天销量 有很多显示为"-".不知道如何解决?
出现"-"是刚打开网页0.1秒甚至更短的时间,30天销量上的数据还没有完全加载出来默认显示“-”,之后就可以显示出来了。
一下为一个商品的地址:http://item.taobao.com/item.htm?spm=a1z10.3.w17-6975436368.10.VcaOG3&id=13638242456&
刚开始打开的时候,30天销量上可能会显示出“-” ,之后就显示出数字呢。我先要的是抓取这个数字。而不是“-”。不知道怎么设置。

淘宝宝贝抓取技巧

1)142个商品是第二级抓取吗?也就是说第一级抓取的时候产生这142个网址。如果以后变成284了,或者继续倍乘,说明每次抓取第一级的时候,抓到的网址都有变化。这样的话,不要renewClue第二级,只renew第一级
2)我看了下抓取规则,定义的没有错误,淘宝网页一开始显示“-”,即使设置了key也没有用,因为一开始就有“-”,这样就不好保证总能抓到数据,只有想办法延迟抓取时间,尽量抓取,在DataScraper上可以打开滚屏抓取,菜单“配置“-〉”滚屏参数“,MorePages设置一个&0的数字,比如5。在crontab.xml中也有对应的参数

“-”基本上消除了

第一级的规则是采集商品的URL(一共8页,142个商品)。
第二级的规则是根据URL进入商品详细页,抓取名称,价格,销量。(也就是142个)
PS:第一条规则编辑上传好,不运行,是否可以只运行第二条规则来抓取数据?

好像除了第一次运行规则,抓取了142个商品详细数据。
之后再运行规则,都是显示284个线索,抓取284个。没有翻倍过。
(也就这2天的事,淘宝宝贝的URL地址近期很少会改变的,当然我目前没有数据来证明)
之后我运行规则抓取的数据 也不是从第一个开始抓的。
-------------------------------------------------------------------------------------------------
按照你说的,我把renewClue这块删除了,在DataScraper上MorePages设置一个5,在crontab.xml中也有对应的参数也改成5。
运行规则,抓取的数据是从第一个宝贝开始抓的。惊喜!(不过线索显示有263个)
等待数据全部抓取完,263个XML文件里面大概有10个左右显示“-”已经非常少了。可能改成更大的数会更好。

我继续运行第二级规则,规则不运行,然后我把renewClue这块重新添加到crontab.xml里,运行规则线索又显示284了。
我的目的是想:删除这些抓取的文件,重新运行规则能重新从第一个商品开始抓取数据,而且就抓142个。不知道是否可以这样做。O(∩_∩)O~谢谢

在线版的灵活度不够

在线版MetaSeeker很多管理功能没有,不能手工或者用程序删除线索或者添加线索,企业版就好了。可以这样做:

1,只renew第一级
2,抓取第一级,注意updateClue要设置成true
3,在同一个线程或者另外一个线程抓取第二级
4,循环上述过程

如果用于持续监测商品价格,那么需要循环上述步骤。做第二步的时候,会为第二级重新生成线索,所以,即使淘宝网址变化了也不受影响。第二级就不要renew了。

数量有时候抓不下来就不要提高more Pages了,再调高也会偶尔失败。只能通过重复不断地抓取,总是可以为所有商品都抓取到这个数字。

运行第一级规则,完美,第二级基本上运行完毕

我这次按照你说的,抓取了数据,第二级到一般的时候,我关了,删除数据之后,重复第一级,第二级。
第二级显示173个线索。
把抓取的173个XML汇总之后,导入到EXCEL里面,筛选出23个商品的销量为“-”。因此就销量为“-”的商品,数据里面有1-2个重复的商品,数据显示的正确的数字。

这也可以理解了为什么是173(我奇怪了,一开始抓的时候,就显示173,结果出来之后,正好,难道之前都算好有多少个是“-”了)
resumePageLoad 设置为flase ,线索就显示为142. 问题解决。 非常谢谢详细的指导O(∩_∩)O~

resumePageLoad不是用在这里的

resumePageLoad可以用在翻页的场合,防止翻页到一半的时候网络不稳定导致翻页中断。但是,很多情形resumePageLoad失效,因为现在很多网站翻页是用Javascript实现的,每个分页没有专门的url地址,这样,resumePageLoad就失效了。

如果第二级运行过程中关程序,通常会造成当前网页抓取失败,如果一共173个线索,那么只会抓到172个。

但是,关程序后又再次运行第一级,而且updateClue=true,那么所有173个线索都会重新激活

resumePageLoad是说你的那样

现在先运行第一条规则,之后再运行第二条规则,第二条显示有40个线索,抓取40个完毕之后,会再显示有102个线索,继续抓取,知道142个抓取完毕。(我不会中途关闭,每次都抓取完毕)(现在不会出现284个,应该是updateClue=true的原因吧)

总之目前基本上运行,抓取数据,基本上已经可以,虽然有的时候,出现的“-”会很多;有的时候142个里面就出现1个“-”。

假设这2调规则是针对店铺A的页面X,进行抓取的。
如果店铺B的页面Y也是服务规则的,我如果让2调规则抓取B店铺呢。

我尝试修改规则的页面地址,结果状态变成红色的,不行。
不知道如何操作,才能统计规则相同的其他页面。

将第二个淘宝店铺套用规则1的方法

将规则1加载到MetaStudio后,在地址输入栏中输入店铺2的url地址,回车,等待网页完全加载完成后,底端状态条会显示“完成”,顶端工具条中间的绿色图标会变成红色,表示网页加载完了。

选择菜单“文件”-〉“刷新DOM”,这一步不是必须的,但是,淘宝网页都是动态网页,最好做这一步

选择菜单“文件”-〉“分析页面”。如果店铺2的网页符合这个抓取规则,只会弹出一个提示框,问你是否需要修改主题名,忽略它。

点击工具条上的“Instruction”按钮,为这个网址生成线索。

此时,规则1就有了店铺1和店铺2的线索

非常感谢

整个流程,已经可以运行了,遇到的一些问题,也解决呢。
目前用的是在线版,已经感到功能十分强大!!!!
目前在线版勉强能用。谢谢呢。

企业版到底是几位数呢? O(∩_∩)O~

企业版价格

企业版的价格可以通过email单独讨论