层级抓取数据，第二层抓取2个数据就不动了

Mon, 05/20/2013 - 23:44 — lovesmile

层级抓取数据，我的最多只能抓取2个商品的数据。后面就不动了……
抓取描述：

规则名【cxw_taobao_njfluke】

(1)打开网页-->http://njfluke.taobao.com/?q=fluke&searcy_type=item&s_from=newHeader&source=&ssid=s5-e&search=y&initiative_id=shopz_20130520
(2)抓取下面每个商品的URL作为线索(线索指向的规则名：cxw_taobao_njfluke_xx)。（依次翻页抓取所有数据）

规则名：【cxw_taobao_njfluke_xx】
（1）根据线索进入商品详细页面，抓取商品的名称、价格、销量。

可能是规则2里 FreeFormat标志出错了，具体我不清楚，请指教。
顺便问一下，企业版是否可以把抓取每页数据合并，而不是每页都是一个xml~~！是否可以把抓取的数据表格化导出的是excel。
价格如何？在哪里看O(∩_∩)O~

MetaSeeker工具包

Mon, 05/20/2013 - 23:49 — lovesmile

补充一下

补充一下，问题是：每次启动cxw_taobao_njfluke_xx，只抓取1个商品的数据，然后就没了，继续运行cxw_taobao_njfluke_xx，又抓取下一个商品的数据，生成新文件

Tue, 05/21/2013 - 09:22 — Fuller

信息结构定义没有错

能够用MetaStudio加载，而且FreeFormat映射也对。抓取第二级的时候，如果采用手工启动抓取，DataScraper会询问抓取多少个线索，你是不是只输入了1？另外，DataScraper的日志窗口上显示什么？

MetaSeeker企业版也不负责合并XML，而是由配套的MetaCorpora软件负责将XML存入关系数据库

Tue, 05/21/2013 - 11:27 — lovesmile

是的，是线索我填成1才造成这样的，分析1个之后，DataScraper的日志窗口上没有显示什么。（不知道是否需要等待）
之后我填了20抓取数据，之后一共抓到38个商品，也就是38个XML文件。
然后我打开了10几个xml，观察了抓取的数据，发现有个问题：抓取的38个商品里面至少有10个商品的销量显示为"-".而不是数字。
列出2个抓取正常的地址：
第一页第一列第一个：http://item.taobao.com/item.htm?spm=a1z10.3.w17-6975436368.10.1XtgIb&id=13638242456&
第二页第一列第一个：http://item.taobao.com/item.htm?spm=a1z10.3.w17-6975436368.11.GrNSpI&id=14344009320&
列出2个抓取数据不完整的地址：
第二页第一列第三个：http://item.taobao.com/item.htm?spm=a1z10.3.w17-6975436368.15.GrNSpI&id=19039891493&
第二页第一列第四个：http://item.taobao.com/item.htm?spm=a1z10.3.w17-6975436368.17.GrNSpI&id=17218716321&
直到第二页第四列第二个销量抓取正常。
--------------------------------------------------
我还想请教4个问题：
第一如何重新抓取数据（我把抓取的数据删除后，再次抓取20个，发现是继续以前的进度抓取的）
PS:我都是手动抓取的。
第二，为什么有的时候，我使用DataScraper,规则用不了了，比如我上述的2个规则，使用之后，状态面板显示1PLINE
，0SUPA。启动不了。
第三，这2条规则是抓取淘宝A店铺fluke的月销量。我是否可以用来抓取店铺B数据（和A店铺性质一样，都是集市店）。
第四“MetaCorpora软件负责将XML存入关系数据库”，MetaCorpora软件我怎么获取？

Tue, 05/21/2013 - 11:43 — Fuller

淘宝抓取需要设置AJAX选项

淘宝商品的销量是用AJAX技术动态加载的，如果没有设置AJAX选项，那么可能没有等到这个数据加载上就抓取完了。另外，如果每个商品总是有这个数据，而且对你来说是必须要的，那么需要设置key特性。如果不设置key特性，即使设置了AJAX选项，也会没有等到加载上就执行了抓取。但是，如果有些商品可能没有销量这一项，就不能设置key特性，那么只有想办法让抓取操作推迟一些，可以设置滚屏模式，就能延迟抓取操作。

其他问题：
1，如果要重新抓取，用DataScraper菜单上的激活操作无法激活已经抓取完成的线索，只能用周期性抓取指令文件中的指令进行激活
2，出现SUPA状态，似乎不太合理，是不是没有可用线索了？
3，通常一个规则可以适合多个店铺，要验证一下就知道了
4，MetaCorpora软件不是免费软件，下载不了，需要购买

Tue, 05/21/2013 - 14:30 — lovesmile

周期性网页信息提取，只能抓取3页，后面就动不了

抓取商品的30天销量显示“-”，是因为数据还没有加载出来。

我用周期性网页信息提取(规则：cxw_taobao_njfluke)，发现只能抓取3页的数据（一共8页），不知道为什么，调整了一些参数还是这样，日志显示：
ExtractSpiderClue_Simp Duplication ratio is over the threshold. The pipe line stops
以下是代码(加*防止屏蔽)：
<?xml version="1.0" encoding="UTF-8"?>
<*crontab>
<*thread name="cxw_taobao_njfluke">
<*parameter>
<*auto>true
<*start>10
<*period>10800
<*waitOnload>flase
<*minIdle>2
<*maxIdle>10

<*step name="renewClue">
<*theme>cxw_taobao_njfluke

<*step name="crawl">
<*theme>cxw_taobao_njfluke
<*loadTimeout>60000
<*lazyCycle>5
<*updateClue>false
<*dupRatio>80
<*timerTriggered>true
<*depth>-1
<*width>-1
<*renew>false
<*period>10800
<*scrollWindowRatio>2
<*scrollMorePages>10
<*allowPlugin>false
<*allowImage>false
<*allowJavascript>false

<*step name="crawl">
<*theme>cxw_taobao_njfluke
<*updateClue>false
<*dupRatio>80
<*depth>-1
<*width>-1
<*renew>false
<*period>10800
<*resumePageLoad>true
<*resumeMaxCount>3

规则是适合多个店铺的，我就是不知道怎么设置，是把2条规则加载，修改页面地址，然后上传吗？
MetaCorpora的购买详情有吗？
E-mail：669314508@qq.com

Tue, 05/21/2013 - 15:00 — Fuller

仔细看下 crontab.xml的说明

dupRatio如果设置80的话，就是增量抓取，会判断以前是否已经抓取过，如果重复率达到80%，那么就会提示

ExtractSpiderClue_Simp Duplication ratio is over the threshold. The pipe line stops

如果想激活哪个主题，那么就renewClue哪个主题

第二级的抓取也可以放在同一个crontab.xml中

MetaCorpora比较贵，而且通常先买MetaSeeker，再买MetaCorpora，如果单独买MetaCorpora，有点不划算

Wed, 05/22/2013 - 14:42 — lovesmile

谢谢你的答复，太有帮助了

到今天，遇到2个问题，一直解决不了，请教。

（1）dupRatio我设置成了100或者0，之后可以抓取全部数据一共142个商品（142个xml文件）。
有一次，我删除抓取的文件，重新抓取到一小半的时候，我把它关闭了，之后，我删除文件，再重新抓取，结果上面显示，线索有284个（抓284个）！不知道如何调整，可以只抓142个。谢谢！
（2）规则cxw_taobao_njfluke_xx我修改了一下，重要数据都是key属性。设置了延长模式。
crontab.xml中waitOnload：true ，实际抓取商品的30天销量有很多显示为"-".不知道如何解决？
出现"-"是刚打开网页0.1秒甚至更短的时间，30天销量上的数据还没有完全加载出来默认显示“-”，之后就可以显示出来了。
一下为一个商品的地址：http://item.taobao.com/item.htm?spm=a1z10.3.w17-6975436368.10.VcaOG3&id=13638242456&
刚开始打开的时候，30天销量上可能会显示出“-” ，之后就显示出数字呢。我先要的是抓取这个数字。而不是“-”。不知道怎么设置。

Wed, 05/22/2013 - 15:59 — Fuller

淘宝宝贝抓取技巧

1）142个商品是第二级抓取吗？也就是说第一级抓取的时候产生这142个网址。如果以后变成284了，或者继续倍乘，说明每次抓取第一级的时候，抓到的网址都有变化。这样的话，不要renewClue第二级，只renew第一级
2）我看了下抓取规则，定义的没有错误，淘宝网页一开始显示“-”，即使设置了key也没有用，因为一开始就有“-”，这样就不好保证总能抓到数据，只有想办法延迟抓取时间，尽量抓取，在DataScraper上可以打开滚屏抓取，菜单“配置“-〉”滚屏参数“，MorePages设置一个&0的数字，比如5。在crontab.xml中也有对应的参数

Wed, 05/22/2013 - 17:11 — lovesmile

“-”基本上消除了

第一级的规则是采集商品的URL（一共8页，142个商品）。
第二级的规则是根据URL进入商品详细页，抓取名称，价格，销量。（也就是142个）
PS：第一条规则编辑上传好，不运行，是否可以只运行第二条规则来抓取数据？

好像除了第一次运行规则，抓取了142个商品详细数据。
之后再运行规则，都是显示284个线索，抓取284个。没有翻倍过。
（也就这2天的事，淘宝宝贝的URL地址近期很少会改变的，当然我目前没有数据来证明）
之后我运行规则抓取的数据也不是从第一个开始抓的。
-------------------------------------------------------------------------------------------------
按照你说的，我把renewClue这块删除了，在DataScraper上MorePages设置一个5，在crontab.xml中也有对应的参数也改成5。
运行规则，抓取的数据是从第一个宝贝开始抓的。惊喜！（不过线索显示有263个）
等待数据全部抓取完，263个XML文件里面大概有10个左右显示“-”已经非常少了。可能改成更大的数会更好。

我继续运行第二级规则，规则不运行，然后我把renewClue这块重新添加到crontab.xml里，运行规则线索又显示284了。
我的目的是想：删除这些抓取的文件，重新运行规则能重新从第一个商品开始抓取数据，而且就抓142个。不知道是否可以这样做。O(∩_∩)O~谢谢

Wed, 05/22/2013 - 17:19 — Fuller

在线版的灵活度不够

在线版MetaSeeker很多管理功能没有，不能手工或者用程序删除线索或者添加线索，企业版就好了。可以这样做：

1，只renew第一级
2，抓取第一级，注意updateClue要设置成true
3，在同一个线程或者另外一个线程抓取第二级
4，循环上述过程

如果用于持续监测商品价格，那么需要循环上述步骤。做第二步的时候，会为第二级重新生成线索，所以，即使淘宝网址变化了也不受影响。第二级就不要renew了。

数量有时候抓不下来就不要提高more Pages了，再调高也会偶尔失败。只能通过重复不断地抓取，总是可以为所有商品都抓取到这个数字。

Wed, 05/22/2013 - 19:08 — lovesmile

运行第一级规则，完美，第二级基本上运行完毕

我这次按照你说的，抓取了数据，第二级到一般的时候，我关了，删除数据之后，重复第一级，第二级。
第二级显示173个线索。
把抓取的173个XML汇总之后，导入到EXCEL里面，筛选出23个商品的销量为“-”。因此就销量为“-”的商品，数据里面有1-2个重复的商品，数据显示的正确的数字。

这也可以理解了为什么是173（我奇怪了，一开始抓的时候，就显示173，结果出来之后，正好，难道之前都算好有多少个是“-”了）
resumePageLoad 设置为flase ，线索就显示为142. 问题解决。非常谢谢详细的指导O(∩_∩)O~

Wed, 05/22/2013 - 22:18 — Fuller

resumePageLoad不是用在这里的

resumePageLoad可以用在翻页的场合，防止翻页到一半的时候网络不稳定导致翻页中断。但是，很多情形resumePageLoad失效，因为现在很多网站翻页是用Javascript实现的，每个分页没有专门的url地址，这样，resumePageLoad就失效了。

如果第二级运行过程中关程序，通常会造成当前网页抓取失败，如果一共173个线索，那么只会抓到172个。

但是，关程序后又再次运行第一级，而且updateClue=true，那么所有173个线索都会重新激活

Thu, 05/23/2013 - 10:53 — lovesmile

resumePageLoad是说你的那样

现在先运行第一条规则，之后再运行第二条规则，第二条显示有40个线索，抓取40个完毕之后，会再显示有102个线索，继续抓取，知道142个抓取完毕。（我不会中途关闭，每次都抓取完毕）（现在不会出现284个，应该是updateClue=true的原因吧）

总之目前基本上运行，抓取数据，基本上已经可以，虽然有的时候，出现的“-”会很多；有的时候142个里面就出现1个“-”。

假设这2调规则是针对店铺A的页面X，进行抓取的。
如果店铺B的页面Y也是服务规则的，我如果让2调规则抓取B店铺呢。

我尝试修改规则的页面地址，结果状态变成红色的，不行。
不知道如何操作，才能统计规则相同的其他页面。

Thu, 05/23/2013 - 15:51 — Fuller

将第二个淘宝店铺套用规则1的方法

将规则1加载到MetaStudio后，在地址输入栏中输入店铺2的url地址，回车，等待网页完全加载完成后，底端状态条会显示“完成”，顶端工具条中间的绿色图标会变成红色，表示网页加载完了。

选择菜单“文件”-〉“刷新DOM”，这一步不是必须的，但是，淘宝网页都是动态网页，最好做这一步

选择菜单“文件”-〉“分析页面”。如果店铺2的网页符合这个抓取规则，只会弹出一个提示框，问你是否需要修改主题名，忽略它。

点击工具条上的“Instruction”按钮，为这个网址生成线索。

此时，规则1就有了店铺1和店铺2的线索

Fri, 05/24/2013 - 22:59 — lovesmile

非常感谢

整个流程，已经可以运行了，遇到的一些问题，也解决呢。
目前用的是在线版，已经感到功能十分强大！！！！
目前在线版勉强能用。谢谢呢。

企业版到底是几位数呢？ O(∩_∩)O~

Sat, 05/25/2013 - 00:03 — Fuller

企业版价格

企业版的价格可以通过email单独讨论

GooSeeker