多级提取天猫商品评论不成功

我定义了三级:
第一级从http://list.tmall.com/search_product.htm?spm=3.1000473.295285.1.PfKV7m&q=&area_code=310000&sort=s&style=g&vmarket=0&from=sn_1_cat-qp&cat=50024400这个页面手机商品的链接;定义了一个分页的内部线索和导入到详细页的线索;
第二级在商品的详细页收集基本信息,然后定义了一个收集商品评论的线索;
第三级收集商品的评论信息。

现在的问题是第一级的链接到商品详细页的线索好像不生效,分页手机完商品列表信息之后,状态那里就显示“FIN”,然后就没有动静了。搞了好久都没有搞好,求帮助啊

第一级是否看到翻页提取了?

有没有观察到第一级的翻页动作?在结果文件目录,是否有多个结果文件?每个分页对应一个。

执行完第一级,就可以统计一下第二级的数量,可以估计一下第一级执行是否有效

可以看到,而且35个分

可以看到,而且35个分页全部被抓取下来了,但是没有进入到第二级的抓取,第二级没有任何结果,状态那里显示的是“FIN”。但是我现在再试一遍又不行了,状态哪里显示的是PLINE和SUPA,我想请问一下这两个分别代表什么意思,感觉一会儿可以一会儿不可以,很不稳定。

每个线索只能抓一次

每个线索(通常对应一个网址)只能抓一次,成功完成后就不能再抓取了,只有想办法再次激活它。抓取失败的线索用DataScraper界面上的弹出菜单“线索”-〉“激活”就能激活。但是,抓取成功的必须使用周期性调度文件(crontab.xml)的renewClue才能激活。

如果用MetaStudio加载信息结构后重新上载schema或者instruction,可以激活样本页面这一条线索。

第二级主题必须像抓第一级一样启动抓取,不会自动从第一级跳到第二级

第一级抓取完了之后

第一级抓取完了之后,我启动第二级,它只会抓取一个商品的评论信息就停止了,第一级抓取的应该是一个地址列表,怎么样才能让它全部都抓取。

也就是说必须等上一

也就是说必须等上一级的抓取完毕了,然后启动下一级的才能开始抓取,那启动第三级的也是同样的。

评论页面的地址不变,怎么启动第二级线索吗?

评论页面的地址不变,怎么启动第二级线索吗?

要输入线索数

如果是在DataScraper界面上启动第二级抓取,应该输入线索数,比如,100个。到底有几个线索,用菜单“线索”-〉“统计”进行观察。

已经可以了,非常感

已经可以了,非常感谢

同样的需求

我也是要通过这个方式,抓取多个商品的评论,但是在第二级连接第三级的时候就是败了,一直都是FIN,求指教?或者之前的schema都参考下么? 太感谢了!

FIN状态表示没有线索了

如果想第二级到第三级自动连接抓取,需要在第二级信息结构中,将第三级声明成线内线索。否则两级要分别抓取

二级目录抓取滚屏至页面最后一直load 然后就没有反应了

多谢多谢,这个问题解决了,开始抓起来了,但是。。。。

二级目录抓取的时候, 一开始的时候正常抓去了四个页面,然后抓取的时候滚屏至页面最下面,状态一直load 然后就没有反应了
需要手动的重新提取,不知道是怎么会回事,求助~~

超时时间可以设置得短一点

在DataScraper界面上,设置超时时间,注意是以毫秒为单位。

另外,在配置菜单下有个普通模式, 不选它,可以提高速度,但是要求MetaStudio定义信息结构的时候至少为一个信息属性设置key特性