天猫二级抓取失败,参考了 《怎样采集淘宝宝贝的用户评论信息》 还是没成功。
主题
Tmall_lvdun_detail
Tmall_lvdun_comment
我已经设置了AJAX选项,二级抓取还是失败,Fuller帮忙看下,麻烦了!
天猫二级抓取失败,参考了 《怎样采集淘宝宝贝的用户评论信息》 还是没成功。
主题
Tmall_lvdun_detail
Tmall_lvdun_comment
我已经设置了AJAX选项,二级抓取还是失败,Fuller帮忙看下,麻烦了!
http://www.amazon.com/Geneva-Gold-Plated-Classic-Boyfriend/product-revie...
我要在这个网址上采集评论的打分星数、评论的内容、评论下的评论数目,可是映射之后有的条目会出现空白,不能完全采集,这是为什么呀?
求救求救啊!!!
研究一天了!
帮帮忙吧!!!
下面是自动生成的MAP文件
<?xml version="1.0" encoding="UTF-8"?>
最近几天,尝试采集亚马逊中国的数据,搞了好久都没有进展,主要难点在于不能翻页,各位高手指点一下小弟吧,浪费了好几天时间,现在急着用数据,帮忙看看
入口地址:http://www.amazon.cn/s/ref=nb_sb_noss_1?__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&url=search-alias%3Daps&field-keywords=%E7%9B%91%E6%8E%A7%E6%91%84%E5%83%8F%E6%9C%BA
采集规则:监控摄像机_亚马逊
用微博搜索抓取微博数据,但由于关键词不同,要抓的网页不是同一个,但网页结构应该是完全一致。我在一个网页上设置了抓取规则之后,如果想将这个规则应用到按另一个关键词搜索的网页上,该怎么实现呢?可以实现么?谢谢!
网址:http://beijing.anjuke.com/sale/chaoyang/a13-b15-m17-p2/
问题:该网站只能显示前100页的内容。因此,理想的解决办法是,找到每一个限制条件的对应代码,然后构造出类似“chaoyang/a13-b15-m17-p2/”的网址后缀,这样就可以把结果控制在100页以内,以便全部抓取。但好像在线版的每一个Theme,只能对应一个网址,所以不能实现这个思路。
请教:有没有变通的办法,可以实现上述想法?或者可以采用其他什么办法?
http://guba.eastmoney.com/topic,000002_1.html
请教两个问题哈:
1,东方财富股吧的翻页区只有“下10页”这样的标签,如果以“下10页”作为翻页记号,则无法抓到第2、3……10页的数据。但是url是有顺序的,第一页是http://guba.eastmoney.com/topic,000002_1.html,第二页是http://guba.eastmoney.com/topic,000002_2.html,能否通过这个来翻页?如何设置?
我想从一个网站抓取价格信息,在metastudio中已经编写好的抓取规则,单个页面抓取测试成功。问题是,我想抓取的是一个特定url列表中的所有页面,而不是从页面本身上找线索。有什么办法可以办到这点?
举例:
我想抓的其中一个页面如下:
http://www.sigmaaldrich.com/catalog/product/aldrich/690643?lang=zh®io...
在metastudio中已经可以成功的抓取到我想要的价格信息(虽然是ajax内容,但是不得不承认这个工具很强大,稍微设置就可以抓取)。
ERROR: ScraperClient: Error: 401 for: http://www.metacamp.cn/metacamp/secure/retrieveschemalist.htm?nego_clien...
表单里面偶数行class是“even”,包括4个样例;奇数行class是“odd”,也包括4个样例,弱问这种情况怎么把所有行都抓下来呢?样例复制只能弄出来一行的,freeformat只抓出来每行第一个样例。真不知道哪个地方映射不对
我在抓取知乎网信息的时候出现了一个问题,在follower主题下,我抓取了用户关注者的链接,但是所有的链接都是站内链接,前面缺少一部分http://zhihu.com,所以后面没办法自动抓取了,求教fuller大神,这种情况该怎么办呢?