Web信息提取

天猫二级抓取失败

Sun, 04/14/2013 - 10:33 — monsoonw

天猫二级抓取失败，参考了《怎样采集淘宝宝贝的用户评论信息》还是没成功。
主题
Tmall_lvdun_detail
Tmall_lvdun_comment
我已经设置了AJAX选项，二级抓取还是失败，Fuller帮忙看下，麻烦了！

Web信息提取

14 comments

亚马逊网站采集信息出现空白

Sat, 04/13/2013 - 22:22 — lss

http://www.amazon.com/Geneva-Gold-Plated-Classic-Boyfriend/product-revie...

我要在这个网址上采集评论的打分星数、评论的内容、评论下的评论数目，可是映射之后有的条目会出现空白，不能完全采集，这是为什么呀？

求救求救啊！！！
研究一天了！
帮帮忙吧！！！

下面是自动生成的MAP文件
<?xml version="1.0" encoding="UTF-8"?>

Web信息提取

采集亚马逊中国数据不能翻页

Fri, 04/12/2013 - 11:24 — sasne

最近几天，尝试采集亚马逊中国的数据，搞了好久都没有进展，主要难点在于不能翻页，各位高手指点一下小弟吧，浪费了好几天时间，现在急着用数据，帮忙看看

入口地址：http://www.amazon.cn/s/ref=nb_sb_noss_1?__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&url=search-alias%3Daps&field-keywords=%E7%9B%91%E6%8E%A7%E6%91%84%E5%83%8F%E6%9C%BA

采集规则：监控摄像机_亚马逊

Web信息提取

如何实现一种抓取规则应用到多个网页中？

Sat, 04/06/2013 - 23:57 — nicojoy

用微博搜索抓取微博数据，但由于关键词不同，要抓的网页不是同一个，但网页结构应该是完全一致。我在一个网页上设置了抓取规则之后，如果想将这个规则应用到按另一个关键词搜索的网页上，该怎么实现呢？可以实现么？谢谢！

Web信息提取

5 comments

网址：http://beijing.anjuke.com/sale/chaoyang/a13-b15-m17-p2/
问题：该网站只能显示前100页的内容。因此，理想的解决办法是，找到每一个限制条件的对应代码，然后构造出类似“chaoyang/a13-b15-m17-p2/”的网址后缀，这样就可以把结果控制在100页以内，以便全部抓取。但好像在线版的每一个Theme，只能对应一个网址，所以不能实现这个思路。
请教：有没有变通的办法，可以实现上述想法？或者可以采用其他什么办法？

Web信息提取

Login to post comments

东方财富股吧如何实现翻页

Sat, 03/09/2013 - 21:34 — lalala

http://guba.eastmoney.com/topic,000002_1.html
请教两个问题哈：
1，东方财富股吧的翻页区只有“下10页”这样的标签，如果以“下10页”作为翻页记号，则无法抓到第2、3……10页的数据。但是url是有顺序的，第一页是http://guba.eastmoney.com/topic,000002_1.html，第二页是http://guba.eastmoney.com/topic,000002_2.html，能否通过这个来翻页？如何设置？

Web信息提取

只抓取现有url列表中的网页

Sat, 03/09/2013 - 18:48 — xjjius

我想从一个网站抓取价格信息，在metastudio中已经编写好的抓取规则，单个页面抓取测试成功。问题是，我想抓取的是一个特定url列表中的所有页面，而不是从页面本身上找线索。有什么办法可以办到这点？

举例：

我想抓的其中一个页面如下：
http://www.sigmaaldrich.com/catalog/product/aldrich/690643?lang=zh&regio...
在metastudio中已经可以成功的抓取到我想要的价格信息（虽然是ajax内容，但是不得不承认这个工具很强大，稍微设置就可以抓取）。