Web信息提取

多级提取天猫商品评论不成功

我定义了三级:
第一级从http://list.tmall.com/search_product.htm?spm=3.1000473.295285.1.PfKV7m&q=&area_code=310000&sort=s&style=g&vmarket=0&from=sn_1_cat-qp&cat=50024400这个页面手机商品的链接;定义了一个分页的内部线索和导入到详细页的线索;
第二级在商品的详细页收集基本信息,然后定义了一个收集商品评论的线索;
第三级收集商品的评论信息。

如何处理动态table ID,以及如何忽略多余的div

第一个问题,如何处理动态table ID:
html代码如下:
<table class="list_table" id="table17128" cellspacing="0" width="100%">
这里面的ID是动态的,每次都不一样,该如何处理呢?

第二个问题,如何忽略某一个ID
<tr id="r2n" style="display:none;"><td><td style="padding:3px 0px 10px 0px;" colspan="14"><div style=text-align:center><img src=http://csstatic.com/img/barwait.gif /></div>

我想把上面的r2n忽略掉,这是一个不规则的ID,会导致这个节点以后的数据都抓不到。

像大街网那种查看简历的,网站上用了框架结构,怎么能提取?

像大街网那种查看简历的,网站上用了框架结构,怎么能提取?

淘宝指数里面的关键词流量数据如何抓取?

查阅了网站关于Ajax的文档都试了下 都不能获取到Node 这个模块应该是Json加载进来的数据 请问该如何获取到?

[多层结构网页抓取失败实例2则]

感谢制作者,为我们提供软件的免费使用。软件的确很好,功能很强大,能够抓取大部分的网站。最近玩这个软件上瘾了,同时也遇到很多问题。

实例1:
http://stores.ebay.com/Adorama-Camera/Computer-Systems-/_i.html?_fsub=84...

每行3个产品,属于1个组(每行为一组,每页有多组)。 复制抓取规则后只能抓取一个组内的3个产品。设置多级容点节器,分别对应小组和产品。对小组和样品规则分别激活复制样例。抓取失败。

翻页抓取无法进行下去

抓取目标网站:
http://www.tigerdirect.com/applications/category/category_slc.asp?page=1&Nav=|c:4937|&Sort=3&Recs=30
使用规则:
tiger30

遇到问题:
创建规则和线索后,第一页,第二页抓取正常
无法执行第三页的抓取。DOM结构在各网页之间应该非常接近的。
版主能帮我看看原因吗?

能不能将多级抽取的内容按照树形结构放入到一个xml文件中?

用两级主题提取不同页面的信息,但是其中的一个页面信息可以是另一个页面信息的子节点(xml文件中),能不能不让DataScraper生成两个文件夹,而是将其中的一个页面信息作为子节点插入到另一个页面中?这样更合理,请问Fuller有这样的教程或解决方法吗?

淘宝双色球数据抓取问题翻页问题

抓取淘宝双色球,多级抓取,入口页面:

http://caipiao.taobao.com/lottery/order/united_hall.htm?_tb_token_=e7ee1...

一级抓取时,一开始翻页还正常,但是翻到30多页后,就停止翻页了,似乎系统在重试,但是总不能翻页成功,且在当前页反复重复抓取,
就是停在了下述页面:这个页面单独拿浏览器打开后还报错........

淘宝双色球数据抓取问题

参考页面http://caipiao.taobao.com/lottery/order/united_detail.htm?spm=0.0.0.0.9B7fqy&united_id=5RUVSKQYS3WTRBOW5LIPODEFL4&db_type=0

具体映射双色球数据时(使用content提取所有文本内容),MAP的时候提示错误信息
Unconsistent node contexts:in length: pathLen=1;ctxLen=0
这是什么情况,谢谢富达人,请帮忙分析一下~

求助:瀑布流网站抓取时:Timeout to load the page

您好,我的主题是:花瓣美女图
抓取到后面的时候,就停掉了,消息栏的信息是:Timeout to load the page,请您帮忙看看,问题出在哪里呢?万分感谢!

Syndicate content