Web信息提取

抓取卓越亚马逊商品评论

我想抓取亚马逊的商品评论,由于现在亚马逊中商品评价部分的HTML几乎没有使用@class或者@id属性,所以我参照了http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/blockattrdata.html
里关于amazon的方式来抓取亚马逊的评论。

我在抓取亚马逊商品评论的时候,发现有些商品的评论没有被抓取成功。通过观察亚马逊评论页面的DOM树结构,我发现是因为以下原因导致我所述的问题。
1.每条评论是一个DIV

微博信息抓取问题

我是新手,求大神帮忙~

刚刚学习了怎么抓取微博数据,就是“自动滚屏抓取新浪微博“ 这个教程,以下为网址:
http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/scroll.h...
在设置记号线索,进行“定义分页抓取”时遇到了问题,没有找到微博中“下一页”的记号。在浏览器中点“下一页”,系统说找不到位置(cannot find the node)
这是怎么回事呢?应该怎么处理呢?

二级抓取的问题

网页:http://yc.hr1000.com/search/hire_searchresult.asp
主题:第一级主题为mailOFyc,第二级主题为mailOFyc_list
问题:对上述网页采取二级抓取,第一级通过clue和url为第二级建立索引,但是上面那个网站的链接 href的value值为 ../compayn/hire_info_100792.html ,只有一部分,该怎样定义采集规则啊?

关于二级抓取的几个问题

我想抓取所有金华地区天猫店铺的店铺名字、月销量、公司名和4个爆款的价格,并且将抓取结果放到一张Excel表中,然后遇到下面几个问题,麻烦版主帮忙解决一下~

1、我把两个分级的主题(天猫金华旗舰店、店铺信息)都定义好了,但抓取结果是店铺信息只抓到了第一个店铺,其余的都没有

关于天猫店铺搜索结果页面的翻页抓取的问题

http://s.taobao.com/search?loc=金华&q=旗舰店&app=shopsearch&fs=1&isb=1&s=0

我想抓取金华的所有旗舰店信息,按照说明设置,抓取第一页的店铺信息没有问题,但是在DataScrapt里面翻页以后浏览器什么都没有,消息栏显示The URL of the inthread clue is same as the current.Stopped
在MetaStudio的浏览器手动点下一页,上面的按钮会变成红色。
请教版主哪里出了问题?

主题名是 天猫金华旗舰店,谢谢

浏览器没有显示“加载更多”

我想抓取
http://www.zhihu.com/people/keso/followers
中关注的人,MetaStudio下方的浏览器为什么有没有显示“更多”这个区域,却找得到“更多”所对应的标签。
以前抓取的时候没有出现这个问题,只要选择积极模式和延长模式就可以抓取成功。

如果在火狐浏览器打开这个网址,是有底部是有显示“更多”这个加载项的。

主题名是 互联网观察家_keso

如何只更改地址重用抓取主题?

做好了个店铺信息的抓取主题,怎么才能修改入口地址,重用这个主题,然后进行第二家店铺的抓取。
我更换了地址之后,会提示当前加载的页面不是工作页面,怎么才能复用之前的主题啊?

翻页抓取

在进行翻页抓取时,能够正常翻页,这个网站连续翻了2页后就要输入验证码,但是它一直往后抓取,抓取的就是一个网址,不会停下来让我输入验证码。
这是一个二级抓取~

翻页抓取股吧只能翻两页

我对http://guba.eastmoney.com/list,000632.html进行爬取,分别设置了相对线索和marker线索进行翻页(主题分别为:三木集团Test 和 三木集团Test_notRelativeClue ),但是datascraper都只能抓取两页的结果,请问这是为什么呢?
我的firefox版本是24,metastudio和datascraper也是对应的24_zh版本

结构相同,数量不定的几块内容怎么准确按标签抓取到

想抓取这个网页的详细数据
http://www.boohee.com/shiwu/yumi_xian

上半部分的“别名”、“热量”、“分类”、“评级”、“评价”放在5个P节点中,而且没有id和class,但是有的网页中没有“别名”这一项,那么抓取到的所有网页放在一起就会出现标签不对应,没有“别名”这一项的网页热量内容就对应到了“别名”,这种情况怎么解决?

Syndicate content