Web信息提取

抓取卓越亚马逊商品评论

Wed, 12/04/2013 - 16:26 — our2008

我想抓取亚马逊的商品评论，由于现在亚马逊中商品评价部分的HTML几乎没有使用@class或者@id属性，所以我参照了http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/blockattrdata.html
里关于amazon的方式来抓取亚马逊的评论。

我在抓取亚马逊商品评论的时候，发现有些商品的评论没有被抓取成功。通过观察亚马逊评论页面的DOM树结构，我发现是因为以下原因导致我所述的问题。
1.每条评论是一个DIV

Web信息提取

微博信息抓取问题

Tue, 12/03/2013 - 20:18 — Aroe_Ronda

我是新手，求大神帮忙~

刚刚学习了怎么抓取微博数据，就是“自动滚屏抓取新浪微博“ 这个教程，以下为网址：
http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/scroll.h...
在设置记号线索，进行“定义分页抓取”时遇到了问题，没有找到微博中“下一页”的记号。在浏览器中点“下一页”，系统说找不到位置（cannot find the node）
这是怎么回事呢？应该怎么处理呢？

Web信息提取

2 comments

二级抓取的问题

Mon, 12/02/2013 - 16:14 — ghhjjkklk

网页：http://yc.hr1000.com/search/hire_searchresult.asp
主题：第一级主题为mailOFyc，第二级主题为mailOFyc_list
问题：对上述网页采取二级抓取，第一级通过clue和url为第二级建立索引，但是上面那个网站的链接 href的value值为 ../compayn/hire_info_100792.html ，只有一部分，该怎样定义采集规则啊？

Web信息提取

Login to post comments

关于二级抓取的几个问题

Sun, 12/01/2013 - 20:59 — bossyond

我想抓取所有金华地区天猫店铺的店铺名字、月销量、公司名和4个爆款的价格，并且将抓取结果放到一张Excel表中，然后遇到下面几个问题，麻烦版主帮忙解决一下~

1、我把两个分级的主题（天猫金华旗舰店、店铺信息）都定义好了，但抓取结果是店铺信息只抓到了第一个店铺，其余的都没有

Web信息提取

关于天猫店铺搜索结果页面的翻页抓取的问题

Sun, 12/01/2013 - 00:59 — bossyond

http://s.taobao.com/search?loc=金华&q=旗舰店&app=shopsearch&fs=1&isb=1&s=0

我想抓取金华的所有旗舰店信息，按照说明设置，抓取第一页的店铺信息没有问题，但是在DataScrapt里面翻页以后浏览器什么都没有，消息栏显示The URL of the inthread clue is same as the current.Stopped
在MetaStudio的浏览器手动点下一页，上面的按钮会变成红色。
请教版主哪里出了问题？

主题名是天猫金华旗舰店，谢谢

Web信息提取

5 comments

浏览器没有显示“加载更多”

Thu, 11/28/2013 - 13:32 — 1053002922

我想抓取
http://www.zhihu.com/people/keso/followers
中关注的人，MetaStudio下方的浏览器为什么有没有显示“更多”这个区域，却找得到“更多”所对应的标签。
以前抓取的时候没有出现这个问题，只要选择积极模式和延长模式就可以抓取成功。

如果在火狐浏览器打开这个网址，是有底部是有显示“更多”这个加载项的。

主题名是互联网观察家_keso

Web信息提取

2 comments

如何只更改地址重用抓取主题？

Tue, 11/19/2013 - 15:45 — xiehaha

做好了个店铺信息的抓取主题，怎么才能修改入口地址，重用这个主题，然后进行第二家店铺的抓取。
我更换了地址之后，会提示当前加载的页面不是工作页面，怎么才能复用之前的主题啊？

Web信息提取

1 comment

翻页抓取

Tue, 11/05/2013 - 13:33 — Iyre1210

在进行翻页抓取时，能够正常翻页，这个网站连续翻了2页后就要输入验证码，但是它一直往后抓取，抓取的就是一个网址，不会停下来让我输入验证码。
这是一个二级抓取~

Web信息提取

4 comments

翻页抓取股吧只能翻两页

Sat, 11/02/2013 - 21:19 — Kafoy

我对http://guba.eastmoney.com/list,000632.html进行爬取，分别设置了相对线索和marker线索进行翻页（主题分别为：三木集团Test 和三木集团Test_notRelativeClue ），但是datascraper都只能抓取两页的结果，请问这是为什么呢？
我的firefox版本是24，metastudio和datascraper也是对应的24_zh版本

Web信息提取

7 comments

结构相同，数量不定的几块内容怎么准确按标签抓取到

Thu, 10/17/2013 - 18:04 — troygaohe

想抓取这个网页的详细数据
http://www.boohee.com/shiwu/yumi_xian

上半部分的“别名”、“热量”、“分类”、“评级”、“评价”放在5个P节点中，而且没有id和class，但是有的网页中没有“别名”这一项，那么抓取到的所有网页放在一起就会出现标签不对应，没有“别名”这一项的网页热量内容就对应到了“别名”，这种情况怎么解决？

Web信息提取

切换语言