Web信息提取

二层或多层树形网页如何设置设置线索？

Wed, 06/09/2010 - 11:14 — cooldingdang

以豆瓣小组分类页面为例
http://www.douban.com/group/category/1/

第一层第二层
读书(2388) 作家书籍类型报刊 ...
影视(2813) 电影导演演员 ...
音乐(4476) 艺术家/乐队地区摇滚 ...
艺术(2006) 戏剧（戏曲话剧）展览博物馆 ...
生活(6010) 美容美食服饰 ...
兴趣与收藏(5530) 旅行摄影游戏 ...
情感(3036) 单身婚恋其他
学术(2131) 人文社会科学自然科学 ...
商业与财经(656) 经济管理金融 ...

Web信息提取

关于图片提取的问题

Fri, 06/04/2010 - 12:02 — ipica

首先感谢GooSeeker的优秀产品。
试用中发现，在对论坛中帖子信息提取（主要是发言人及其发言内容）过程中，只提取到发言的文字信息，所附的图片没有。
请问是否能实现两者同时提取、保存？
我编的主题是：缠中说禅_金尺王_纵向

Web信息提取

1 comment

这样的网页如何提取

Thu, 06/03/2010 - 11:56 — kekeforyou

http://so.wanfangdata.com.cn/Result.aspx?c=001001&q=2010%2F%28440%29
这是我要提取的网页，主题名是wf2010.我用第一页做测试，提取如下项目( 我配置规则后的提取结果):
<序号>1.
ShowDetail.aspx?dbname=MDS_QIKAN&mfn=32270790
<标题>落实中央经济工作会议精神加快发展现代交通运输业
<刊类>[中文期刊]
<刊名>[中文期刊]
<刊年>2010
<刊卷期>年卷001期
<作者>[中文期刊]

Web信息提取

如何爬取动态变化中的数据？

Sat, 05/29/2010 - 13:47 — blacke

例如：想爬取很多博客网页的访问量、关注度，博文read、comment数量，网页上显示这些数据的地方在metastudio里面的定位都会直接提示：cannot find the node.

请问这种信息想要提取应该如何进行呢？因为例如访问量这种数据是在不断变化的，应该只能确定一个时间点，提取出在那个时间点时的数据。但是又想不出如何实现。

望不吝赐教，谢谢！

Web信息提取

2 comments

关于周期性任务提取的问题

Tue, 05/18/2010 - 17:26 — lijj2010

期望效果:
定期抓取数据列表线索的数据.
使用到如下两个主题:
1. DFamily_罗列影片排期与影评_Google
2.

Web信息提取

ajax分页的内容提取

Fri, 05/14/2010 - 11:43 — sunbx

现在很多asp.net做的网站的分页都是ajax分页的，对于这种网站的数据连续翻页提取，好像不行，我在在线版上有一个主题为“钢铁现货网-钢铁用户”，到第二页就停了，不知道是我设置的有问题呢，还是当前版本还没有实现，我的metastudio 版本：v4.11.0.0018，datascraper版本：v4.11.0.0003。希望有人帮我解答一下。不胜感激。