Web信息提取

二层或多层树形网页如何设置设置线索?

以豆瓣小组分类页面为例
http://www.douban.com/group/category/1/

第一层 第二层
读书(2388) 作家 书籍类型 报刊 ...
影视(2813) 电影 导演 演员 ...
音乐(4476) 艺术家/乐队 地区 摇滚 ...
艺术(2006) 戏剧(戏曲话剧) 展览 博物馆 ...
生活(6010) 美容 美食 服饰 ...
兴趣与收藏(5530) 旅行 摄影 游戏 ...
情感(3036) 单身 婚恋 其他
学术(2131) 人文 社会科学 自然科学 ...
商业与财经(656) 经济 管理 金融 ...

关于图片提取的问题

首先感谢GooSeeker的优秀产品。
试用中发现,在对论坛中帖子信息提取(主要是发言人及其发言内容)过程中,只提取到发言的文字信息,所附的图片没有。
请问是否能实现两者同时提取、保存?
我编的主题是:缠中说禅_金尺王_纵向

这样的网页如何提取

http://so.wanfangdata.com.cn/Result.aspx?c=001001&q=2010%2F%28440%29
这是我要提取的网页,主题名是wf2010.我用第一页做测试,提取如下项目( 我配置规则后的提取结果):
<序号>1.
ShowDetail.aspx?dbname=MDS_QIKAN&mfn=32270790
<标题>落实中央经济工作会议精神 加快发展现代交通运输业
<刊类>[中文期刊]
<刊名>[中文期刊]
<刊年>2010
<刊卷期>年卷001期
<作者>[中文期刊]

如何爬取动态变化中的数据?

例如:想爬取很多博客网页的访问量、关注度,博文read、comment数量,网页上显示这些数据的地方在metastudio里面的定位都会直接提示:cannot find the node.

请问这种信息想要提取应该如何进行呢? 因为例如访问量这种数据是在不断变化的,应该只能确定一个时间点,提取出在那个时间点时的数据。但是又想不出如何实现。

望不吝赐教,谢谢!

关于周期性任务提取的问题

期望效果:
定期抓取数据列表线索的数据.
使用到如下两个主题:
1. DFamily_罗列影片排期与影评_Google
2.  

ajax分页的内容提取

现在很多asp.net做的网站的分页都是ajax分页的,对于这种网站的数据连续翻页提取,好像不行,我在在线版上有一个主题为“钢铁现货网-钢铁用户”,到第二页就停了,不知道是我设置的有问题呢,还是当前版本还没有实现,我的metastudio 版本:v4.11.0.0018,datascraper版本:v4.11.0.0003。希望有人帮我解答一下。不胜感激。

分页提取公司信息报错

主题名:钢铁现货网-钢铁用户,做了相对类型的线索,提取数据时报:ExtractSpiderClue_Simp: Fail to find the clue,我需要一页页的提取用户信息。不知道设置上出了什么问题,麻烦管理员看看,给些建议

提取公司信息

主题名称:钢铁现货网-钢铁用户.抓取数据时,报INFO: FetchSpiderClue: No more SpiderClues,不知道结构定义上哪里出错了。求助管理员,看看给点建议

求助!用线索提取信息,能否把结果放在一个文件中?

用线索提取多个页面中的信息时,
会产生和提取页面相同数量的提取结果的文件XML
如:每一个网页的信息是10条
连续提取5页信息,就会产生5个结果文件,每个文件中有10条提取到的信息,

如何把所有50条信息存放到1个结果文件中?

如果没有
是否可以有什么工具能把多个提取结果文件合并到一个文件中

先谢谢了!!!

关于MAP文件输出结果中的指定内容需要定义成<![CDATA 网页抓取内容 ]]>

您好!

如题所述,本人有这样的需求,提取数据规则里有一个信息属性使用了FreeFormat映射所有结点,输出的结果部分如下:

<Content>
<p>网页提取数据<p>
</Content>
其中:<Content>为信息属性;
<p>网页提取数据<p>为网页提取数据内容

现在需要生成的结果文件能自动增加<![CDATA ]]>字符串.即
<Content>
<![CDATA
<p>网页提取数据<p>

Syndicate content