Web信息提取

关于button类型的问题！

Thu, 06/23/2011 - 16:51 — jinzuo_1980

digu上的主页上的下一页是button类型，在DOM中这个BUTTON节点没有以A开头的结构，而且只有onclick和onclass两个字类，没有href这个子类型。这个翻页问题如何解决？谢谢
具体结果大体如下：
-DIV
-+attributes
@class
#text
-BUTTON
-+attributes
@onclick
@class
#text
#text
#text

上面结构中的BUTTON中的onclick无法建立线索，如何解决？

Web信息提取

Login to post comments

因为某个原因，我希望用xpath匹配出一个div中的所有'/hello','/cool'这样的“'/'+字符串”的超链接出来。
于是将设置的指段设为block，采用xpath过滤器过滤，输入的代码是：
*/a[matches(@href,'^\/\S*$')]
但运营TestThis的时候报错了，取而代之以start-with函数来匹配：
*/a[starts-with(@href,'/')]
就没有报错了。
请问这是否是因为浏览器的xpath不支持matches这个函数的原因。

请问遇到这种无法通过正则表达式匹配提取的时候怎么办？

Web信息提取

1 comment

clue只能支持href格式，对于src和onclick形式的链接如何抓取？

Thu, 06/23/2011 - 13:30 — jinzuo_1980

例如嘀咕网的下一页是按钮型的，它属于onclick型，clue不支持。对于图片链接也是，clue不支持src格式。有什么办法能解决？

Web信息提取

3 comments

MAP 、GEM、SCE、DSD文件内容能否修改？

Wed, 06/22/2011 - 16:18 — abelfly

使用metastudio的时候发现虽然AP 、GEM、SCE、DSD文件内容通过点击预览按钮显示出来了，并能够通过TestThis等进行验证。但是，当发现系统自动生成的匹配规则不满足要求时，通过手工方式在下面的代码区里调整后不起作用。请问该如何进行手工进行规则的微调呢？

Web信息提取

5 comments

如何重新激活一个主题的抓取

Sun, 06/19/2011 - 15:01 — linlin0904

我定义了一个二级抓取，第1级抓取没有问题，第二级抓取因为存在某些页面结构有变化而在抓取时没有抓到，我重新定义了二级抓取的信息结构，需要重新进行第二级的抓取，要怎么重新开始呢？
还有由于抓取的量比较大，一次抓取时间比较长，可以暂停吗？

Web信息提取

1 comment

人人网首页的“更多新鲜事”怎么获得啊？

Wed, 06/15/2011 - 09:33 — hachaoki

Hi,人人网的首页向下滚动的时候，新鲜事自动在下面增加，（类似微博），增加两次之后，再向下滚动就不增加了，出现“更多新鲜事”链接，点击之后，再在下面出现更多的新鲜事，（不像微博是翻页了），这个怎么解决“更多新鲜事”的抓取啊？如果说的不明白，请参见自己的人人网首页。谢谢！

Web信息提取

3 comments

网易新闻评论隐藏重复盖楼问题？

Tue, 06/14/2011 - 17:51 — jinggzhao

Fuller,你好：
最近在抓网易的新闻评论，遇到一些问题，我定义的主题名是网易-third-6-zj2，目标页面网址是http://comment.news.163.com/news3_bbs/742DCOIM00014AED.html。

Web信息提取

没有text节点如何做记号映射进行翻页？

Mon, 06/13/2011 - 15:13 — linlin0904

样本页面：http://www.2yup.com/asp/forum/forum.asp?cg=3
现在要进行翻页抓取各个主题和回帖地址，想用记号线索，结果坐记号映射时发现找不到 text节点，请大家帮忙。

Web信息提取

1 comment

微博提取主题的复制问题

Sun, 06/12/2011 - 21:41 — cyclony

Hi 我能够按照指导说明对某一个新浪微博的名人建立抓取的主题，能成功完成对该名人下所有消息的关键信息抓取。考虑到不同名人主页的页面结构都是一样的，比如http://weibo.com/1876548447 和http://weibo.com/iamgillianchung。理论上该主题应该能够适用我希望抓取的任何名人的相同数据。但是我能想到的方法只有一个，就是在MetaStudio里面地址栏转到对应名人主页，并修改主题名和页面地址，然后另存。但是系统提示当前加载页面不是工作页面。

Web信息提取

关于状态 VDDPG / UPASI

Thu, 06/09/2011 - 06:45 — abc

Hi Fuller,
我在用datascraper抓取一个搜狐新闻评论的时候，发现datascraper在自动翻了10几页后，它的状态就停在了“VDDPG / UPASI”，接下来必须手工的点击下一页才能继续。请参考主题 "my_abc_sohu_try"。为何前10几页可以正常的翻页，之后就卡住了呢？谢谢！

Web信息提取

1 comment

GooSeeker