Web信息提取

关于button类型的问题!

digu上的主页上的下一页是button类型,在DOM中这个BUTTON节点没有以A开头的结构,而且只有onclick和onclass两个字类,没有href这个子类型。这个翻页问题如何解决?谢谢
具体结果大体如下:
-DIV
-+attributes
@class
#text
-BUTTON
-+attributes
@onclick
@class
#text
#text
#text

上面结构中的BUTTON中的onclick无法建立线索,如何解决?

xpath中匹配函数matches使用问题

因为某个原因,我希望用xpath匹配出一个div中的所有'/hello','/cool'这样的“'/'+字符串”的超链接出来。
于是将设置的指段设为block,采用xpath过滤器过滤,输入的代码是:
*/a[matches(@href,'^\/\S*$')]
但运营TestThis的时候报错了,取而代之以start-with函数来匹配:
*/a[starts-with(@href,'/')]
就没有报错了。
请问这是否是因为浏览器的xpath不支持matches这个函数的原因。

请问遇到这种无法通过正则表达式匹配提取的时候怎么办?

clue只能支持href格式,对于src和onclick形式的链接如何抓取?

例如嘀咕网的下一页是按钮型的,它属于onclick型,clue不支持。对于图片链接也是,clue不支持src格式。有什么办法能解决?

MAP 、GEM、SCE、DSD文件内容能否修改?

使用metastudio的时候发现虽然AP 、GEM、SCE、DSD文件内容通过点击预览按钮显示出来了,并能够通过TestThis等进行验证。但是,当发现系统自动生成的匹配规则不满足要求时,通过手工方式在下面的代码区里调整后不起作用。请问该如何进行手工进行规则的微调呢?

如何重新激活一个主题的抓取

我定义了一个二级抓取,第1级抓取没有问题,第二级抓取因为存在某些页面结构有变化而在抓取时没有抓到,我重新定义了二级抓取的信息结构,需要重新进行第二级的抓取,要怎么重新开始呢?
还有由于抓取的量比较大,一次抓取时间比较长,可以暂停吗?

人人网首页的“更多新鲜事”怎么获得啊?

Hi,人人网的首页向下滚动的时候,新鲜事自动在下面增加,(类似微博),增加两次之后,再向下滚动就不增加了,出现“更多新鲜事”链接,点击之后,再在下面出现更多的新鲜事,(不像微博是翻页了),这个怎么解决“更多新鲜事”的抓取啊?如果说的不明白,请参见自己的人人网首页。谢谢!

网易新闻评论隐藏重复盖楼问题?

Fuller,你好:
最近在抓网易的新闻评论,遇到一些问题,我定义的主题名是网易-third-6-zj2,目标页面网址是http://comment.news.163.com/news3_bbs/742DCOIM00014AED.html。

没有text节点如何做记号映射进行翻页?

样本页面:http://www.2yup.com/asp/forum/forum.asp?cg=3
现在要进行翻页抓取各个主题和回帖地址,想用记号线索,结果坐记号映射时发现找不到 text节点,请大家帮忙。

微博提取主题的复制问题

Hi 我能够按照指导说明对某一个新浪微博的名人建立抓取的主题,能成功完成对该名人下所有消息的关键信息抓取。考虑到不同名人主页的页面结构都是一样的,比如http://weibo.com/1876548447 和http://weibo.com/iamgillianchung。理论上该主题应该能够适用我希望抓取的任何名人的相同数据。但是我能想到的方法只有一个,就是在MetaStudio里面地址栏转到对应名人主页,并修改主题名和页面地址,然后另存。但是系统提示当前加载页面不是工作页面。

关于状态 VDDPG / UPASI

Hi Fuller,
我在用datascraper抓取一个搜狐新闻评论的时候,发现datascraper在自动翻了10几页后,它的状态就停在了“VDDPG / UPASI”,接下来必须手工的点击下一页才能继续。请参考主题 "my_abc_sohu_try"。为何前10几页可以正常的翻页,之后就卡住了呢? 谢谢!

Syndicate content