Web信息提取

这种结构好像没有办法提取数据

http://vacations.ctrip.com/visa/p49336s2.html
提取其中的签证类型、受理时间、入境次数、停留天数、有效期

页面代码为:

签证类型个人旅游签证

携程受理时间北京收齐材料后所需工作日25个,异地收齐材料后所需工作日29个。

入境次数根据行程,以使馆签发为准。

老大,DataScraper忘记怎么提取数据了

好久没来,老大,我用MetaStudio设置了三级抓取,分别是A,B,C,a是一级分类,b是二级分类,c是详情页,我现在怎么提取所有数据呢?具体在DataScraper操作是什么?

还有在DataScraper上右击A,进行提取,发现提取一次后,再点击提取,好像不会执行,该如何操作会再次提取最新的数据?

谢谢!

需要从多个网站抓取信息

我要抓的信息比较简单,但是要从上百个网站抓取。
是不是要做几百个Schema?即便如此,如何在DataScraper里一起运行?
企业版能能方便解决这个问题吗?

收集天猫信息过慢,加载不成功

tianmao4:天猫耳机页面,收集网页上面每一个耳机的超链接
tianmao2:耳机具体页面,导航到“累计评价”
tianmao3:收集相关信息

crontab.xml: (自动收集参数设计)
<?xml version="1.0" encoding="UTF-8"?>

true
10
10800
false
2
4

tianmao2

求解答!!!抓取新浪微博内容、转发数、评论数时不能翻页,线索映射应定位为哪一个节点?

对新浪政务微博 @上海发布 进行数据抓取,在Clue Editor中,试过好几个线索映射的节点都没能成功翻页,选了延长模式和积极模式,在DataScraper里也设置了滚屏参数more pages 为15 ,但是每次都只能得到第一页的前10条微博信息。希望能够帮我解答,谢谢!

无法翻页抓取超链接

文件名:taobao-shouji5
作用:翻页抓取耳机产品的链接,将链接传递给taobao-shouji7,再进行抓取
问题:该规则只能抓取首页的链接,翻到下一页的时候,会告知URL相同,停止抓取。请问管理员,哪里出了问题?

无法抓取淘宝评论者信息

抓取淘宝商品的评论信息,定义了三个规则:
taobao-shouji:抓取商品的信息,并产生下一个规则的URL
taobao-shouji3:模拟点击评价详情
taobao-shouji4:抓取评价详情下面的评价和评论者星级

问题:taobao-shou可以运行,在运行taobao-shouji3时,发现页面会跳转到评价详情下面,但是不会自动启动taobao-shouji4, 可是我在taobao-shouji3的线索设计里面已经按照教程设计了,请问管理员,问题在哪里?谢谢!

翻页抓取问题,翻页标记非TEXT

网址是:http://ctc.hzrc.com/Qz/Default.aspx?RunNow=6

翻页按钮不能识别

class没有值用什么法来抓取。

http://www.im4s.cn/daquan.htm
想抓取这个网站里的经销商大全信息。
但是 FreeFormat法不能用,因为class没有值。和教程都不一样

还有翻页的信息提取_记号线索法和翻页的信息提取_相对线索法都不能用,也是clsaa里没有值

总共100页的网页。只能抓一页。哎
我的QQ760711454 谢谢

抓新浪微博转发信息无法翻页

大家好,我是初学者,刚刚想抓取一下新浪微博中某条微博的转发情况,主题名zhp_zhuanfa_list,但是无法实现翻页,请高手帮忙看一下,谢谢!

Syndicate content