Web信息提取

抓取天猫数据,MetaStudio测试成功但DataScraper抓取失败

您好。
我上传的是TmallDeal_history这个配置文件,抓取的网址是http://detail.tmall.com/item.htm?id=37663505833&ali_trackid=17_9bb4d38458a53b989e510120a26edf57&spm=1.6659421.915625793.3.Uy9b2z
问题在于我能够在MetaStudio里面的MapEditor通过TestAll,却无法在DataScraper里面抓取数据,提示是Suitable data schema cannot be found for clueid 62143070 in 0st inthread cycle。在DataScraper的浏览器界面没有显示任何网页(偶尔会闪一下)

分层提取的线索路径不全问题

许多网站的链接通过工具直接得到的形式是http://www.***.com/profile/*****形式,但是也有部分网站直接得到的链接形式是/profile/***,缺少前边的域名,请问在这种情况下怎么根据第一层得到的线索继续进行抓取?

抓取腾讯应用宝用户评论

我对http://android.app.qq.com/android/appdetail.jsp?appid=35511&icfa=15144196000112001000&lmid=2031进行爬取,分别设置了相对线索和marker线索进行翻页(主题为:百度地图评论 ),在MAP窗口的TestThis进行检测,输出信息中还能抓取到当前页面的用户评论,但是使用DataScraper进行抓取生成的XML文件却无法抓取到任何评论内容,请问为什么?

关于二级抓取的问题

免费版用户使用2级抓取时自己新建网址网页作为一级抓取,然后新建二级工作台抓取2级内容
问题在这,我的2级内容也是翻页形式的,但是有的需要翻页(内容多需要翻页),有的不需要翻页(内容较少无需翻页),这时进行data抓取时就出现了错误,请问大大这个问题可以修复吗?
还有吐槽一下登录验证码,能不能把字体弄大一点,实在是看不清楚

信息结构无法上载

定义好了信息结构后,出现错误:上载信息结构描述文件失败:not writable.

第二个样例总是弄不好

主题名是 留言采集
按照示例我可以采集到第一个网友的留言,但是怎么重复采集下面其他人的留言总是做不好,拜托给指导一下吧。。

怎么设置抓取两个网页的时间间隔?

你好,

我在抓取一个网站数据的时候,他们好像是设置了最短访问时间,结果在抓的时候很多网页出现错误,没能抓到数据,能设置抓取完一个网页后停3秒再抓取下一个网页吗?看了下crontab.xml那个东西,好像与我这个情况不适用吧

感觉following-sibling是下一个同级节点的意思,而不是后面所有同级节点,对吗?

你好,

我现在要得到某一p节点后面的所有p节点中的text,使用following-sibling的结果只是抓到了下一个p节点内的text,后面还有一些p节点都抓不到,following-sibling::* ;following-sibling::p ;following-sibling::p/text() 这三个的效果都是一样的,要怎么才能抓到后面所有的text呢,同级后的p节点数量不定

新手请教,为什么按MetaSeeker v4.x速成手册上的方法,采集的数据只有一条当前的。不是本页面上所有的。谢谢

生成的MAP文件为:
<?xml version="1.0" encoding="UTF-8"?>

<欧洲历史>
0 and count(./a/@href)>0 and count(./following-sibling::p[position()=5]/span[position()=1]/text())>0 and count(./following-sibling::p[position()=5]/span[position()=2]/text())>0]" mode="欧洲历史"/>

关于微信公众平台翻页抓取的问题

微信公众平台消息管理的翻页设置没有“下一页”而是一个箭头按钮。
包含箭头的A元素里没有文本内容。在翻页抓取时应该选择什么作为记号节点?
离A元素最近的DOM节点的class显示是“pagination”,上一层DOM节点的class显示是“pagination_wrp pageNavigator”,应该选择哪一个进行记号映射?谢谢!

Syndicate content