Web信息提取

抓取天猫数据，MetaStudio测试成功但DataScraper抓取失败

Sun, 03/30/2014 - 11:00 — zaclin

您好。
我上传的是TmallDeal_history这个配置文件，抓取的网址是http://detail.tmall.com/item.htm?id=37663505833&ali_trackid=17_9bb4d38458a53b989e510120a26edf57&spm=1.6659421.915625793.3.Uy9b2z
问题在于我能够在MetaStudio里面的MapEditor通过TestAll，却无法在DataScraper里面抓取数据，提示是Suitable data schema cannot be found for clueid 62143070 in 0st inthread cycle。在DataScraper的浏览器界面没有显示任何网页（偶尔会闪一下）

Web信息提取

分层提取的线索路径不全问题

Mon, 03/10/2014 - 22:53 — liuhensiyuhua

许多网站的链接通过工具直接得到的形式是http://www.***.com/profile/*****形式，但是也有部分网站直接得到的链接形式是/profile/***，缺少前边的域名，请问在这种情况下怎么根据第一层得到的线索继续进行抓取？

Web信息提取

1 comment

抓取腾讯应用宝用户评论

Mon, 03/10/2014 - 01:08 — nera

我对http://android.app.qq.com/android/appdetail.jsp?appid=35511&icfa=15144196000112001000&lmid=2031进行爬取，分别设置了相对线索和marker线索进行翻页（主题为：百度地图评论），在MAP窗口的TestThis进行检测，输出信息中还能抓取到当前页面的用户评论，但是使用DataScraper进行抓取生成的XML文件却无法抓取到任何评论内容，请问为什么？

Web信息提取

13 comments

关于二级抓取的问题

Thu, 03/06/2014 - 00:34 — fzky1234

免费版用户使用2级抓取时自己新建网址网页作为一级抓取，然后新建二级工作台抓取2级内容
问题在这，我的2级内容也是翻页形式的，但是有的需要翻页（内容多需要翻页），有的不需要翻页（内容较少无需翻页），这时进行data抓取时就出现了错误，请问大大这个问题可以修复吗？
还有吐槽一下登录验证码，能不能把字体弄大一点，实在是看不清楚

Web信息提取

4 comments

信息结构无法上载

Sun, 03/02/2014 - 14:37 — Iyre1210

定义好了信息结构后，出现错误：上载信息结构描述文件失败：not writable.

Web信息提取

1 comment

第二个样例总是弄不好

Mon, 01/06/2014 - 16:14 — momololita

主题名是留言采集
按照示例我可以采集到第一个网友的留言，但是怎么重复采集下面其他人的留言总是做不好，拜托给指导一下吧。。

Web信息提取

1 comment

怎么设置抓取两个网页的时间间隔？

Mon, 12/23/2013 - 10:16 — troygaohe

你好，

我在抓取一个网站数据的时候，他们好像是设置了最短访问时间，结果在抓的时候很多网页出现错误，没能抓到数据，能设置抓取完一个网页后停3秒再抓取下一个网页吗？看了下crontab.xml那个东西，好像与我这个情况不适用吧

Web信息提取

2 comments

感觉following-sibling是下一个同级节点的意思，而不是后面所有同级节点，对吗？

Sat, 12/21/2013 - 14:41 — troygaohe

你好，

我现在要得到某一p节点后面的所有p节点中的text，使用following-sibling的结果只是抓到了下一个p节点内的text，后面还有一些p节点都抓不到，following-sibling::* ；following-sibling::p ；following-sibling::p/text() 这三个的效果都是一样的，要怎么才能抓到后面所有的text呢，同级后的p节点数量不定

Web信息提取

2 comments

新手请教，为什么按MetaSeeker v4.x速成手册上的方法，采集的数据只有一条当前的。不是本页面上所有的。谢谢

Wed, 12/11/2013 - 10:00 — wolfmike

生成的MAP文件为：
<?xml version="1.0" encoding="UTF-8"?>

<欧洲历史>
0 and count(./a/@href)>0 and count(./following-sibling::p[position()=5]/span[position()=1]/text())>0 and count(./following-sibling::p[position()=5]/span[position()=2]/text())>0]" mode="欧洲历史"/>

Web信息提取

关于微信公众平台翻页抓取的问题

Tue, 12/10/2013 - 23:21 — aviva

微信公众平台消息管理的翻页设置没有“下一页”而是一个箭头按钮。
包含箭头的A元素里没有文本内容。在翻页抓取时应该选择什么作为记号节点？
离A元素最近的DOM节点的class显示是“pagination”，上一层DOM节点的class显示是“pagination_wrp pageNavigator”，应该选择哪一个进行记号映射？谢谢！

Web信息提取

1 comment

切换语言