Web信息提取

求教 1号店商品的价格抓取不到,

1号店商品的价格抓取不到,使用freeformat 映射价格时.报错

error: cannot get thparent
error:cannot locate the content node

上周使用freeformat 映射价格还是正常的.除了价格其它映射是正常的.求指教.

新浪微博 总结

题外话:话说在原帖上reply还要经过审批什么的吗?我还是发新贴询问好了...有没有更方便一点的联系方式呢?

确实是新浪微博页面上显示“有1条新微博,点击查看”这样的字样后出现问题 。
因为在尝试中发现:不设置定时器触发的话 到第2页后 能往下滚屏 但是不能继续翻到下一页 状态一直在AGAIN2和AGA_L之间变 线索统计是fetched状态 这个原因我大概是理解了;

出现新信息时跳出

新浪微博...发现如果是信息没有更新就一切正常 但是如果在datascraper抓取过程中 如果出现新微博 抓取就会出现问题 基本上下一页就会结束抓取 请问这该如何解决呢?

依旧是新浪微博的翻页问题

打扰了...
依旧是demo-z-weibo 新浪微博的抓取
使用了延长模式 积极模式 首选项中线索定位是偏好class || DataScraper中滚屏参数:More Pages:10; Delay Ratio:2 全屏显示 非普通模式
不设置定时器触发的话 到第2页后 能往下滚屏 但是不能继续翻到下一页 状态一直在AGAIN2和AGA_L之间变 线索统计是fetched状态
设置了定时器触发的话 第一页还没滚屏呢就结束了(总线索1 PLINE 剩余线索0 FIN)..... 这是怎么回事?要在哪设置定时器的时间什么的吗?

关于抓取新浪微博评论,一直不翻页,但是有多个重复页面。请指点一下

主题名为page_ly,http://weibo.com/1645059382/y8jva1qby,已经把该修改的地方都修改了 不知道怎么回事,用同样的方法测试新浪微群成员翻页又可以,请问这是怎么回事?

线索的重新提取问题

设置的某个主题线索完整提取完了,想重新再提取一遍。
我看之前的帖子说“使用周期性提取指令文件crontab.xml重新激活某个主题的所有线索”
想问下crontal.xml文件是要自己创建的么?我在.datascraper这个文件里没有看到。是自己创建完后,将那段代码放进去和设定么?

【求教】抓取新蛋数据分层抓取不成功

第一级抓取商品链接notebook_list,没有问题
第二级抓取商品具体信息notebook_page,抓取结果为空。尝试过设置延长模式和积极模式,都不成功。
曾使用相同的方法抓取少量信息,没有遇到这种问题。
请教fuller,问题出在哪里呢?拜谢!

分级抓取新浪博客的问题

你好,fuller:
分层抓取新浪博客的内容,在第一层抓取到线索之后,抓取第二层发现只能抓到第一个线索,以后的都抓不到。而且第一个线索里的评论也没有抓到,我在metastudio中测试是可以抓到评论的啊,这都是什么原因呢,能帮我分析下不,现在搞的我头大啊blog_sina和blog_sina_content。万分感谢

Datascrapt 不工作。。

定义了几个抓取规则
由难到易:
Weibo_Sina_Test
test_dangdang
test_google

每次保存后运行Datascrapt, 则没有任何显示,log中有报错:
2012-02-16 09:24:23 DataScraperEngine RunCrawl WARN: Fail to handleFetchedWorkflow

请问这是什么问题呢?是抓取规则没有定义好,还是Datascrapt有问题?

急问--关于新淘宝页面数据提取用户评论的相关问题!!!

因为做研究的原因,需要提取淘宝网站某个产品用户评论的相关信息,在网上搜索到metastudio,非常好用,我已经将一级信息结构做完,但是在提取所有用户评论时,遇到瓶颈。

Syndicate content