Web信息提取 | GooSeeker

Web信息提取

翻页时重复抓取同一页

Thu, 04/23/2015 - 10:59 — yiwanghoushiyi

我在抓取京东评论时，抓了几页后，后面几页总是会同一页抓取好几次，导致出现很多个相同的xml文件，请问这是怎么回事？

Web信息提取

2 comments

自动翻页失败

Sun, 04/12/2015 - 17:06 — yiwanghoushiyi

提取京东评论，设置了翻页规则，但是结果里只有第一页的数据，显示timeout to load the page，请问是怎么回事？

Web信息提取

3 comments

如何抓取QQ群聊天记录内容，然后自动更新到自己的网站上。

Fri, 04/10/2015 - 18:10 — yn0870

如何抓取QQ群聊天记录内容，然后自动更新到自己的网站上。还有如何对抓取到内容进行过滤，就是不想要的内容不更新到网站上。

Web信息提取

Login to post comments

抓取京东评论出现问题

Mon, 04/06/2015 - 20:45 — yiwanghoushiyi

您好，我现在刚开始抓取评论，可是在设置规则的时候总是遇到问题，求解决：
1.在设置好内容映射后，点击MAP文件的test this，出现Error: The bucket is empty, which is not permitted跟The length of data extraction instruction file is zero. Skipped；
2.在设置FreeFormat映射时，出现Error: The content and FreeFormat nodes are not on the same DOM branch

Web信息提取

1 comment

这个页面抓取看是简单，其实比较难

Thu, 03/19/2015 - 15:37 — gthinker

主题名：mapsogouceshi1

只想抓取到电话。可是只能抓取部分。求解

Web信息提取

1 comment

淘宝交易记录爬取

Wed, 03/11/2015 - 11:25 — janeeyre1964

商品的交易记录页面默认只显示4页内容，在翻页条下面有一个“查看更多记录”的按钮，点击后可以显示所有交易记录，这种情况在设置线索时应该怎么设置呢？

Web信息提取

5 comments

无法定位容器No.0

Tue, 03/10/2015 - 10:07 — janeeyre1964

已经定义好的信息提取规则，测试时可以显示输出结果。后来用metastudio加载出来显示“无法定位容器No.0”，“无法定位信息属性No.1（情景1）”……直到最后一个信息属性提示”无法定位……“，这是什么原因呀？应该怎么解决？

Web信息提取

4 comments

信息属性的映射问题

Sat, 03/07/2015 - 18:26 — janeeyre1964

爬取淘宝和京东的商品评论数据，在对买家名及评论内容、日期等进行映射时，出现“The location has been changed, so the mapping makes no sense”，是什么原因呀？应该怎么解决呢？（我是新手。）

Web信息提取

4 comments

关于二级页面抓取的URL识别问题

Tue, 12/16/2014 - 12:00 — dcer

各位好！

近日遇到这样的问题，对方网站list页面的每个商品href属性内均为一条js代码而非url，虽然能定义规则并进行抓取（勾选了延长+积极模式），但在theme list里无法对生成的目标主题进行识别（状态仍为reserved），请问这种情况该如何处理呢？还望赐教，多谢！！

Web信息提取

2 comments

关于反爬虫策略

Wed, 12/03/2014 - 16:14 — xiaohu4190

资料中提到：“由于使用动态IP地址，被抓取的网站的反爬虫策略难于奏效。”，能够具体解释一下么？是使用随机的IP的意思么？ X-Foword?

Web信息提取

1 comment