Web信息提取

关于周期性抓取的问题：抓到30多页就重复抓取最后一页

Wed, 05/08/2013 - 17:00 — wilsonli

期望效果:
定期抓取新浪微博话题页的数据.
使用到如下两个主题:
1. weibo_huati_list1: 多家上市公司话题页网址
2. weibo_huati_stock_p:对一家上市公司话题页进行翻页抓取，页面数为40
crontab.xml片段如下:

<?xml version="1.0" encoding="UTF-8"?>

true
10
10800
false
2
10

Web信息提取

关于周期性抓取的问题：抓到30多页就重复抓取最后一页

Wed, 05/08/2013 - 16:56 — wilsonli

期望效果:
定期抓取新浪微博话题页的数据.
使用到如下两个主题:
1. weibo_huati_list1: 多家上市公司话题页网址
2. weibo_huati_stock_p:对一家上市公司话题页进行翻页抓取，页面数为40
crontab.xml片段如下:

<?xml version="1.0" encoding="UTF-8"?>

true
10
10800
false
2
10

Web信息提取

紧急求助！！采集淘宝数据，不能翻页！

Fri, 05/03/2013 - 17:11 — sasne

今天想采集一些数据，可是，不知道怎么回事，却不能翻页，着急死了，上个月采集的时候还是可以翻页的，今天采用同样的方法，却不行了，自己摸索了很久，浪费了好多时间都不能解决，哪位高手帮忙看看问题出哪里了：

入口：http://s.taobao.com/search?spm=a230r.1.7.2.UOh1VP&promote=0&sort=sale-desc&ppath=20000%3A3364141&initiative_id=tbindexz_20130503&tab=all&q=%BC%E0%BF%D8%C2%BC%CF%F1%BB%FA&cps=yes&s=40#J_relative

采集规则是：海康威视2

Web信息提取

二级抓取的问题

Wed, 04/24/2013 - 20:44 — nicojoy

我是自己写了个网页，上面放了50个链接。二级抓取完成一次后，遇到两个问题，希望fuller帮忙解答。
第一，50个链接只有不到很少几个链接抓到了，其它链接都是空的。试了两次，一次抓了4个，一次6个，这是什么问题呢？
第二，再次加载之前作为一级抓取目标的二级网页时，各种无法定位，在点了一堆确定之后，映射全没了，要重新映射，这是什么问题？怎么避免呢？