Web信息提取

关于周期性抓取的问题:抓到30多页就重复抓取最后一页

期望效果:
定期抓取新浪微博话题页的数据.
使用到如下两个主题:
1. weibo_huati_list1: 多家上市公司话题页网址
2. weibo_huati_stock_p:对一家上市公司话题页进行翻页抓取,页面数为40
crontab.xml片段如下:

<?xml version="1.0" encoding="UTF-8"?>

true
10
10800
false
2
10

关于周期性抓取的问题:抓到30多页就重复抓取最后一页

期望效果:
定期抓取新浪微博话题页的数据.
使用到如下两个主题:
1. weibo_huati_list1: 多家上市公司话题页网址
2. weibo_huati_stock_p:对一家上市公司话题页进行翻页抓取,页面数为40
crontab.xml片段如下:

<?xml version="1.0" encoding="UTF-8"?>

true
10
10800
false
2
10

紧急求助!!采集淘宝数据,不能翻页!

今天想采集一些数据,可是,不知道怎么回事,却不能翻页,着急死了,上个月采集的时候还是可以翻页的,今天采用同样的方法,却不行了,自己摸索了很久,浪费了好多时间都不能解决,哪位高手帮忙看看问题出哪里 了:

入口:http://s.taobao.com/search?spm=a230r.1.7.2.UOh1VP&promote=0&sort=sale-desc&ppath=20000%3A3364141&initiative_id=tbindexz_20130503&tab=all&q=%BC%E0%BF%D8%C2%BC%CF%F1%BB%FA&cps=yes&s=40#J_relative

采集规则是:海康威视2

二级抓取的问题

我是自己写了个网页,上面放了50个链接。二级抓取完成一次后,遇到两个问题,希望fuller帮忙解答。
第一,50个链接只有不到很少几个链接抓到了,其它链接都是空的。试了两次,一次抓了4个,一次6个,这是什么问题呢?
第二,再次加载之前作为一级抓取目标的二级网页时,各种无法定位,在点了一堆确定之后,映射全没了,要重新映射,这是什么问题?怎么避免呢?

如何设置提取的网页数据数量

最近在学习如何提取微博数据,但是总是抓取了3页或者5页之后就自动停止了。需要在哪里设置?

第二层只能抓取到一条记录

两条主题:kaku_bbs_three 和 kaku_bbs_three_content
第一天主题抓取成功后,再用kaku_bbs_three_content抓取的时候 只能抓到一条数据,不知道哪儿出现问题了。

翻页出现问题

在DataScraper中一个只能抓到第二页 一个抓到181页...帮忙看下原因 新手 谢谢!!
一个名字是kaku_bbs_one 另一个是kaku_bbs_two

DataScraper上可以看到规则,但是没有结果

主题名:demo_aibang_list_1,在DataScraper上可以看到,点击“提取”之后,看不到结果!

能否给个百度搜索结果的提取案例

针对新闻搜索结果,需要标题、网摘,媒体、时间、相同新闻链接数

百度搜索结果不能一页自动获取

只能一条条的处理,如何解决?

Syndicate content