网站会根据IP地址定位显示不同的内容,这类网站怎么采?我需要全量的数据。
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-9-26 15:42

沙发
Fuller 管理员 发表于 2016-9-23 17:06:59 | 只看该作者
因为集搜客是分布式爬虫,要是能有足够多的电脑,分布在不同的城市,就可以实现这个目标,不过这样似乎成本很高。或者联络一些各地的志愿者。

这个网站是根据什么判断的?根据IP地址还是根据cookie中的设置?如果是cookie设置,这很容易,比如,京东购物,虽然电脑在北京,你选择武汉,它就显示武汉地区的信息
举报 使用道具
板凳
n201552201004 新手上路 发表于 2016-9-26 09:35:59 | 只看该作者
Fuller 发表于 2016-9-23 17:06
因为集搜客是分布式爬虫,要是能有足够多的电脑,分布在不同的城市,就可以实现这个目标,不过这样似乎成本 ...

感谢。这类网站是根据IP地址判断位置http://www.quanyou.com.cn/security.aspx
举报 使用道具
地板
Fuller 管理员 发表于 2016-9-26 10:29:25 | 只看该作者
n201552201004 发表于 2016-9-26 09:35
感谢。这类网站是根据IP地址判断位置http://www.quanyou.com.cn/security.aspx

这种还真不好对付,只有启用众爬功能了,联络全国各地的用户一起爬
举报 使用道具
5#
n201552201004 新手上路 发表于 2016-9-26 10:34:38 | 只看该作者
http://www.quanyou.com.cn/security.aspx?Province=广西省&City=北海市
我刚刚发现的,直接在地址页加上省份和区市节能跳转到相应内容,。这种情况能用什么规则批量采集吗?
举报 使用道具
6#
Fuller 管理员 发表于 2016-9-26 10:40:24 | 只看该作者
n201552201004 发表于 2016-9-26 10:34
http://www.quanyou.com.cn/security.aspx?Province=广西省&City=北海市
我刚刚发现的,直接在地址页加上省 ...

这样就很好做了,在excel中把所有网址构造出来,在会员中心找到这个主题,把网址一批导入进去,启动爬虫逐页抓取即可
举报 使用道具
7#
n201552201004 新手上路 发表于 2016-9-26 14:53:54 | 只看该作者
会员中心的这个批量导入线索功能需要付费吗?我怎么没有找到这个功能?
举报 使用道具
8#
scraper 论坛元老 发表于 2016-9-26 15:04:01 | 只看该作者
n201552201004 发表于 2016-9-26 14:53
会员中心的这个批量导入线索功能需要付费吗?我怎么没有找到这个功能?

进入会员中心后 点击爬虫管理-规则管理 点击进入需要添加线索的规则
举报 使用道具
9#
Fuller 管理员 发表于 2016-9-26 15:42:48 | 只看该作者
n201552201004 发表于 2016-9-26 14:53
会员中心的这个批量导入线索功能需要付费吗?我怎么没有找到这个功能?

导入线索是免费功能
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 09:35