我刚才发布了一套网络爬虫规则,用于采集FourSquare网站,根据百度百科的介绍,“Foursquare是一家基于用户地理位置信息(LBS)的手机服务网站,并鼓励手机用户同他人分享自己当前所在地理位置等信息。与其他老式网站不同,Foursquare用户界面主要针对手机而设计,以方便手机用户使用”。这套规则主要用来采集商家信息,这是一套层级采集规则

1,规则一:foursquare_search_lsit ,这个规则采集商家列表,主要抓取商家名和网址。网址将作为第二级的爬虫线索。所以,第一级看做是爬网站的入口。要给第一级添加合适的网址,第二级就有线索可运行了。
第一级网址可以在浏览器中搜索网站的时候从浏览器地址栏拷贝出来,也可以大批量用excel构造,构造方法具体参看:《怎样使用搜狐新闻搜索列表快捷工具抓取关键词搜索结果

2,规则二:foursquare_search_detail ,这个规则使用第一级生成的爬虫线索,逐一采集商家的信息,主要是名称、地址、联系方式和网站

举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2019-5-6 10:55

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 17:35