我刚才发布了一套网络爬虫规则,用于采集FourSquare网站,根据百度百科的介绍,“Foursquare是一家基于用户地理位置信息(LBS)的手机服务网站,并鼓励手机用户同他人分享自己当前所在地理位置等信息。与其他老式网站不同,Foursquare用户界面主要针对手机而设计,以方便手机用户使用”。这套规则主要用来采集商家信息,这是一套层级采集规则

1,规则一:foursquare_search_lsit ,这个规则采集商家列表,主要抓取商家名和网址。网址将作为第二级的爬虫线索。所以,第一级看做是爬网站的入口。要给第一级添加合适的网址,第二级就有线索可运行了。
第一级网址可以在浏览器中搜索网站的时候从浏览器地址栏拷贝出来,也可以大批量用excel构造,构造方法具体参看:《怎样使用搜狐新闻搜索列表快捷工具抓取关键词搜索结果

2,规则二:foursquare_search_detail ,这个规则使用第一级生成的爬虫线索,逐一采集商家的信息,主要是名称、地址、联系方式和网站

举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2019-5-6 10:55

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 边表格式和矩阵格式的共词矩阵表有什么区别
  • GooSeeker分词、情感分析和文本分析平台简
  • 聚类分析和主题分析中的特征选择参数的设置
  • 为集搜客分词和情感分析扩展模块安装情感分
  • 集搜客分词软件的选词矩阵在哪里下载?

热门用户

GMT+8, 2026-2-21 12:41