我刚刚发布了一套采集Yelp网站上的商家信息的抓取规则。有两级规则:
1,第一级下载地址:yelp_search_list

根据搜索关键词在yelp网站上搜索,可以得到一个网址,把这个网址拷贝给这个规则,用于抓取搜索结果中的商家列表,主要是名称和网址,抓取到的网址作为下级规则的爬虫线索。
如果想大批量构造网址,可以在excel中操作,具体参看《怎样使用搜狐新闻搜索列表快捷工具抓取关键词搜索结果

2,第二级下载地址:yelp_search_detail

运行第一级的时候,会为第二级生成爬虫线索,这一级就使用这些线索,把商家的名称、地址、营业时间、联系方式等爬下来。

两级规则是独立运行的,既可以先手工运行第一级,然后运行第二级,也可以在爬虫群模式下,两级同时运行,每级各用自己的爬虫窗口。爬虫群配置和运行方法参看:《如何运行爬虫群
举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2019-5-6 08:55

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 边表格式和矩阵格式的共词矩阵表有什么区别
  • GooSeeker分词、情感分析和文本分析平台简
  • 聚类分析和主题分析中的特征选择参数的设置
  • 为集搜客分词和情感分析扩展模块安装情感分
  • 集搜客分词软件的选词矩阵在哪里下载?

热门用户

GMT+8, 2026-2-21 12:46