我刚刚发布了一套采集Yelp网站上的商家信息的抓取规则。有两级规则:
1,第一级下载地址:yelp_search_list
根据搜索关键词在yelp网站上搜索,可以得到一个网址,把这个网址拷贝给这个规则,用于抓取搜索结果中的商家列表,主要是名称和网址,抓取到的网址作为下级规则的爬虫线索。
如果想大批量构造网址,可以在excel中操作,具体参看《怎样使用搜狐新闻搜索列表快捷工具抓取关键词搜索结果》
2,第二级下载地址:yelp_search_detail
运行第一级的时候,会为第二级生成爬虫线索,这一级就使用这些线索,把商家的名称、地址、营业时间、联系方式等爬下来。
两级规则是独立运行的,既可以先手工运行第一级,然后运行第二级,也可以在爬虫群模式下,两级同时运行,每级各用自己的爬虫窗口。爬虫群配置和运行方法参看:《如何运行爬虫群》
|
共 0 个关于本帖的回复 最后回复于 2019-5-6 08:55