快捷导航

集搜客GooSeeker网络爬虫之采集大众点评店铺信息数据

2016-7-22 15:49| 发布者: AnswerDSL| 查看: 1718| 评论: 0

摘要: 【第21期】GooSeeker集搜客之采集大众点评店铺信息 一、 采集板块列表页面——确认抓取内容 1) 输入目标网址(例如:http://t.dianping.com/list/shenzhen-category_1),按Enter键,然后在工作台上输入主题名,然 ...

观看视频教程

一、 采集板块列表页面——确认抓取内容
    1) 输入目标网址(例如:http://t.dianping.com/list/shenzhen-category_1),按Enter键,在工作台上输入主题名,单击右方的查重,直至出现“该名可以使用”。
   
    2) 新建整理箱。点击新建,输入名称,并创建抓取内容,右击整理箱名选择“添加→包容”。需要继续添加抓取内容的话,选择右击新建的抓取内容,“添加→其后”依次添加抓取内容。勾选“关键内容”,选择整理箱中重要且确定会在网页上出现的内容勾上“关键内容”。
    3) 映射目标抓取内容。在浏览器窗口中点击目标数据——“汉阳馆”,谋数台会自动定位“汉阳馆”在网页标签窗口中节点的位置,找到text节点,右击出现内容映射,点击店铺名字,其他信息的映射同上。


二、 采集板块列表页面——样例复制
      上述步骤只是把第一条结构化信息映射给整理箱,只能采到第一个信息。为了采集该网页上所有信息,就要做样例复制映射。步骤如下:
    1) 左键点击整理箱名。
    2) 勾选启用,启用样例复制功能。


    3) 分别找到第一个商品 和 第二个商品 对应的节点。
    4) 右击 第一个商品对应节点 样例复制功能中的 “第一个” 映射到 样例1。
    5) 右击 第二个商品对应节点 样例复制功能中的 “第二个” 映射到 样例2。


三、 采集下级页面——下级链接(实现层级抓取)

      从网站上采集数据,尤其采集大型网站时,被采集的数据往往位于网站的不同层级的网页上,要采集从当前页面(第一级页面)点击后弹出的网页(第二级页面)的内容时就要规划DS打数机的爬虫路线,实现层级抓取。
    1) 点击店铺名称“汉阳馆”,会自动定位到对应的节点上,找到@href属性(即第二级页面链接),右击出现“内容映射”选择映射到“链接”。
    2) 在工作台上左键单击选择“链接”项,点击勾选上方的“下级线索”,点击“爬虫路线”跳转到爬虫路线工作台可以看到自动生成网络爬虫“线索1”。在下方的目标主题名处,修改输入新的主题名(表示第二级页面调用新的规则,所以不能与本规则的主题名一样。),并单击右方的“谁在用”确保新主题名未被占用。


四、 采集翻页后的数据—翻页采集
      通常在采集数据时,往往都需要继续抓取翻页后的数据。这一部分为大家介绍网络爬虫在进行数据抓取时,如何自动抓取翻页后的数据。步骤如下:
    1) 点击“爬虫路线”跳转到爬虫路线工作台。点击新建,创建一条线索,选择记号线索。
    2) 勾选连贯抓取。
    3) 在爬虫路线工作台中点击定位选项,选择偏好class。
    4) 在网页上点击翻页标志“下一页”,会定位到模块节点(即包含多个下层节点,可双击展开,例如A节点)。展开A节点,找到“下一页”对应text节点(text节点即为文本节点)。
    5) 右击对应的text节点,选择线索映射后点击记号映射,在可爬虫路线工作台记号值中看到“下一页”,记号定位编号显示“下一页”text在网页结构窗口中的对应编号。
    6) 选择线索定位区块,线索定位的区块一般是包含"下一页"翻页标志的区块节点,也就是网页上的翻页区块(在网页结构窗口中点击包含 “下一页”翻页标志的区块节点,会在浏览器窗口中显示)。
    7) 进行线索定位映射,右击翻页区块节点,选择线索映射→定位→线索2。完成后定位编号会显示在工作台爬虫路线上的定位编号上。


五、创建二级抓取规则(实现层级抓取)
    1) 保存完第一级规则后就可以将MS谋数台关掉,然后重新打开,开始编辑第二级规则。或者是点击文件菜单->新建,工作台清空原有内容后,即可建立新规则。
    2) 第一级规则一定要点击存规则后才能关掉MS谋数台,要不然之前做的规则就白做了。
    3) 填写第一级中预定的主题名。(即第四步中的目标主题名)。若显示“该名已被预订,可编辑:是”,则可继续下一步。
    4) 打开新一层的页面,例如http://t.dianping.com/deal/124737,然后对店铺的信息做映射,例如:店名,地址,电话等,具体步骤参照第一步。
    5)做好第二级规则后点存规则。


六、DS打数机抓取数据
    1) 打开DS打数机,对第一级规则进行单搜。采集到的线索提供给第二级规则使用。
    2) 然后对第二级规则进行统计线索,按需单搜抓取网页数。
    3) 存储路径:数据以XML格式默认存放在C盘用户文件夹的DataScraperWorks中。


七、格式转换
如果需要把XML格式转换成execl格式,请参照教程用会员中心将xml转换成excel


鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-7-22 06:37