本帖最后由 offmask 于 2016-10-23 01:05 编辑

为了爬点小数据同时试用了集搜客和另一个工具。两者都有免费版本,但另一个工具数据导出需要积分,集搜客可以不用积分。不过另一个工具导出的数据有多种格式可选,而集搜客如果不用积分就只能得到一堆xml文件。本着DIY的原则,用Python折腾了一个将多个xml文件中的内容进行提取并合并到一个txt文件中的小工具。

两个爬虫工具的简单试用对比:对能直接从页面提取的元素都有很好的支持,但如果是从源码中提取,集搜客的XPath支持貌似更好些。

也可以通过Excel的开发工具建立xml映射将多个xml导入一张sheet内,站内有教程。

用到了Python3和BeautifulSoup库。其实不用BeautifulSoup也可以用正则表达式匹配出来。

  1. #Merge .xml files into a csv-ready .txt.
  2. #Matt Sun
  3. #http://offmask.com
  4. #Oct 22, 2016
  5. #coding=utf-8
  6. filePath = "c:\\work\\marketplace\\imgURL\\"
  7. #放xml文件的文件夹路径
  8. import os
  9. from bs4 import BeautifulSoup
  10. files = os.listdir(path = filePath)
  11. outF = open('c:\\work\\marketplace\\imgurl.txt','a')
  12. for i in range(len(files)):
  13.     xmlF = open(filePath+files[i],'r')
  14.     xmlContent = BeautifulSoup(xmlF)
  15.     xmlF.close()
  16.     imgUrl = xmlContent.url.text
  17.     asin = xmlContent.fullpath.text
  18.     outContent =asin + "," + imgUrl + "\n"
  19.     outF.write(outContent)
  20. outF.close()
  21. print("all done!")
复制代码
举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2016-10-23 01:06

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 03:25