http://www.syfc.com.cn/work/xjlp/build_list.jsp?xmmcid=62422,爬虫这个网站的数据,生成xml文件。
后来发现需要把此网址也爬到在xml文件中,有没有办法。
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-4-27 14:22

沙发
huang3878221 中级会员 发表于 2018-4-27 14:19:17 | 只看该作者
查看了页面源码,没有看到h与“ttp://www.syfc.com.cn/work/xjlp/build_list.jsp?xmmcid=62422”相同的内容。
举报 使用道具
板凳
bowieD 金牌会员 发表于 2018-4-27 14:20:39 | 只看该作者
采集下来的xml中的realpath字段就是当前网页的网址,这个字段是软件自带的,转成excel就知道了
举报 使用道具
地板
huang3878221 中级会员 发表于 2018-4-27 14:22:37 | 只看该作者
bowieD 发表于 2018-4-27 14:20
采集下来的xml中的realpath字段就是当前网页的网址,这个字段是软件自带的,转成excel就知道了 ...

疏忽疏忽,谢谢谢谢。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-13 22:28