本帖最后由 yanxueao1314 于 2019-12-20 09:05 编辑

1、采集的内容能否先编辑后再采集,如加个前缀或者后缀,或者替换。
2、采集后转换成excel,文本内容都是一个格子里面。如何让内容按照某个特定字符,换行进行采集,从而导出excel是换行的。
以上问题麻烦大神赐教,采集后手动编辑太麻烦了。
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2019-12-20 09:06

沙发
Fuller 管理员 发表于 2019-12-20 08:59:59 | 只看该作者
采集出来以后,在excel中,利用各种函数进行处理,比如,替换掉价格的前缀和后缀,分行或者分列,都放在excel中做
举报 使用道具
板凳
yanxueao1314 新手上路 发表于 2019-12-20 09:03:37 | 只看该作者
采集的过程中不行是吧。
举报 使用道具
地板
Fuller 管理员 发表于 2019-12-20 09:05:24 | 只看该作者
yanxueao1314 发表于 2019-12-20 09:03
采集的过程中不行是吧。

采集过程中控制不了。有些简单的字符串提取可以用自定义xpath做
举报 使用道具
5#
yanxueao1314 新手上路 发表于 2019-12-20 09:05:56 | 只看该作者
好的谢谢
举报 使用道具
6#
Fuller 管理员 发表于 2019-12-20 09:06:27 | 只看该作者
自定义xpath的教程在这里:https://www.gooseeker.com/doc/thread-701-1-1.html

xpath的字符串处理函数不多,能力有限,等采集下来以后用excel做处理是最好的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 07:03