需要采集的信息都是金额与公司名称
表格形式有5列、9列、10列、11列各种各样的 Xpath路径都不同
金额和公司名称也没有id和class值
这样该怎么办呢
http://zfcg.czt.zj.gov.cn/purchaseNotice/index.html?_=1596680919257 高级搜索中的中标成交公告
需要采集的信息是金额与公司名称

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-8-6 15:32

Fuller 管理员 发表于 2020-8-6 11:07:55 | 显示全部楼层
这种问题不应该在定义规则阶段解决,而是把整块文本采集下来,在数据清洗阶段,根据上下文,用正则表达式进行匹配。
其实这个数量并不大,我们都是用摘录软件手工摘的,如果要写成程序,调试正则表达式的时间不比摘录的时间少,据我所知,很多政务公开网页上的内容是从word文件转过来的,很难定义正则表达式规则。

集搜客摘录软件目前是V1.7.3版本,很遗憾这个版本还不能支持这种网页,还要等下一个版本。摘录软件的介绍参看:https://www.gooseeker.com/doc/article-510-1.html
举报 使用道具
daisaku 新手上路 发表于 2020-8-6 15:32:24 | 显示全部楼层
Fuller 发表于 2020-8-6 11:07
这种问题不应该在定义规则阶段解决,而是把整块文本采集下来,在数据清洗阶段,根据上下文,用正则表达式进 ...

手工摘录了 谢谢您的帮助
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 07:01