我有很多网站 每个网站的结构不同 现在想通过关键字采集出来网站所有的A标签里面的内容 有什么有好的办法吗

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-3-21 14:33

沙发
Fuller 管理员 发表于 2018-3-20 18:53:09 | 只看该作者
你的意思是:在一个网页上,用关键字去匹配每个超链接的文本,如果含有关键字,就要这个超链接的网址。是这个意思吗?
举报 使用道具
板凳
Fuller 管理员 发表于 2018-3-20 18:53:19 | 只看该作者
有没有具体的网页的例子?
举报 使用道具
地板
docker_bhl 新手上路 发表于 2018-3-21 08:54:08 | 只看该作者
如有含这些关键字 就要这个超链接,而且网站很多,最终的结果都是要最后的链接,不想建好多规则完了事后再一个一个去下载这样工作量太大了 有没有好的办法。基本都是列表页 但是页面的结构都不一样
举报 使用道具
5#
Fuller 管理员 发表于 2018-3-21 11:35:43 | 只看该作者
docker_bhl 发表于 2018-3-21 08:54
如有含这些关键字 就要这个超链接,而且网站很多,最终的结果都是要最后的链接,不想建好多规则完了事后再 ...

可以建立一个通用规则,用网页的body节点做内容映射,就能把整个网页文本采集下来。

但是,一定要一页页下载以后再去匹配有没有关键词,下载工作省不了
举报 使用道具
6#
docker_bhl 新手上路 发表于 2018-3-21 13:11:41 | 只看该作者
就是说匹配关键字是在excel里面去操作是么。。
举报 使用道具
7#
docker_bhl 新手上路 发表于 2018-3-21 13:17:24 | 只看该作者
那通用规则分页怎么办 可以通用么
举报 使用道具
8#
maomao 论坛元老 发表于 2018-3-21 14:33:17 | 只看该作者
docker_bhl 发表于 2018-3-21 13:17
那通用规则分页怎么办 可以通用么

做内容映射时,使用html.body节点,所有网页都有这个节点,所以是最通用的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-13 09:07