请问这个问题该如何解决:

这是第1https://www.ip-marketplace.org/overview/?cat=pa,点开之后的第2层页面分为3种情况:

1、有Overview,IP information, Contact information这三大块,比如https://www.ip-marketplace.org/visdata.asp?ot=s&id=1639;

2、有Overview,IP information,Documents attached,Contact information这四大块,比如https://www.ip-marketplace.org/visdata.asp?ot=s&id=1602;

3、只有Overview这一块,比如https://www.ip-marketplace.org/visdata.asp?ot=s&id=1105;

因为第2层共有3种网页结构,我的思路是根据p节点@class=’headline’数量的不同,考虑在同一主题下的做3种规则采集,但不知道用什么标志来区分?

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-2-26 17:59

沙发
Fuller 管理员 发表于 2017-2-26 15:49:36 | 只看该作者
1)可以做一个通用的规则,用第二种情况做样本页面,因为它的内容最全。
2)所有情形都有Overview这块,那么这块的内容勾上“关键内容”,其它3块的内容都不要勾关键内容。
3)为了能准确识别Overview,IP information等这些词,用自定义xpath,用contains()函数,通过识别Overview这个词,定位到它那一块,其它三块也用自定义xpath
举报 使用道具
板凳
hblemon2008 高级会员 发表于 2017-2-26 17:23:03 | 只看该作者
如何写呢?能做个示例吗,谢谢!
举报 使用道具
地板
Fuller 管理员 发表于 2017-2-26 17:59:07 | 只看该作者
hblemon2008 发表于 2017-2-26 17:23
如何写呢?能做个示例吗,谢谢!

可以帮你把规则定制好,收费服务
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么用微软的excel无法打开xls文件?powe
  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法

热门用户

GMT+8, 2025-6-23 05:59