请问这个问题该如何解决:

这是第1https://www.ip-marketplace.org/overview/?cat=pa,点开之后的第2层页面分为3种情况:

1、有Overview,IP information, Contact information这三大块,比如https://www.ip-marketplace.org/visdata.asp?ot=s&id=1639;

2、有Overview,IP information,Documents attached,Contact information这四大块,比如https://www.ip-marketplace.org/visdata.asp?ot=s&id=1602;

3、只有Overview这一块,比如https://www.ip-marketplace.org/visdata.asp?ot=s&id=1105;

因为第2层共有3种网页结构,我的思路是根据p节点@class=’headline’数量的不同,考虑在同一主题下的做3种规则采集,但不知道用什么标志来区分?

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-2-26 17:59

沙发
Fuller 管理员 发表于 2017-2-26 15:49:36 | 只看该作者
1)可以做一个通用的规则,用第二种情况做样本页面,因为它的内容最全。
2)所有情形都有Overview这块,那么这块的内容勾上“关键内容”,其它3块的内容都不要勾关键内容。
3)为了能准确识别Overview,IP information等这些词,用自定义xpath,用contains()函数,通过识别Overview这个词,定位到它那一块,其它三块也用自定义xpath
举报 使用道具
板凳
hblemon2008 高级会员 发表于 2017-2-26 17:23:03 | 只看该作者
如何写呢?能做个示例吗,谢谢!
举报 使用道具
地板
Fuller 管理员 发表于 2017-2-26 17:59:07 | 只看该作者
hblemon2008 发表于 2017-2-26 17:23
如何写呢?能做个示例吗,谢谢!

可以帮你把规则定制好,收费服务
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-14 12:01