请问这个问题该如何解决:
这是第1层https://www.ip-marketplace.org/overview/?cat=pa,点开之后的第2层页面分为3种情况:
1、有Overview,IP information, Contact information这三大块,比如https://www.ip-marketplace.org/visdata.asp?ot=s&id=1639;
2、有Overview,IP information,Documents attached,Contact information这四大块,比如https://www.ip-marketplace.org/visdata.asp?ot=s&id=1602;
3、只有Overview这一块,比如https://www.ip-marketplace.org/visdata.asp?ot=s&id=1105;
因为第2层共有3种网页结构,我的思路是根据p节点@class=’headline’数量的不同,考虑在同一主题下的做3种规则采集,但不知道用什么标志来区分?
|
共 3 个关于本帖的回复 最后回复于 2017-2-26 17:59