11#
wangyong 版主 发表于 2020-3-18 19:05:57 | 只看该作者
wangxiaoshuang 发表于 2020-3-18 18:32
可能我们显示不一样把,请问您把第二条新闻复制后可以爬第二页吗?

不是显示不一样,你把你的截图看一下,我加载你规则直接都第二条新闻和样例复制选择的第二个样例定位编号都不一样,咱们的编号可能不同,但是再规则里这两个位置的编号一定会是相同的

另外新闻时间的xpath需要修改成这个:
  1. .//*[contains(@id,'cacheresult_summary')]/span|.//*[@class='gray-color']|.//*[contains(@class,'img-item text-center')]/p/span
复制代码

举报 使用道具
12#
wangxiaoshuang 初级会员 发表于 2020-3-18 19:51:46 | 只看该作者
wangyong 发表于 2020-3-18 19:05
不是显示不一样,你把你的截图看一下,我加载你规则直接都第二条新闻和样例复制选择的第二个样例定位编号 ...

这里我应该是对应好了,新闻时间我也按照您的改了一下还是爬不了第二页,请问您能运行我的规则吗?运行后能爬第二页的新闻链接吗?

QQ截图20200318194754.png (507.45 KB, 下载次数: 253)

QQ截图20200318194754.png
举报 使用道具
13#
wangyong 版主 发表于 2020-3-19 09:50:35 | 只看该作者
wangxiaoshuang 发表于 2020-3-18 19:51
这里我应该是对应好了,新闻时间我也按照您的改了一下还是爬不了第二页,请问您能运行我的规则吗?运行后 ...

我加载你的规则都直接报错了,样例复制做的都不对,你再加载重新映射
举报 使用道具
14#
wangxiaoshuang 初级会员 发表于 2020-3-19 11:41:48 | 只看该作者
wangyong 发表于 2020-3-19 09:50
我加载你的规则都直接报错了,样例复制做的都不对,你再加载重新映射

这个我重新做了个任务,从第二页开始爬问题已经解决了,可以往后爬,麻烦您了,非常感谢。
再麻烦您一个小问题,我想爬两种网页结构的新闻,新闻标题、时间、内容的id和class会有不同,我自定义的xpath可以在定义规则页面搜索到对应的节点,但在测试的时候却爬不下来内容,请问这是什么原因。
网址1:https://finance.sina.com.cn/stock/relnews/cn/2020-03-18/doc-iimxxstf9953745.shtml
网址2:http://finance.sina.com.cn/meeting/2016-12-18/doc-ifxytqav9743977.shtml
任务名:新浪华为100新闻详情0319试验1
新闻标题:.//*[@id='artibodyTitle']|.//*[@class='main-title']
新闻时间:.//*[@class='time-source']|.//*[@class='date']
新闻详情:.//*[@id='artibody']

QQ截图20200319114122.png (448.41 KB, 下载次数: 275)

QQ截图20200319114122.png
举报 使用道具
15#
wangyong 版主 发表于 2020-3-19 14:43:08 | 只看该作者

要对规则里的整理箱顶节点做上定位标志映射
举报 使用道具
16#
wangxiaoshuang 初级会员 发表于 2020-3-19 17:09:30 | 只看该作者
wangyong 发表于 2020-3-19 14:43
要对规则里的整理箱顶节点做上定位标志映射

问题解决了,谢谢您。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 23:12