经常遇到新闻网页,在新闻内容主体部分,每一段是单独的代码,这些代码CLASS值相同。怎样才能将所有相同CLASS值下的不同段落内容都抓取到。同时遇到其他新闻,段落数量不同时,也能把所有段落内容全部抓取到。最好显示在同一单元格里。
怎么办.png
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2019-11-13 15:24

Fuller 管理员 发表于 2019-11-13 15:04:28 | 显示全部楼层
如果你想把整段内容都抓下来,那么找到这些节点的共同的父节点,用父节点做内容映射。可以给这个抓取内容设置成只抓取“纯文本”,也可以设置成抓取“网页片段”。网页片段就是连html的标签也抓取下来
举报 使用道具
wings飞 中级会员 发表于 2019-11-13 15:24:58 | 显示全部楼层
Fuller 发表于 2019-11-13 15:04
如果你想把整段内容都抓下来,那么找到这些节点的共同的父节点,用父节点做内容映射。可以给这个抓取内容设 ...

谢谢,似乎解决了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 15:19