就是像这种样子的标题,只能爬显示出来的字数,有没有办法爬完整的?
ball ball 大佬求教

捕获2.PNG
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2019-12-6 22:10

Fuller 管理员 发表于 2019-12-2 21:57:45 | 显示全部楼层
有几个可选方案:
1,先检查一下DOM,看看有没有一个存了完整内容的节点。通常来说,显示长度是受前端控制的,浏览器可大可小,所以,这些内容一定预留了很长,根据实际屏幕大小截取。那么,DOM上一定会有更长的内容
2,如果这个网站不是前端控制的,那么就要进入到每个帖子的详情页去采集完整的标题
举报 使用道具
qingnianwenzhaishu 新手上路 发表于 2019-12-6 18:36:07 | 显示全部楼层
Fuller 发表于 2019-12-2 21:57
有几个可选方案:
1,先检查一下DOM,看看有没有一个存了完整内容的节点。通常来说,显示长度是受前端控制 ...

试了第二种,现在问题是二级链接爬取的每一条数据都存成了一个xml,而且是没有表头的。
能不能二级链接的xml表都加上表头?
或者多条数据存于一个xml?


举报 使用道具
Fuller 管理员 发表于 2019-12-6 20:30:13 | 显示全部楼层
qingnianwenzhaishu 发表于 2019-12-6 18:36
试了第二种,现在问题是二级链接爬取的每一条数据都存成了一个xml,而且是没有表头的。
能不能二级链接的 ...

参看这个文章,把xml转换成excel: https://www.gooseeker.com/doc/article-329-1.html
举报 使用道具
qingnianwenzhaishu 新手上路 发表于 2019-12-6 20:45:25 | 显示全部楼层
Fuller 发表于 2019-12-6 20:30
参看这个文章,把xml转换成excel: https://www.gooseeker.com/doc/article-329-1.html

用这个,没有表头的也能合并吗



举报 使用道具
qingnianwenzhaishu 新手上路 发表于 2019-12-6 20:47:30 | 显示全部楼层
Fuller 发表于 2019-12-6 20:30
参看这个文章,把xml转换成excel: https://www.gooseeker.com/doc/article-329-1.html

是二级链接有问题吗,可以爬出想要的效果,但是每一条数据都另存了一个xml还不加表头?会不会是规则哪里出了问题?
举报 使用道具
Fuller 管理员 发表于 2019-12-6 22:10:51 | 显示全部楼层
qingnianwenzhaishu 发表于 2019-12-6 20:47
是二级链接有问题吗,可以爬出想要的效果,但是每一条数据都另存了一个xml还不加表头?会不会是规则哪里 ...

爬虫下载下来的原始结果文件就是xml文件,一个网页一个文件,要合并的话就先导入到数据库中,然后再导出来,就是excel格式的了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 07:27