爬股吧帖子标题，爬不出完整的

qingnianwenzhaishu

就是像这种样子的标题，只能爬显示出来的字数，有没有办法爬完整的？
ball ball 大佬求教

Fuller · 发表于 2019-12-2 21:57:45

有几个可选方案：
1，先检查一下DOM，看看有没有一个存了完整内容的节点。通常来说，显示长度是受前端控制的，浏览器可大可小，所以，这些内容一定预留了很长，根据实际屏幕大小截取。那么，DOM上一定会有更长的内容
2，如果这个网站不是前端控制的，那么就要进入到每个帖子的详情页去采集完整的标题

qingnianwenzhaishu · 发表于 2019-12-6 18:36:07

Fuller 发表于 2019-12-2 21:57
有几个可选方案：
1，先检查一下DOM，看看有没有一个存了完整内容的节点。通常来说，显示长度是受前端控制 ...

试了第二种，现在问题是二级链接爬取的每一条数据都存成了一个xml，而且是没有表头的。
能不能二级链接的xml表都加上表头？
或者多条数据存于一个xml？

Fuller · 发表于 2019-12-6 20:30:13

qingnianwenzhaishu 发表于 2019-12-6 18:36
试了第二种，现在问题是二级链接爬取的每一条数据都存成了一个xml，而且是没有表头的。
能不能二级链接的 ...

参看这个文章，把xml转换成excel： https://www.gooseeker.com/doc/article-329-1.html

qingnianwenzhaishu · 发表于 2019-12-6 20:45:25

Fuller 发表于 2019-12-6 20:30
参看这个文章，把xml转换成excel： https://www.gooseeker.com/doc/article-329-1.html

用这个，没有表头的也能合并吗

qingnianwenzhaishu · 发表于 2019-12-6 20:47:30

Fuller 发表于 2019-12-6 20:30
参看这个文章，把xml转换成excel： https://www.gooseeker.com/doc/article-329-1.html

是二级链接有问题吗，可以爬出想要的效果，但是每一条数据都另存了一个xml还不加表头？会不会是规则哪里出了问题？

Fuller · 发表于 2019-12-6 22:10:51

qingnianwenzhaishu 发表于 2019-12-6 20:47
是二级链接有问题吗，可以爬出想要的效果，但是每一条数据都另存了一个xml还不加表头？会不会是规则哪里 ...

爬虫下载下来的原始结果文件就是xml文件，一个网页一个文件，要合并的话就先导入到数据库中，然后再导出来，就是excel格式的了

共 6 个关于本帖的回复最后回复于 2019-12-6 22:10

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页