3 10218

小白求助

a10863 于 2016-5-1 00:51 发表 [复制链接]
本帖最后由 a10863 于 2016-5-1 01:15 编辑

我在抓取论坛评论的时候碰到两个问题请教大神帮忙,十分感谢
第一个问题,我想要在每个评论抓取的时候重复抓这篇帖子的标题怎么处理?
第二个问题,我需要同时抓取名字、时间和评论内容,可是名字和时间在一个div层级里,评论内容在其下面并列的div层级中,这两个div的class不同,请大神帮忙指点一下怎么处理能同时抓取每个评论内容的名字、时间和评论。

大概像下面的一样

网页标签     class        备注   
DIV          postbit1     只有该条评论的网名和时间
DIV          postbit2     只有该条评论的内容
DIV          postbit1     第二条评论的网名和时间
DIV          postbit2     第二条评论的评论内容
DIV          postbit1     第三条评论的网名和时间
DIV          postbit2     第三条评论的评论内容
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-5-1 17:12

Fuller 管理员 发表于 2016-5-1 09:54:41 | 显示全部楼层
第一个问题:
如果翻页的时候每个分页上都有标题,那么抓下来不成问题。其实不用每个分页都抓标题,因为结果文件的文件名或者内部的clueid都是用来把所有分页联系在一起的。大家的clueid都一样,说明是同一个标题下的不同分页。

第二个问题:
这种论坛应该不少,我记得用样例复制映射能应对这种情况。如上,选择第一个和第二个div做内容映射,然后做样例复制映射,第一个div映射给第一个样例,第三个div映射给第二个样例

也可以不用样例复制映射,而是用第一个div的 postbit1作为标志,做定位标志映射,映射给整理箱
举报 使用道具
a10863 新手上路 发表于 2016-5-1 16:35:33 | 显示全部楼层
Fuller 发表于 2016-5-1 09:54
第一个问题:
如果翻页的时候每个分页上都有标题,那么抓下来不成问题。其实不用每个分页都抓标题,因为结 ...

明白了,非常感谢
Fuller有什么好的数据分析的工具吗,抓取下来的数据太多都不知道怎么处理漂亮一些
举报 使用道具
Fuller 管理员 发表于 2016-5-1 17:12:12 | 显示全部楼层
a10863 发表于 2016-5-1 16:35
明白了,非常感谢
Fuller有什么好的数据分析的工具吗,抓取下来的数据太多都不知道怎么处理漂亮 ...

现在用Tableau挺流行,我看到同事用的挺好,我不会用
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 06:55