我想抓取的是表示热度和点赞的图片,但是只能按照顺序抓取第二个跟第三个图片,怎么来特定采集所需要的图片,定位的话好像也没有用。
<item>
                <主题名>VoLTE SUPPORT FOR ZENFONE MAX AND LTE ONLY MODE IN NETWORK SETTINGS</主题名>
                <热度>https://dlcdnww-zentalk.asus.com/zentalk/static/image/common/hot_3.gif</热度>
                <点赞>https://dlcdnww-zentalk.asus.com/zentalk/static/image/common/agree.gif</点赞>
                <用户名> AMIT.003</用户名>
                <发帖时间>2016/7/22 00:34</发帖时间>
            </item>
            <item>
                <主题名>Time for Nougat on Zenphone 2 flagship ZE551ML</主题名>
                <热度>https://dlcdnww-zentalk.asus.com/zentalk/static/image/filetype/image_s.gif</热度>
                <点赞>https://dlcdnww-zentalk.asus.com/zentalk/static/image/common/mobile-attach-1.png</点赞>
                <用户名> rabi.ferk</用户名>
                <发帖时间>2016/8/18 20:46</发帖时间>
            </item>

我想采集的是显示hot、agree and recommend的,关于其他的并不需要,请各位大神帮忙,应该怎么做比较好?


SQR703Q3{7093GQ$${%BULD.png (140.69 KB, 下载次数: 677)

SQR703Q3{7093GQ$${%BULD.png
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-7-24 09:07

沙发
Fuller 管理员 发表于 2017-7-22 17:23:12 | 只看该作者


给这两个抓取内容设置关键内容,而且不要把他们放在子容器中,所以,我删掉了整理箱中的一层容器节点。

但是这样不太好,等翻页到下一页,上面一个热度和点赞都没有,就会抓取失败。最好的方法是把所有内容抓下来再过滤
举报 使用道具
板凳
axu517 中级会员 发表于 2017-7-23 14:47:08 | 只看该作者
Fuller 发表于 2017-7-22 17:23
给这两个抓取内容设置关键内容,而且不要把他们放在子容器中,所以,我删掉了整理箱中的一层容器节点。

...

你的意思是把所有图片都下载下来,然后通过Excel手工过滤吗?

举报 使用道具
地板
wangyong 版主 发表于 2017-7-23 18:00:44 | 只看该作者
是的,先把图片链接抓下来,然后做筛选,再做一个专门的规则下载图片
举报 使用道具
5#
axu517 中级会员 发表于 2017-7-24 09:07:25 | 只看该作者
wangyong 发表于 2017-7-23 18:00
是的,先把图片链接抓下来,然后做筛选,再做一个专门的规则下载图片

哦哦  谢谢哈

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 17:57