11#
a1641422659 初级会员 发表于 2019-4-9 20:24:11 | 只看该作者
Fuller 发表于 2019-4-9 19:59
这个论坛应该这样看他的结构:
1,顶上是主贴
2,下面的是跟帖

就是我想要这个主贴第一页的跟帖,也就是第一页回复用户的名字,刚才试了,好像只抓了这第一页的一部分,然后怎么去掉重复的部分。不大懂,请见谅哈

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
12#
Fuller 管理员 发表于 2019-4-9 21:07:05 | 只看该作者
a1641422659 发表于 2019-4-9 20:24
就是我想要这个主贴第一页的跟帖,也就是第一页回复用户的名字,刚才试了,好像只抓了这第一页的一部分, ...

如果在网页上有重复的,那么就会原样抓下来,要等导出成excel以后才能用excel的功能过滤重复内容,转成excel的方法参看:https://www.gooseeker.com/doc/article-329-1.html
举报 使用道具
13#
a1641422659 初级会员 发表于 2019-4-9 21:13:09 | 只看该作者
Fuller 发表于 2019-4-9 21:07
如果在网页上有重复的,那么就会原样抓下来,要等导出成excel以后才能用excel的功能过滤重复内容,转成ex ...

出了个问题,就是我照您的方法设置了第二个整理箱用来抓跟帖用户名,想只抓第一页的,但是只抓了这一页的头几个回帖用户名就没了,这是怎么回事呢?
举报 使用道具
14#
Fuller 管理员 发表于 2019-4-9 22:30:56 | 只看该作者
a1641422659 发表于 2019-4-9 21:13
出了个问题,就是我照您的方法设置了第二个整理箱用来抓跟帖用户名,想只抓第一页的,但是只抓了这一页的 ...

我把采集到的数据核对了很多,没有漏的
举报 使用道具
15#
a1641422659 初级会员 发表于 2019-4-10 09:17:52 | 只看该作者
Fuller 发表于 2019-4-9 22:30
我把采集到的数据核对了很多,没有漏的

不好意思,是我没看仔细,抱歉!!!
举报 使用道具
16#
a1641422659 初级会员 发表于 2019-4-10 10:49:48 | 只看该作者
本帖最后由 a1641422659 于 2019-4-10 10:55 编辑
Fuller 发表于 2019-4-9 22:30
我把采集到的数据核对了很多,没有漏的

再爬话题主要内容时,加载完之后 剩余线索总会提示匹配失败,统计线索,不是抓取中 就是超时

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么用微软的excel无法打开xls文件?powe
  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法

热门用户

GMT+8, 2025-6-21 10:06