集搜客GooSeeker网络爬虫

标题: 用微博工具箱采集的数据,之前没有导出的数据还能导出来么 [打印本页]

作者: 洪城县令    时间: 2017-7-5 17:35
标题: 用微博工具箱采集的数据,之前没有导出的数据还能导出来么

[attach]6944[/attach]
为什么我导出的数据量不对呢,这是两次导出的数据,数据重复了很多而且少了很多,现在也没有未采集的显示了。

作者: shengchengx    时间: 2017-7-5 17:38
有几个点可能会造成数据重复和数据缺失
1. 你建立的2个任务中, 还有相同的线索. 如果你删除其中一个任务, 那么相同的那部分线索在另一个任务也删除了
2. 多个任务中, 含有相同的线索, 最后采集的结果中也会有重复的数据

作者: 洪城县令    时间: 2017-7-5 17:40
shengchengx 发表于 2017-7-5 17:38
有几个点可能会造成数据重复和数据缺失
1. 你建立的2个任务中, 还有相同的线索. 如果你删除其中一个任务,  ...

数据现在应该是没有重复的,我是在Excel表格中进行删除重复项的
我总共是建立了4个任务,没有删除任务,数据重复不是多个任务之间重复,是同一个任务重复,不是说后导出的数据不包括之前导出的数据吗?我现在同一个任务导出的多个文件夹数据存在重复

作者: shengchengx    时间: 2017-7-5 17:45
洪城县令 发表于 2017-7-5 17:40
数据现在应该是没有重复的,我是在Excel表格中进行删除重复项的
我总共是建立了4个任务,没有删除任务, ...

如果是同一个任务重复, 那可能的原因是 1.失败的线索中, 有的是已经采集到了结果, 但是由于网络或其它的原因, 线索状态没有上报. 如果点击"全部重新采集", 会有重采的情况
2. 由于多次导出和下载, 可能一部分数据下了2次

你可以把已经导出的数据进行去重,去重之后会有一个列表,然后用所有线索网址列表对比,这样就可以得到那些没有数据的线索了
对于没有数据的线索,你新建一个任务,让爬虫去采集这些数据,为了防止和之前的任务重复,可以在导出的数据后删除之前的任务,然后再进行新建




作者: shengchengx    时间: 2017-7-5 17:47
洪城县令 发表于 2017-7-5 17:40
数据现在应该是没有重复的,我是在Excel表格中进行删除重复项的
我总共是建立了4个任务,没有删除任务, ...

新建的任务, 你可以自己记录一些信息跟踪一下
比如:
去重后添加的线索数,
已导出下载的文件,  
每个文件的数据量, 文件合并去重后的数据量
有了这些数据之后,如果有数据缺失的情况,后台可以协助你一起找出一些哪些线索以及是什么原因


作者: 洪城县令    时间: 2017-7-5 17:48
shengchengx 发表于 2017-7-5 17:47
新建的任务, 你可以自己记录一些信息跟踪一下
比如:
去重后添加的线索数,

请问一下我怎么在excel中找出没有重复的线索?删除重复项只是把两个重复的删除掉一个,还是没有识别出单个记录的线索?

作者: shengchengx    时间: 2017-7-5 17:49
洪城县令 发表于 2017-7-5 17:48
请问一下我怎么在excel中找出没有重复的线索?删除重复项只是把两个重复的删除掉一个,还是没有识别出单 ...

去重之后就是没有重复的了,以这个为基础,添加线索和后续的数据对比






欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2