11#
wfy810 初级会员 发表于 2023-6-30 11:47:13 | 只看该作者
Fuller 发表于 2023-6-27 18:48
这个有点麻烦,因为每个作者对应一个LI元素,LI元素下应该还有子节点,分别表示名字和ORCID。如果要精确 ...

管理员好,能帮忙看下这两个任务么,有什么问题以及可改进的地方
任务名:文献搜集-Science系列_一级、文献搜集-Science系列_二级

我遇到过的问题是,在同一次采集任务内,待采集会突然变多(20变成40),最后任务管理显示采集完成60条,数据管理显示未导出数据80条,导出发现有20条是重复的



举报 使用道具
12#
Fuller 管理员 发表于 2023-6-30 18:35:01 | 只看该作者
wfy810 发表于 2023-6-30 11:47
管理员好,能帮忙看下这两个任务么,有什么问题以及可改进的地方
任务名:文献搜集-Science系列_一级、文 ...

如果第一级采集列表的时候,采集到以前曾经采集过的第二级网址,那么,在手工启动的采集情况下,会重新激活已经采集过的下级网址,就会重采。

为了避免重采,需要在任务管理那里设置增量采集,运行爬虫群,自动调度才能用上增量采集。


举报 使用道具
13#
wfy810 初级会员 发表于 2023-7-6 18:23:51 | 只看该作者
Fuller 发表于 2023-6-30 18:35
如果第一级采集列表的时候,采集到以前曾经采集过的第二级网址,那么,在手工启动的采集情况下,会重新激 ...

您好!
举报 使用道具
14#
wfy810 初级会员 发表于 2023-7-6 18:30:31 | 只看该作者
本帖最后由 wfy810 于 2023-7-7 09:15 编辑
Fuller 发表于 2023-6-30 18:35
如果第一级采集列表的时候,采集到以前曾经采集过的第二级网址,那么,在手工启动的采集情况下,会重新激 ...

您好!我想问 同一本杂志、同样属于Article,它们的网页结构不应该是类似的么?我遇到了很多这种class值不同的状况,应该怎么做呢
例如:
https://www.cell.com/immunity/fulltext/S1074-7613(23)00216-9
https://www.cell.com/immunity/fulltext/S1074-7613(23)00183-8

1.png (147.65 KB, 下载次数: 529)

1.png

2.png (171.1 KB, 下载次数: 523)

2.png
举报 使用道具
15#
Fuller 管理员 发表于 2023-7-6 22:28:57 | 只看该作者
wfy810 发表于 2023-7-6 18:30
您好!我想问 同一本杂志、同样属于Article,它们的网页结构不应该是类似的么?我遇到了很多这种class值 ...

同一个任务下,可以创建多个采集规则,他们的任务名是一样的,规则编号要各自用一个独特的字符串,比如,规则1,规则2,类似这样。

用来区别这两个规则的抓取内容必须勾上关键内容,比如,title那个抓取内容,不同的网页有不同的class,那么把这个抓取内容设置成关键内容。爬虫采集的时候,会自动选择合适的那个规则。
举报 使用道具
16#
wfy810 初级会员 发表于 2023-7-12 10:07:56 | 只看该作者
本帖最后由 wfy810 于 2023-7-12 10:16 编辑
Fuller 发表于 2023-6-26 21:01
把采集到的内容导出来,在excel中搜索,我觉得这是个好方法

您好,请问抓取文本内容会有字数上限吗?我这边看了不能采集完整,有什么办法解决么

1.png (28.39 KB, 下载次数: 495)

1.png
举报 使用道具
17#
Fuller 管理员 发表于 2023-7-12 10:29:26 | 只看该作者
wfy810 发表于 2023-7-12 10:07
您好,请问抓取文本内容会有字数上限吗?我这边看了不能采集完整,有什么办法解决么
...

网页上的内容采集没有字数和页数上限,如果网页很长,会占用更多内存,电脑要有足够内存。目前4G内存用来采集通常的任务,特别大的任务最好有8G内存
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-17 01:39