能否在多个没有搜索框的网页检索关键词

wfy810 · 发表于 2023-6-30 11:47:13

Fuller 发表于 2023-6-27 18:48
这个有点麻烦，因为每个作者对应一个LI元素，LI元素下应该还有子节点，分别表示名字和ORCID。如果要精确 ...

管理员好，能帮忙看下这两个任务么，有什么问题以及可改进的地方
任务名：文献搜集-Science系列_一级、文献搜集-Science系列_二级

我遇到过的问题是，在同一次采集任务内，待采集会突然变多(20变成40)，最后任务管理显示采集完成60条，数据管理显示未导出数据80条，导出发现有20条是重复的

Fuller · 发表于 2023-6-30 18:35:01

wfy810 发表于 2023-6-30 11:47
管理员好，能帮忙看下这两个任务么，有什么问题以及可改进的地方
任务名：文献搜集-Science系列_一级、文 ...

如果第一级采集列表的时候，采集到以前曾经采集过的第二级网址，那么，在手工启动的采集情况下，会重新激活已经采集过的下级网址，就会重采。

为了避免重采，需要在任务管理那里设置增量采集，运行爬虫群，自动调度才能用上增量采集。

wfy810 · 发表于 2023-7-6 18:23:51

Fuller 发表于 2023-6-30 18:35
如果第一级采集列表的时候，采集到以前曾经采集过的第二级网址，那么，在手工启动的采集情况下，会重新激 ...

您好！

wfy810 · 发表于 2023-7-6 18:30:31

本帖最后由 wfy810 于 2023-7-7 09:15 编辑

Fuller 发表于 2023-6-30 18:35
如果第一级采集列表的时候，采集到以前曾经采集过的第二级网址，那么，在手工启动的采集情况下，会重新激 ...

您好！我想问同一本杂志、同样属于Article，它们的网页结构不应该是类似的么？我遇到了很多这种class值不同的状况，应该怎么做呢
例如：
https://www.cell.com/immunity/fulltext/S1074-7613(23)00216-9
https://www.cell.com/immunity/fulltext/S1074-7613(23)00183-8

Fuller · 发表于 2023-7-6 22:28:57

wfy810 发表于 2023-7-6 18:30
您好！我想问同一本杂志、同样属于Article，它们的网页结构不应该是类似的么？我遇到了很多这种class值 ...

同一个任务下，可以创建多个采集规则，他们的任务名是一样的，规则编号要各自用一个独特的字符串，比如，规则1，规则2，类似这样。

用来区别这两个规则的抓取内容必须勾上关键内容，比如，title那个抓取内容，不同的网页有不同的class，那么把这个抓取内容设置成关键内容。爬虫采集的时候，会自动选择合适的那个规则。

wfy810 · 发表于 2023-7-12 10:07:56

本帖最后由 wfy810 于 2023-7-12 10:16 编辑

Fuller 发表于 2023-6-26 21:01
把采集到的内容导出来，在excel中搜索，我觉得这是个好方法

您好，请问抓取文本内容会有字数上限吗？我这边看了不能采集完整，有什么办法解决么

Fuller · 发表于 2023-7-12 10:29:26

wfy810 发表于 2023-7-12 10:07
您好，请问抓取文本内容会有字数上限吗？我这边看了不能采集完整，有什么办法解决么
...

网页上的内容采集没有字数和页数上限，如果网页很长，会占用更多内存，电脑要有足够内存。目前4G内存用来采集通常的任务，特别大的任务最好有8G内存

能否在多个没有搜索框的网页检索关键词

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页