最后登录 1970-1-1
您需要 登录 才可以下载或查看,没有帐号?立即注册
数据集二期 发表于 2018-2-5 17:53 输入关键词后搜索,出现的是一个pdf图片,爬虫是无法采集图片里的文字的,只能把整张图片采集下来 ...
最后登录 2025-5-6
mz2358639 发表于 2018-2-5 18:29 但是用浏览器直接打开是手动可以把字选起来复制的呀,另外不能通过爬虫直接抓取如果我批量下载pdf文件是 ...
Fuller 发表于 2018-2-5 18:34 火狐浏览器有pdf解析能力,这个pdf中的文字可以选取是因为这是一个双层pdf,里面有文字,但是需要浏览器 ...
mz2358639 发表于 2018-2-5 18:41 我现在已经知道批量下载了,目前的问题还是如何在pdf文件里面抓取这些我想要的文本内容(哪怕全部文本能够 ...
Fuller 发表于 2018-2-5 19:23 如果你可以编程序的话,很多编程语言都有pdf的函数库,比如,java就有,调用里面的java类的方法,可以解 ...
mz2358639 发表于 2018-2-5 20:38 抱歉,并不是程序员出身,因为导师有任务要筛20000多个基因,然后来做下一步的实验。我之前本科参加过数 ...
Fuller 发表于 2018-2-5 21:22 pdf是一种文档标准,而网页是html,是另一种文档标准,集搜客网络爬虫只处理网页html。但是有一个技术, ...
mz2358639 发表于 2018-2-5 21:42 额,一语惊奇梦中人,我咋没想到批量把pdf转为html之后用规则管理批量导入爬去,我找了一个试试确实可行 ...
发表回复 回帖并转播 回帖后跳转到最后一页
GMT+8, 2025-5-12 03:52
共 11 个关于本帖的回复 最后回复于 2018-2-5 22:20