原网页:http://gepia.cancer-pku.cn/detai ... ;clicktag=stageplot
具体是在原网页输入基因名和在dataset里面输入"COAD",点击plot
之后下面会出现这个框框,我想抓取Pr(<F)=后面的值0.0557

1.png (145.48 KB, 下载次数: 1198)

1.png

2.png (77.34 KB, 下载次数: 1240)

2.png
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2018-2-5 22:20

沙发
数据集二期 中级会员 发表于 2018-2-5 17:53:18 | 只看该作者
输入关键词后搜索,出现的是一个pdf图片,爬虫是无法采集图片里的文字的,只能把整张图片采集下来

1.png (138.26 KB, 下载次数: 1234)

1.png
举报 使用道具
板凳
mz2358639 中级会员 发表于 2018-2-5 18:29:55 | 只看该作者
数据集二期 发表于 2018-2-5 17:53
输入关键词后搜索,出现的是一个pdf图片,爬虫是无法采集图片里的文字的,只能把整张图片采集下来 ...

但是用浏览器直接打开是手动可以把字选起来复制的呀,另外不能通过爬虫直接抓取如果我批量下载pdf文件是不是要用火狐呢然后用咱们这里教程里面的方法是否抓取可行?最后他的文件链接我没找到。。
举报 使用道具
地板
Fuller 管理员 发表于 2018-2-5 18:34:49 | 只看该作者
mz2358639 发表于 2018-2-5 18:29
但是用浏览器直接打开是手动可以把字选起来复制的呀,另外不能通过爬虫直接抓取如果我批量下载pdf文件是 ...

火狐浏览器有pdf解析能力,这个pdf中的文字可以选取是因为这是一个双层pdf,里面有文字,但是需要浏览器进行解析。

目前集搜客网络爬虫不解析pdf,需要定制版本才能解析pdf
举报 使用道具
5#
mz2358639 中级会员 发表于 2018-2-5 18:41:43 | 只看该作者
本帖最后由 mz2358639 于 2018-2-5 19:02 编辑
Fuller 发表于 2018-2-5 18:34
火狐浏览器有pdf解析能力,这个pdf中的文字可以选取是因为这是一个双层pdf,里面有文字,但是需要浏览器 ...

我现在已经知道批量下载了,目前的问题还是如何在pdf文件里面抓取这些我想要的文本内容(哪怕全部文本能够抓取下来后期我用excel函数选出来就是了)
举报 使用道具
6#
Fuller 管理员 发表于 2018-2-5 19:23:23 | 只看该作者
mz2358639 发表于 2018-2-5 18:41
我现在已经知道批量下载了,目前的问题还是如何在pdf文件里面抓取这些我想要的文本内容(哪怕全部文本能够 ...

如果你可以编程序的话,很多编程语言都有pdf的函数库,比如,java就有,调用里面的java类的方法,可以解析这些pdf。凡是在浏览器中能够选择的文本,在pdf中一定能用程序找到这些文本。
举报 使用道具
7#
mz2358639 中级会员 发表于 2018-2-5 20:38:17 | 只看该作者
Fuller 发表于 2018-2-5 19:23
如果你可以编程序的话,很多编程语言都有pdf的函数库,比如,java就有,调用里面的java类的方法,可以解 ...

抱歉,并不是程序员出身,因为导师有任务要筛20000多个基因,然后来做下一步的实验。我之前本科参加过数学建模有用过集搜客爬虫。也觉得挺好用。只是我想再问一下acrobat能不能批量提取指定文本的?因为我用acrobat打开下载下来的pdf后在左边"内容"里面可以看见文本有点像咱们集搜客的网页结构。我不知道咱们能不能有没有这些知识和技巧可以分享的

QQ截图20180205203618.png (103.92 KB, 下载次数: 1251)

QQ截图20180205203618.png
举报 使用道具
8#
Fuller 管理员 发表于 2018-2-5 21:22:44 | 只看该作者
mz2358639 发表于 2018-2-5 20:38
抱歉,并不是程序员出身,因为导师有任务要筛20000多个基因,然后来做下一步的实验。我之前本科参加过数 ...

pdf是一种文档标准,而网页是html,是另一种文档标准,集搜客网络爬虫只处理网页html。但是有一个技术,能够从pdf标准转换成html,那么集搜客网络爬虫就能抓取了。但是,十分十分遗憾的是,目前我们没有把这个技术集成到集搜客网络爬虫中。即使现在开始集成,估计也要2周时间才能完成,而且通常我们只给年旗舰版用户做这种计划外的定制。

所以,着急处理这些pdf的话,最好写一个pdf解析程序,可以找编程的同学帮忙。
举报 使用道具
9#
mz2358639 中级会员 发表于 2018-2-5 21:42:58 | 只看该作者
Fuller 发表于 2018-2-5 21:22
pdf是一种文档标准,而网页是html,是另一种文档标准,集搜客网络爬虫只处理网页html。但是有一个技术, ...

额,一语惊奇梦中人,我咋没想到批量把pdf转为html之后用规则管理批量导入爬去,我找了一个试试确实可行。那么下个问题就是咱能有啥方法把pdf批量转为html吗?我其他的都能解决了包括文件名和批量导入这些。
举报 使用道具
10#
Fuller 管理员 发表于 2018-2-5 21:58:54 | 只看该作者
mz2358639 发表于 2018-2-5 21:42
额,一语惊奇梦中人,我咋没想到批量把pdf转为html之后用规则管理批量导入爬去,我找了一个试试确实可行 ...

我不知道有没有独立软件可以做这个转换,可以在百度上搜一搜。我只知道在火狐浏览器中有这么一个技术,需要把这个技术移植到集搜客网络爬虫中
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 03:37