网址是http://www.cbioportal.org/cross_cancer.do?session_id=59f6b886498e5df2e2976638,主题号是EGFR,EGFR-1,EGFR-2,在EGFR-2下设置列表采集的时候,发现输出的信息不全,我是选择all之后设置列表采集规则的,不知道是什么原因,谢谢大家!
举报 使用道具
| 回复

共 20 个关于本帖的回复 最后回复于 2017-11-1 18:18

沙发
数据集 高级会员 发表于 2017-11-1 11:14:32 | 只看该作者
网站需要加载很久,爬取得时候需要加载出来才能采集到信息,是不是爬取得太快,还没加载出来就采集完成了导致采集信息不全。

网页加载信息慢就需要把爬虫的速度调慢一些,在打数机的配置中设置一下打数机的滚屏数据,超时时长和延迟抓取
1,把滚屏速度调慢一些,滚屏调慢有利于页面加载数据。
2,把超时时长和延迟抓取都调大些,知道网址能全部加载出来。
举报 使用道具
板凳
douying052 新手上路 发表于 2017-11-1 12:08:11 | 只看该作者
非常感谢回答,我发现是这个设置有问题//*[@class='oncogenic-icon-image level1R oncogenic']/@class,我要抓取的内容是这个class,但是level1R不是固定的,可能会变成level1,不知道怎么修改定位。
举报 使用道具
地板
umsung 高级会员 发表于 2017-11-1 12:14:40 | 只看该作者
本帖最后由 umsung 于 2017-11-1 12:46 编辑
douying052 发表于 2017-11-1 12:08
非常感谢回答,我发现是这个设置有问题//*[@class='oncogenic-icon-image level1R oncogenic']/@class,我 ...

1,可以用contains函数自定义xpath去定位所有包含level的@class,《xpath常用函数用法 》
2,如果只有这两种class的话,可以用“或”| 连接xpath
举报 使用道具
5#
douying052 新手上路 发表于 2017-11-1 12:34:55 | 只看该作者
你好,数据规则里写的是<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:svg="http://www.w3.org/2000/svg" >
<xsl:template match="/">
<response>
<xsl:apply-templates select="//*[@id='DataTables_Table_166']/tbody/tr[position()>=1 and count(.//*[@class='oncogenic-icon-image level1R oncogenic']/@class)>0]" mode="response"/>
</response>
</xsl:template>


<xsl:template match="//*[@id='DataTables_Table_166']/tbody/tr[position()>=1 and count(.//*[@class='oncogenic-icon-image level1R oncogenic']/@class)>0]" mode="response">
<item>
<annotation>
<xsl:value-of select="*//*[@class='oncogenic-icon-image level1R oncogenic']/@class"/>
<xsl:value-of select="*[@class='oncogenic-icon-image level1R oncogenic']/@class"/>
<xsl:if test="@class='oncogenic-icon-image level1R oncogenic'">
<xsl:value-of select="@class"/>
</xsl:if>
</annotation>
</item>
</xsl:template>
</xsl:stylesheet>
我看了一个帖子说是因为oncogenic-icon-image level1R oncogenic这个给写死了,因为level不一样,但是我不知道这个怎么改,因为不是level1R的都没有抓取到
举报 使用道具
6#
数据集 高级会员 发表于 2017-11-1 12:47:43 | 只看该作者
看四楼正解
举报 使用道具
7#
douying052 新手上路 发表于 2017-11-1 13:02:22 | 只看该作者
谢谢,我再创建规则里边的高级设置里设置Xpath路径是//*[contains(@class,'oncogenic-icon-image ')],然后点击测序,现在是未响应状态,会运行很慢吗?
举报 使用道具
8#
douying052 新手上路 发表于 2017-11-1 13:49:35 | 只看该作者
谢谢,数据太多了,我直接爬虫爬出来了,不过导入zip文件时显示fail
举报 使用道具
9#
douying052 新手上路 发表于 2017-11-1 14:08:13 | 只看该作者
我用txt看了一下,class信息抓取到了,,感谢。但是又有问题,其他列的数据只提取到第一行,其他的都没有提取到时什么原因呢?
举报 使用道具
10#
数据集 高级会员 发表于 2017-11-1 14:23:24 | 只看该作者
1,导入zip文件失败,检查压缩文件里是否压缩了其他文件
2,class信息抓取到了,证明xptah没错,数据只提取了第一行是没做样例复制吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 04:54