列表采集的数据不全

douying052

网址是http://www.cbioportal.org/cross_cancer.do?session_id=59f6b886498e5df2e2976638，主题号是EGFR，EGFR-1，EGFR-2，在EGFR-2下设置列表采集的时候，发现输出的信息不全，我是选择all之后设置列表采集规则的，不知道是什么原因，谢谢大家！

数据集 · 发表于 2017-11-1 11:14:32

网站需要加载很久，爬取得时候需要加载出来才能采集到信息，是不是爬取得太快，还没加载出来就采集完成了导致采集信息不全。

网页加载信息慢就需要把爬虫的速度调慢一些，在打数机的配置中设置一下打数机的滚屏数据，超时时长和延迟抓取
1，把滚屏速度调慢一些，滚屏调慢有利于页面加载数据。
2，把超时时长和延迟抓取都调大些，知道网址能全部加载出来。

douying052 · 发表于 2017-11-1 12:08:11

非常感谢回答，我发现是这个设置有问题//*[@class='oncogenic-icon-image level1R oncogenic']/@class，我要抓取的内容是这个class，但是level1R不是固定的，可能会变成level1，不知道怎么修改定位。

umsung · 发表于 2017-11-1 12:14:40

本帖最后由 umsung 于 2017-11-1 12:46 编辑

douying052 发表于 2017-11-1 12:08
非常感谢回答，我发现是这个设置有问题//*[@class='oncogenic-icon-image level1R oncogenic']/@class，我 ...

1，可以用contains函数自定义xpath去定位所有包含level的@class，《xpath常用函数用法》
2，如果只有这两种class的话，可以用“或”| 连接xpath

douying052 · 发表于 2017-11-1 12:34:55

你好，数据规则里写的是<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:svg="http://www.w3.org/2000/svg" >
<xsl:template match="/">
<response>
<xsl:apply-templates select="//*[@id='DataTables_Table_166']/tbody/tr[position()>=1 and count(.//*[@class='oncogenic-icon-image level1R oncogenic']/@class)>0]" mode="response"/>
</response>
</xsl:template>

<xsl:template match="//*[@id='DataTables_Table_166']/tbody/tr[position()>=1 and count(.//*[@class='oncogenic-icon-image level1R oncogenic']/@class)>0]" mode="response">
<item>
<annotation>
<xsl:value-of select="*//*[@class='oncogenic-icon-image level1R oncogenic']/@class"/>
<xsl:value-of select="*[@class='oncogenic-icon-image level1R oncogenic']/@class"/>
<xsl:if test="@class='oncogenic-icon-image level1R oncogenic'">
<xsl:value-of select="@class"/>
</xsl:if>
</annotation>
</item>
</xsl:template>
</xsl:stylesheet>
我看了一个帖子说是因为oncogenic-icon-image level1R oncogenic这个给写死了，因为level不一样，但是我不知道这个怎么改，因为不是level1R的都没有抓取到

数据集 · 发表于 2017-11-1 12:47:43

看四楼正解

douying052 · 发表于 2017-11-1 13:02:22

谢谢，我再创建规则里边的高级设置里设置Xpath路径是//*[contains(@class,'oncogenic-icon-image ')]，然后点击测序，现在是未响应状态，会运行很慢吗？

douying052 · 发表于 2017-11-1 13:49:35

谢谢，数据太多了，我直接爬虫爬出来了，不过导入zip文件时显示fail

douying052 · 发表于 2017-11-1 14:08:13

我用txt看了一下，class信息抓取到了，

，感谢。但是又有问题，其他列的数据只提取到第一行，其他的都没有提取到时什么原因呢？

数据集 · 发表于 2017-11-1 14:23:24

1，导入zip文件失败，检查压缩文件里是否压缩了其他文件
2，class信息抓取到了，证明xptah没错，数据只提取了第一行是没做样例复制吗？

列表采集的数据不全

共 20 个关于本帖的回复最后回复于 2017-11-1 18:18

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

列表采集的数据不全

共 20 个关于本帖的回复 最后回复于 2017-11-1 18:18

推荐板块

精彩推荐

热门话题

热门用户

共 20 个关于本帖的回复最后回复于 2017-11-1 18:18