如果要搜索的信息,第一条可以在网页上显示,但是第二条由于没有这个数据,就不显示了。这种怎么抓取呢?
网址:https://icoholder.com/en/icos/all

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2019-3-23 09:18

沙发
Fuller 管理员 发表于 2019-3-21 16:21:25 | 只看该作者
在工作台上做规则的时候,对这个数据不要勾关键内容
举报 使用道具
板凳
jupter 初级会员 发表于 2019-3-21 16:48:27 | 只看该作者
Fuller 发表于 2019-3-21 16:21
在工作台上做规则的时候,对这个数据不要勾关键内容

这个地方我还做了翻页处理,但是只能抓取第一页的数据,到了第二页就显示验证规则,匹配失败。
时间设置为180秒,应该不是网页没加载出来的问题,就不知道哪里有问题了。麻烦帮我解答一下。


举报 使用道具
地板
Fuller 管理员 发表于 2019-3-21 17:59:03 | 只看该作者
jupter 发表于 2019-3-21 16:48
这个地方我还做了翻页处理,但是只能抓取第一页的数据,到了第二页就显示验证规则,匹配失败。
时间设置 ...



首先,我看到一个错误,你做了样例复制,没有选用第一个样例,也没有选用第二个样例,这样的规则就会跳着抓。

另外,状态是past的颜色不一样,你的规则只能抓取past的。

你是要抓取所有的吗?
举报 使用道具
5#
Fuller 管理员 发表于 2019-3-21 18:08:27 | 只看该作者
要抓取所有内容的话,要自定义xpath,才能适应多种变化情况,还有到了后面几行,整行的样式都变了
举报 使用道具
6#
Fuller 管理员 发表于 2019-3-21 18:10:44 | 只看该作者

必须要应对这两个变化
举报 使用道具
7#
Fuller 管理员 发表于 2019-3-21 18:37:06 | 只看该作者
这个规则要做好,有些麻烦

1,这个规则,要设定成 绝对定位,才能不受绿色和红色状态的干扰,
2,但是用了绝对定位,很可能翻页到下一页就不适应了,所以,我多建立了一层整理箱,把要抓取的内容放在这层下面。最高层用一个定位标志映射,目的是在网页上划一个范围,范围划的精准,就不怕绝对定位对规则的影响。具体参看《定位标志精确采集范围
3,整理箱中的内容,尽量用上定位标志映射,但是只有名称可以用@class='name'做定位标志,其他的都随着颜色变化。
4,只能用自定义xpath
状态的自定xpath是
  1. .//*[contains(@class,'ico-list-status')]
复制代码



实际筹资额的xpath要用专用定位,抓取内容的xpath是
  1. .//*[@class='ico-list-raised']
复制代码

定位的xpath是
  1. .//*[contains(@class,'ico-list-goal')]
复制代码



目标完成度也要用专用定位,抓取内容的xpath是
  1. .//*[@class='ico-list-raised-value']
复制代码

定位的xpath是
  1. .//*[contains(@class,'ico-list-goal')]
复制代码


举报 使用道具
8#
jupter 初级会员 发表于 2019-3-23 09:18:08 | 只看该作者
Fuller 发表于 2019-3-21 18:37
这个规则要做好,有些麻烦

1,这个规则,要设定成 绝对定位,才能不受绿色和红色状态的干扰,

谢谢您!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 01:41