集搜客GooSeeker网络爬虫

标题: 怎么抓网页上没找到但源代码中却有的东西? [打印本页]

作者: 淼淼    时间: 2016-10-17 19:39
标题: 怎么抓网页上没找到但源代码中却有的东西?
众筹的网站,想要抓取它的开始以及结束时间但是在网页上找不到,源代码中却又有,可以找到,那要抓取它的开始以及结束时间的话要怎样抓取?
样例网址:https://www.indiegogo.com/projects/animal-vs-machine-the-mma-show#/
源代码网址:view-source:https://www.indiegogo.com/projects/animal-vs-machine-the-mma-show#/
作者: Fuller    时间: 2016-10-17 22:23
开始时间和结束时间在哪个位置?
作者: Fuller    时间: 2016-10-17 22:23
开始时间和结束时间在哪个位置?
作者: Fuller    时间: 2016-10-17 22:43
[attach]1903[/attach]
是这些数字吗?在MS谋数台的DOM树中能找到

作者: 淼淼    时间: 2016-10-18 10:34
Fuller 发表于 2016-10-17 22:43
是这些数字吗?在MS谋数台的DOM树中能找到

不对,不是这种,真的是够巧的,我随便找的一个项目偏偏有这串数字,其他项目都是什么都没有的,而且这串数字也不对,不是这样的,查看源代码就知道C:\Users\Administrator\Desktop
作者: 淼淼    时间: 2016-10-18 10:36
Fuller 发表于 2016-10-17 22:43
是这些数字吗?在MS谋数台的DOM树中能找到

这个截图图片我发不出去,不过比可以打开网页源代码看一下
view-source:https://www.indiegogo.com/projects/real-loud-right-left-music#/
这是我随意打开的一个
作者: Fuller    时间: 2016-10-19 11:27
淼淼 发表于 2016-10-18 10:36
这个截图图片我发不出去,不过比可以打开网页源代码看一下
view-source:https://www.indiegogo.com/proje ...

你还是截个图吧,源码这么长,我不知道看哪个信息
作者: Fuller    时间: 2016-10-19 11:29
[attach]1925[/attach]
点击 高级模式 ,才能发图片

作者: 淼淼    时间: 2016-11-6 16:03
就是这个
作者: 淼淼    时间: 2016-11-6 16:03
Fuller 发表于 2016-10-19 11:29
点击 高级模式 ,才能发图片

就是这个

作者: Fuller    时间: 2016-11-6 18:07
meta信息是在HEAD中的,网页上不显示,照样可以做内容映射,抓下来。跟抓属性一样,属性在网页上也不显示,用相同的方法做内容映射
作者: saly123    时间: 2017-2-20 14:38
Fuller 发表于 2016-11-6 18:07
meta信息是在HEAD中的,网页上不显示,照样可以做内容映射,抓下来。跟抓属性一样,属性在网页上也不显示, ...

head里面有多个meta,应该是哪一个?





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2