本帖最后由 goo_seeker 于 2016-11-9 17:53 编辑

目标网站url:http://d.g.wanfangdata.com.hk/Thesis_Y2275913.aspx
我用gooseeker制作的规则在gooseeker里测试通过,但是我按照官方采集豆瓣的例子用代码抓取,但是却抓取不到结果,制作的规则如附件所示:
求大神指导,谢谢

xslt.rar

1.03 KB, 下载次数: 1

举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-11-25 16:10

沙发
scraper 论坛元老 发表于 2016-11-9 17:24:05 | 只看该作者
你是测试python使用集搜客api来抓取豆瓣?
能否把你的python代码贴出来?
举报 使用道具
板凳
goo_seeker 初级会员 发表于 2016-11-9 17:37:25 | 只看该作者
scraper 发表于 2016-11-9 17:24
你是测试python使用集搜客api来抓取豆瓣?
能否把你的python代码贴出来?

不是的 我是参照github上的那个GsExtractor python代码写的 用xslt解析的 但是解析不出来
举报 使用道具
地板
goo_seeker 初级会员 发表于 2016-11-9 17:44:07 | 只看该作者
goo_seeker 发表于 2016-11-9 17:37
不是的 我是参照github上的那个GsExtractor python代码写的 用xslt解析的 但是解析不出来 ...

用的是extract那个方法解析的
举报 使用道具
5#
Fuller 管理员 发表于 2016-11-9 18:28:56 | 只看该作者
goo_seeker 发表于 2016-11-9 17:44
用的是extract那个方法解析的

可以把主题名帖出来,我们先诊断一下抓取规则是否合适。

其次,就是要注意几点:下载目标网页用的是哪个包?有没有用driver?他们是否能处理动态页面等
举报 使用道具
6#
goo_seeker 初级会员 发表于 2016-11-10 13:31:12 | 只看该作者
Fuller 发表于 2016-11-9 18:28
可以把主题名帖出来,我们先诊断一下抓取规则是否合适。

其次,就是要注意几点:下载目标网页用的是哪个 ...

谢谢大神回复,没有主题名。我是照着那个教程,用gooseeker做出规则 保存成xml文件,然后用GsExtractor那个代码解析,就是这样,没有其他操作了,规则就是附件里的那个rar包,然后抓取的url也写在帖子里了,再次表示感谢
举报 使用道具
7#
Fuller 管理员 发表于 2016-11-10 14:57:45 | 只看该作者
goo_seeker 发表于 2016-11-10 13:31
谢谢大神回复,没有主题名。我是照着那个教程,用gooseeker做出规则 保存成xml文件,然后用GsExtractor那 ...

在MS谋数台上只要点击“存规则”,我们从管理员后台就能进行诊断了。

另外,python运行的时候,界面上显示的信息是什么?你用哪个python库从http拿网页的?
举报 使用道具
8#
goo_seeker 初级会员 发表于 2016-11-25 15:08:09 | 只看该作者
Fuller 发表于 2016-11-10 14:57
在MS谋数台上只要点击“存规则”,我们从管理员后台就能进行诊断了。

另外,python运行的时候,界面上显 ...

没有报错 只显示一个空的xml数据 像这样:<?xml version="1.0"?><box/>

box是我起的整理箱名称

举报 使用道具
9#
goo_seeker 初级会员 发表于 2016-11-25 15:09:02 | 只看该作者
Fuller 发表于 2016-11-10 14:57
在MS谋数台上只要点击“存规则”,我们从管理员后台就能进行诊断了。

另外,python运行的时候,界面上显 ...

但是同样的连接 我放到谋数台里 就能解析出数据
举报 使用道具
10#
Fuller 管理员 发表于 2016-11-25 16:10:43 | 只看该作者
goo_seeker 发表于 2016-11-25 15:09
但是同样的连接 我放到谋数台里 就能解析出数据

你可能用了静态网页抓取的python函数库,这套Python网络爬虫资料有动态网页抓取的内容和程序,你参考一下。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-17 07:11