11#
shenzhenwan10 金牌会员 发表于 2016-5-30 16:02:21 | 只看该作者
scrapy这个设计挺好。
我们第一步可以在scrapy使用gooseeker提取器,提升使用scrapy的效率
第二步可以做一个类似框架
举报 使用道具
12#
Fuller 管理员 发表于 2016-5-30 18:01:46 | 只看该作者
shenzhenwan10 发表于 2016-5-30 16:02
scrapy这个设计挺好。
我们第一步可以在scrapy使用gooseeker提取器,提升使用scrapy的效率
第二步可以做一 ...

如果能完美实现第一步,我倾向于不做第二步,大家各取所长,融入scrapy框架就好
举报 使用道具
13#
Fuller 管理员 发表于 2016-5-30 18:05:29 | 只看该作者
Fuller 发表于 2016-5-29 16:25
简书上有篇介绍Scrapy的文章《Scrapy爬虫学习记录》,先运行
生成一个爬虫,就把程序架子搭起来了,然后自 ...

scrapy这种创建工程的操作模式,让我想起以前华为的一个同事,为了提高效率和统一程序的模式,也做了一个生成器,用生成器把架子自动产生出来。
举报 使用道具
14#
linteck 新手上路 发表于 2016-12-23 12:02:03 | 只看该作者
Fuller 发表于 2016-5-19 19:06
一个问题:
1,这个etree生成的transform对象,就能用html文本文档做输入又能用DOM对象做数据?

为什么我执行了
pip install gooseeker-2.1.zip在运行例子的时候还是会报错呢?错误如下:============ RESTART: C:\Users\CNLEZHU1\Desktop\xslt_bbs\1222.py ============Traceback (most recent call last):  File "C:\Users\CNLEZHU1\Desktop\xslt_bbs\1222.py", line 7, in <module>    from gooseeker import gsExtractorImportError: cannot import name 'gsExtractor'>>>
举报 使用道具
15#
shenzhenwan10 金牌会员 发表于 2016-12-23 15:09:00 | 只看该作者
linteck 发表于 2016-12-23 12:02
为什么我执行了
pip install gooseeker-2.1.zip在运行例子的时候还是会报错呢?错误如下:============  ...

你运行的1222.py是什么程序?
可以把代码贴出分析下吗

举报 使用道具
16#
oldhu_ 新手上路 发表于 2016-12-23 15:40:20 | 只看该作者
你好, 我把示例的URL改成 https://www.v2ex.com, xslt文件我自己从你们的谋数台生成的保存到本地,现在按照样例跑了后,发现输出的中文是乱码,请问我哪里设置的不对? 谢谢。
举报 使用道具
17#
Fuller 管理员 发表于 2016-12-23 16:43:26 | 只看该作者
oldhu_ 发表于 2016-12-23 15:40
你好, 我把示例的URL改成 https://www.v2ex.com, xslt文件我自己从你们的谋数台生成的保存到本地,现在按 ...

要为Python设置字符编码类型
举报 使用道具
18#
linteck 新手上路 发表于 2016-12-23 17:46:57 | 只看该作者
shenzhenwan10 发表于 2016-12-23 15:09
你运行的1222.py是什么程序?
可以把代码贴出分析下吗

已解决,是类名称大小写错了一个,谢谢!
举报 使用道具
19#
oldhu_ 新手上路 发表于 2016-12-29 13:27:57 | 只看该作者
Fuller 发表于 2016-12-23 16:43
要为Python设置字符编码类型



请问要在哪里设置编码? 我用的python 3, 代码如下, 非常感谢。

#!/usr/bin/python
# -*- coding: utf-8 -*-

from urllib import request
from lxml import etree
from gooseeker import GsExtractor

# 访问并读取网页内容
url = "https://www.v2ex.com"
conn = request.urlopen(url)
doc = etree.HTML(conn.read())

bbsExtra = GsExtractor()    # 生成xsltExtractor对象
bbsExtra.setXsltFromFile("gsk.xml")    # 调用set方法设置xslt内容
result = bbsExtra.extract(doc)    # 调用extract方法提取所需内容

print(result)


举报 使用道具
20#
shenzhenwan10 金牌会员 发表于 2016-12-29 16:07:49 | 只看该作者
你是在windows的cmd窗口运行的吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 10:23