21#
shenzhenwan10 金牌会员 发表于 2016-12-29 16:07:49 | 只看该作者
你是在windows的cmd窗口运行的吗?
举报 使用道具
22#
oldhu_ 新手上路 发表于 2016-12-29 16:53:56 | 只看该作者
shenzhenwan10 发表于 2016-12-29 16:07
你是在windows的cmd窗口运行的吗?

不是,在Mac的终端窗口运行的。  终端支持utf8编码的。  用你们的示例是能正常显示出中文的。
不知道我哪里弄错了。
举报 使用道具
23#
shenzhenwan10 金牌会员 发表于 2016-12-29 16:58:17 | 只看该作者
oldhu_ 发表于 2016-12-29 16:53
不是,在Mac的终端窗口运行的。  终端支持utf8编码的。  用你们的示例是能正常显示出中文的。
不知道我哪 ...

可能是在你把xlst复制保存到本地文件这一步

举报 使用道具
24#
ippfon 版主 发表于 2016-12-29 18:07:41 | 只看该作者
oldhu_ 发表于 2016-12-29 16:53
不是,在Mac的终端窗口运行的。  终端支持utf8编码的。  用你们的示例是能正常显示出中文的。
不知道我哪 ...

发一下乱码截图看看,如果单纯是输出结果的中文乱码了,可尝试对conn.read()这句获取到的内容进行编码

举报 使用道具
25#
oldhu_ 新手上路 发表于 2016-12-30 11:33:10 | 只看该作者
ippfon 发表于 2016-12-29 18:07
发一下乱码截图看看,如果单纯是输出结果的中文乱码了,可尝试对conn.read()这句获取到的内容进行编码

...

  问题解决了, 方法是我用requests替换了urllib包。 见代码如下:

import requests
from lxml import etree
from gooseeker import GsExtractor

# 访问并读取网页内容
url = "https://www.v2ex.com"
conn = requests.get(url)
doc = etree.HTML(conn.text)


后面的代码还是原来的。

非常感谢。
举报 使用道具
26#
InformationSeek 新手上路 发表于 2017-5-14 10:41:29 | 只看该作者
  楼主你好,根据你给的代码,xslt_bbs.xml 文件应该放在哪里(python 刚入门)?求指导一下
举报 使用道具
27#
gz51837844 管理员 发表于 2017-5-14 11:59:13 | 只看该作者
InformationSeek 发表于 2017-5-14 10:41
楼主你好,根据你给的代码,xslt_bbs.xml 文件应该放在哪里(python 刚入门)?求指导一下
...

放在哪都可以,一般是项目的某个文件夹下
文件名前面可以加上文件路径,如下
  1. bbsExtra.setXsltFromFile("C:\\demoproject\\config\\xslt_bbs.xml")
复制代码




举报 使用道具
28#
shujukeji 中级会员 发表于 2017-10-30 19:36:43 | 只看该作者
提示: 该帖被管理员或版主屏蔽
举报 使用道具
29#
gooseeker_info 金牌会员 发表于 2018-4-26 22:54:05 | 只看该作者
挺好的,提高了效率
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 05:32