Python爬虫抓取问题(疑似编码问题)

plovex

之前跑别的规则都没问题，不知道是不是这个网页编码的问题，本身是个移动端的网页，但是pc端打开是没问题的

地址：http://m.okooo.com/match/change. ... 0&Type=Handicap
规则：澳客亚盘皇冠

shenzhenwan10 · 发表于 2017-4-29 12:08:51

今天测试下，看看会不会出现楼主的问题

plovex · 发表于 2017-4-29 12:40:08

shenzhenwan10 发表于 2017-4-29 12:08
今天测试下，看看会不会出现楼主的问题

谢了，之前跑别的页没问题，这页好像是解析不了，不知道什么原因

shenzhenwan10 · 发表于 2017-5-2 14:25:31

测试了一下, python驱动phantomJS, 爬取楼主给出的那个网址, 能够正确的得到结果.
测试代码如下:

#-*_coding:utf8-*-
# 使用xsltExtractor类的示例程序
# xlst通过GooSeeker API获得
import time
from urllib import request
from lxml import etree
from gooseeker import GsExtractor
from selenium import webdriver
class PhantomSpider:
def getContent(self, url):
browser = webdriver.PhantomJS(executable_path='C:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe')
browser.get(url)
time.sleep(3)
html = browser.execute_script("return document.documentElement.outerHTML")
output = etree.HTML(html)
return output
def saveContent(self, filepath, content):
file_obj = open(filepath, 'a+', encoding='UTF-8')
file_obj.write(content)
file_obj.close()
doubanExtra = GsExtractor()
# 下面这句调用gooseeker的api来设置xslt抓取规则
# 第一个参数是app key，请到GooSeeker会员中心申请
# 第二个参数是规则名，是通过GooSeeker的图形化工具: 谋数台MS 来生成的
doubanExtra.setXsltFromAPI("31d24931e043e2d5364d03b8ff9cc77e" , "澳客亚盘皇冠_szw10")
url = "http://m.okooo.com/match/change.php?mid=885202&pid=250&Type=Handicap"
totalpages = 5
doubanSpider = PhantomSpider()
print("正在爬取", url)
content = doubanSpider.getContent(url)
outputxml = doubanExtra.extract(content)
outputfile = "result" + ".xml"
doubanSpider.saveContent(outputfile , str(outputxml))
print("爬取结束")

复制代码

得到的结果文件如下图:

plovex · 发表于 2017-5-3 11:56:25

shenzhenwan10 发表于 2017-5-2 14:25
测试了一下, python驱动phantomJS, 爬取楼主给出的那个网址, 能够正确的得到结果.
测试代码如下:
得到的结 ...

谢谢我看下，我是也驱动phantomJS爬得，别的页面可以，这页没找到问题我对照你的代码看看

plovex · 发表于 2017-5-3 12:25:21

shenzhenwan10 发表于 2017-5-2 14:25
测试了一下, python驱动phantomJS, 爬取楼主给出的那个网址, 能够正确的得到结果.
测试代码如下:
得到的结 ...

我用的scrapy，解析网页的时候好像代码是乱的
# -*- coding: utf-8 -*-
import time
import scrapy
from datetime import datetime
import os
import os.path

from gooseeker import GsExtractor

class AHSingbet(scrapy.Spider):
name = "ah_singbet"
allowed_domains = ["m.okooo.com"]
start_urls = (
'http://m.okooo.com/match/change.php?mid=885202&pid=250&Type=Handicap',
)

# 获得当前时间戳
def getTime(self):
current_time = time.strftime("%Y-%m-%d %H-%M", time.localtime())
return current_time

def parse(self, response):
# html = response.body
print(response.body)
html = response.body
# print(html)
print("----------------------------------------------------------------------------")
extra=GsExtractor()
extra.setXsltFromAPI("55f1621790eb7d816e40dc2ca593a511", "澳客亚盘皇冠","皇冠亚盘","list")
result = extra.extractHTML(html)
print(str(result).encode('gbk', 'ignore').decode('gbk'))
path = 'G:/Python/Demo/temp/matchid/' + datetime.now().strftime('%Y-%m-%d') + '/ah_singbet/'
if not os.path.exists(path):
os.mkdir(path)
file_name = path + 'ah_singbet.xml'
open(file_name,"wb").write(result)

能帮我看下哪里问题么，是不是要在哪定义编码

plovex · 发表于 2017-5-3 17:02:24

shenzhenwan10 发表于 2017-5-2 14:25
测试了一下, python驱动phantomJS, 爬取楼主给出的那个网址, 能够正确的得到结果.
测试代码如下:
得到的结 ...

又试了下，用你这apikey和规则名就能跑出来，用我自己的跑出来页面是空的但是我直接打数机跑是没问题的。。。
这是怎么回事呢？

gz51837844 · 发表于 2017-5-3 17:08:50

你看一下你的api是否在有效期内
同时检查调用api时的参数是否正确

Python爬虫抓取问题(疑似编码问题)

本帖子中包含更多资源

共 7 个关于本帖的回复最后回复于 2017-5-3 17:08

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

Python爬虫抓取问题(疑似编码问题)

本帖子中包含更多资源

共 7 个关于本帖的回复 最后回复于 2017-5-3 17:08

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 7 个关于本帖的回复最后回复于 2017-5-3 17:08