zxy0427 发表于 2016-5-30 20:39
执行lxml的etree.HTML(), 是把PhantomJS返回的documentElement.outerHTML转换成特定格式的element tree
实 ...
shenzhenwan10 发表于 2016-5-31 16:42
如果用selenium.webdriver来直接操作浏览器,那就不用转换了。
比如下面的几行代码:
...
shenzhenwan10 发表于 2016-5-31 13:59
我理解etree.HTML(), etree.XML()这几个方法就是用python的数据结构建立一棵树,用于之后对etree的操作
目 ...
Fuller 发表于 2016-6-8 18:53
Python好热,好多高人啊,看到一个好棒的代码分享:基于微信网页版的微信机器人python实现 ...
mingdongtianxia 发表于 2017-7-29 11:16
按教程操作下来怎么只有个开头和一个结尾标签是怎么回事,几乎所有的都如此,你们把API给关了还是停止服务 ...
gz51837844 发表于 2017-7-29 23:57
今天按这个主题的步骤,做了测试,结果如下:
1. 这篇文章是手工把提取器内容从MS谋数台复制到python程序文 ...
gilmechen 发表于 2017-12-1 16:22
怎么把爬虫路线的xslt加入到py脚本中呢,我需要实现翻页抓取lazyload的动态网页。现在在MS用滚屏动作和DS的 ...
umsung 发表于 2017-12-1 16:34
不需要用py脚本来实现,直接用爬虫软件制作规则就可以实现翻页抓取,需要用到样例复制和翻页,采集的时候 ...
gilmechen 发表于 2017-12-1 18:03
我把滚屏速度设成0(应该是最慢了吧)还是只能抓到十几条数据
gilmechen 发表于 2017-12-1 18:03
我把滚屏速度设成0(应该是最慢了吧)还是只能抓到十几条数据
wangyong 发表于 2017-12-1 18:05
这种情况是要把滚屏次数设大,数字越大滚屏滚的越多
欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) | Powered by Discuz! X3.2 |