集搜客GooSeeker网络爬虫

标题: 怎么提取网页输入字符后下拉框的文本数据? [打印本页]

作者: we_lol    时间: 2016-10-17 17:52
标题: 怎么提取网页输入字符后下拉框的文本数据?
[attach]1899[/attach]
网页是 http://bigschedules.com 是一个物流信息更新网,现在想获得json下拉框中的数据,怎么办啊?它的数据不是根据A B C D这样开头设计显示的。在input框中输入字符会自动匹配出含有该字母的地点

作者: quyixuan    时间: 2016-10-17 17:55
我们把这种抓取称为输入联想的抓取,应用还是很广泛的,比如,分析搜索引擎的联想词。

当输入一个字符或者按了enter键或者焦点移走了,都会发送一些事件,网页上的javascript代码会根据这些事件实现联想词的显示。

最直接的抓取方法是模拟人的输入行为,这样可以避免用抓包工具去解析联想词的展示过程,抓包以后还要模拟,整个过程对技术要求很强,也很费时间。

模拟人的操作就需要网络爬虫具有javascript的解析运行能力,比如,用Python webdriver驱动chrome或者火狐。可以做一些很细的事件模拟,比如,input事件,change事件和焦点事件。有些网页会有很细致的机器人识别,那么就要很细致地模拟真人。

作者: shenzhenwan10    时间: 2016-10-17 18:07
用连续动作应该可以做
作者: Fuller    时间: 2016-10-17 18:26
quyixuan 发表于 2016-10-17 17:55
我们把这种抓取称为输入联想的抓取,应用还是很广泛的,比如,分析搜索引擎的联想词。

当输入一个字符或者 ...

如果不想花时间编写Python程序,那么就用现成的GooSeeker爬虫,用连续动作功能,这些动作都能做。具体参看:http://www.gooseeker.com/doc/article-141-1.html




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2