集搜客GooSeeker网络爬虫
标题:
怎么提取网页输入字符后下拉框的文本数据?
[打印本页]
作者:
we_lol
时间:
2016-10-17 17:52
标题:
怎么提取网页输入字符后下拉框的文本数据?
[attach]1899[/attach]
网页是
http://
bigschedules.com
是一个物流信息更新网,现在想获得json下拉框中的数据,怎么办啊?它的数据不是根据A B C D这样开头设计显示的。在input框中输入字符会自动匹配出含有该字母的地点
作者:
quyixuan
时间:
2016-10-17 17:55
我们把这种抓取称为输入联想的抓取,应用还是很广泛的,比如,分析搜索引擎的联想词。
当输入一个字符或者按了enter键或者焦点移走了,都会发送一些事件,网页上的javascript代码会根据这些事件实现联想词的显示。
最直接的抓取方法是模拟人的输入行为,这样可以避免用抓包工具去解析联想词的展示过程,抓包以后还要模拟,整个过程对技术要求很强,也很费时间。
模拟人的操作就需要网络爬虫具有javascript的解析运行能力,比如,用Python webdriver驱动chrome或者火狐。可以做一些很细的事件模拟,比如,input事件,change事件和焦点事件。有些网页会有很细致的机器人识别,那么就要很细致地模拟真人。
作者:
shenzhenwan10
时间:
2016-10-17 18:07
用连续动作应该可以做
作者:
Fuller
时间:
2016-10-17 18:26
quyixuan 发表于 2016-10-17 17:55
我们把这种抓取称为输入联想的抓取,应用还是很广泛的,比如,分析搜索引擎的联想词。
当输入一个字符或者 ...
如果不想花时间编写Python程序,那么就用现成的GooSeeker爬虫,用连续动作功能,这些动作都能做。具体参看:
http://www.gooseeker.com/doc/article-141-1.html
欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/)
Powered by Discuz! X3.2