集搜客GooSeeker网络爬虫

标题: 怎么提取网页输入字符后下拉框的文本数据？ [打印本页]

作者: we_lol 时间: 2016-10-17 17:52
标题: 怎么提取网页输入字符后下拉框的文本数据？
[attach]1899[/attach]
网页是 http://bigschedules.com 是一个物流信息更新网，现在想获得json下拉框中的数据，怎么办啊？它的数据不是根据A B C D这样开头设计显示的。在input框中输入字符会自动匹配出含有该字母的地点

作者: quyixuan 时间: 2016-10-17 17:55
我们把这种抓取称为输入联想的抓取，应用还是很广泛的，比如，分析搜索引擎的联想词。

当输入一个字符或者按了enter键或者焦点移走了，都会发送一些事件，网页上的javascript代码会根据这些事件实现联想词的显示。

最直接的抓取方法是模拟人的输入行为，这样可以避免用抓包工具去解析联想词的展示过程，抓包以后还要模拟，整个过程对技术要求很强，也很费时间。

模拟人的操作就需要网络爬虫具有javascript的解析运行能力，比如，用Python webdriver驱动chrome或者火狐。可以做一些很细的事件模拟，比如，input事件，change事件和焦点事件。有些网页会有很细致的机器人识别，那么就要很细致地模拟真人。

作者: shenzhenwan10 时间: 2016-10-17 18:07
用连续动作应该可以做

作者: Fuller 时间: 2016-10-17 18:26

quyixuan 发表于 2016-10-17 17:55
我们把这种抓取称为输入联想的抓取，应用还是很广泛的，比如，分析搜索引擎的联想词。

当输入一个字符或者 ...

如果不想花时间编写Python程序，那么就用现成的GooSeeker爬虫，用连续动作功能，这些动作都能做。具体参看：http://www.gooseeker.com/doc/article-141-1.html

欢迎光临集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/)