Python 爬虫如何获取onclick里面内容,不需要用selenium 模拟点击,而是直接获得哦你click返回参数?具体比如说
https://www.tripadvisor.com/Show ... rginia.html#REVIEWS
Tripadvisor 网站,crawl的时候我需要点击next 刷新界面
<a data-page-number="2" data-offset="4" href="/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or5" class="nav next rndBtn ui_button primary taLnk" onclick=" ta.trackEventOnPage('STANDARD_PAGINATION', 'next', '2', 0);
">Next</a>
但是这个next 执行之后url从
https://www.tripadvisor.com/Show ... e_Virginia.html#or0
变成
https://www.tripadvisor.com/Show ... _Virginia.html#or05
就是 从 xxx#or0 变成 xxx#or5
也就是说是只是改变了hashtag, scrapy 的request 是只能获取hashtag之前的url,无法区分第一页和第二页。
所以我想知道,如何能通过 next, 继续crawl下一个界面?
非常感谢 |
共 2 个关于本帖的回复 最后回复于 2016-10-17 18:34