集搜客GooSeeker网络爬虫

标题: 网页抓取 [打印本页]

作者: Joan2huqi    时间: 2019-5-6 12:11
标题: 网页抓取
http://www.cuaa.net/paihang,这个网页怎么抓取历年的所有排行榜啊?不知道该咋做规则


作者: Fuller    时间: 2019-5-6 12:28
要采集这个网站,要做好多层规则,参看《采集网址做层级采集》,我看到每个省份,每个专业类别,都能点进去,要用层级采集规则。

而在一个网页上要采集一个列表,应该参看《采集列表数据》。

这个网站规则可能会比较难做,因为这个网站不像京东这样有结构的,这个网站上的表格都是自由嵌入文字间的,看起来很标准,实际上会有结构上的不同,规则就不好做





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2