表单中的INPUT,也是一个普通的html节点,但是要想采集INPUT中的动态填入的内容可不容易,如果采用xpath,例如 //input/@value,这只能采集到静态内容,也就是制作html的时候,静态放在value属性中的内容。 有些网站在展示一个列表的时候,整个是用一个form表单的方式,每一单元格都是一个文本类型的INPUT,那么必须具有采集动态内容的能力。 另一个案例,就是单选框和多选框也是一种INPUT,动态做了选择以后,具体是什么值,这也是动态的内容。 集搜客网络爬虫的旗舰版增加了一个功能:采集INPUT动态内容。虽然是旗舰版功能,但是操作方法特别简单,几乎觉察不到这个功能的特殊之处。 如下图,每个INPUT节点都增加了一个属性gooseeker_input,这里就是存放动态内容的地方,所以只需用这个属性做内容映射,跟抓取其它内容完全一样。 |