淘宝交易记录爬取

商品的交易记录页面默认只显示4页内容,在翻页条下面有一个“查看更多记录”的按钮,点击后可以显示所有交易记录,这种情况在设置线索时应该怎么设置呢?

要创建多个主题

“查看更多”模拟点击主题仅仅为了做点击,创建一个线内线索就行了,不用采集数据,这是一个独立的主题。点击后,进入的页面用另一个采集主题,这个主题除了采集内容,还负责翻页

两种方案采集淘宝记录

方案1:在火狐浏览器中点击“查看更多记录”,看看这个网页是否有独立的网址,如果有,那么直接用这个网页作为样本页面定义采集规则

方案2:如果点击“查看更多记录”进入的网页的网址并没有变化,说明评论页没有独立的网址,是用AJAX方式显示出来的,可以用线内线索的方式让DataScraper去点击“查看更多记录”,原理跟点击“下一页”是一样的

“下一页”记号线索设置无效

在“查看更多”之前,月成交记录只有一页,“下一页”记号线索设置无效,该怎么办呢?

淘宝评论页面无内容评论的抓取

淘宝商品评论页面点击“累计评价”后默认显示的是有内容的评论,需要取消勾选整个评论列表框上部的“√有内容”复选框才可以显示所有评论。如果想要爬取所有的评论,应该怎么办呢?

“查看更多”和“下一页”两个线索该怎么设置?

点击“查看更多”后才可以通过点击“下一页”显示所有交易记录,如果把“查看更多”设置为线内线索,那么“下一页”这个线索怎么设置呢“
查看更多的节点与翻页条的节点是平行的,且在翻页条下面。