集搜客GooSeeker网络爬虫

标题: 麻烦有谁说说论坛网站文本抓取怎么做啊 [打印本页]

作者: blanche881    时间: 2016-1-19 11:21
标题: 麻烦有谁说说论坛网站文本抓取怎么做啊
感觉论坛里面的结构如果按照常规抓取的话会很麻烦,会把一个回帖分成很多结点,而且数量不太固定,没办法完成批量抓取?!
有谁知道怎么做比较方便吗?求大神!
作者: Fuller    时间: 2016-1-19 21:34
这个问题我没有理解透,你设想的批量抓取是怎样的?

我想到的是:
1)在每一页上,按照楼层抓取每个跟帖和主贴
2)每个帖子,按照字段分别抓取内容,时间,发帖人等信息
3)翻页再抓取后续的网页

这些都可以一气呵成,是批量抓取的
作者: redwindy    时间: 2016-3-2 01:14
Fuller 发表于 2016-1-19 21:34
这个问题我没有理解透,你设想的批量抓取是怎样的?

我想到的是:

我想我理解楼主的意思。
就是说论坛帖子的表现形式大概是这样的。
一个<DIV>下面很多内容,并没有什么规律。可能刚开始一个图片,然后大段文字,然后又是图。这样的话如何采集呢?
如果是用内容定位到<DIV>这个标签并不能采集到数据啊。
作者: redwindy    时间: 2016-3-2 01:15
Fuller 发表于 2016-1-19 21:34
这个问题我没有理解透,你设想的批量抓取是怎样的?

我想到的是:

如果只是采集发帖人,或者标题都好说,可以定位到#text之类的具体内容。然而帖子内容本身什么都可能有。所以不知道怎么定位了。
作者: Fuller    时间: 2016-3-2 09:40
redwindy 发表于 2016-3-2 01:15
如果只是采集发帖人,或者标题都好说,可以定位到#text之类的具体内容。然而帖子内容本身什么都可能有。 ...

帖子内容在一个DIV下,你可以定义规则,把整个DIV采集下来,具体参看:http://www.gooseeker.com/doc/thread-692-1-1.html
如果想同时下载图片,只需给这个抓取内容勾上“下载图片”

作者: redwindy    时间: 2016-3-7 15:58
Fuller 发表于 2016-3-2 09:40
帖子内容在一个DIV下,你可以定义规则,把整个DIV采集下来,具体参看:http://www.gooseeker.com/doc/thr ...

原来只是需要再高级设置里选择一下就行了……
十分感谢!




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2