如题
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-4-24 14:41

沙发
Fuller 管理员 发表于 2016-1-17 20:07:13 | 只看该作者
用同一个主题名,可以定义两个抓取规则,他们之间用不同的规则编号区分。具体参看这个文章:http://www.gooseeker.com/doc/article-191-1.html
举报 使用道具
板凳
llssyy 初级会员 发表于 2016-4-23 10:41:29 | 只看该作者
请问解决了吗,楼上那个链接不是我想要的,我感觉我的问题应该和你是一类型,求解
举报 使用道具
地板
Fuller 管理员 发表于 2016-4-23 11:31:28 | 只看该作者
llssyy 发表于 2016-4-23 10:41
请问解决了吗,楼上那个链接不是我想要的,我感觉我的问题应该和你是一类型,求解 ...

参照我的回答,在一个主题下定义多个采集规则
举报 使用道具
5#
llssyy 初级会员 发表于 2016-4-23 16:37:24 | 只看该作者
Fuller 发表于 2016-4-23 11:31
参照我的回答,在一个主题下定义多个采集规则

我说的是比如这个http://zhidao.baidu.com/uteam/member?teamId=84947用户1-3和用户4以后的div结构是不一样的,这种要怎么做
举报 使用道具
6#
Fuller 管理员 发表于 2016-4-23 16:56:57 | 只看该作者
llssyy 发表于 2016-4-23 16:37
我说的是比如这个http://zhidao.baidu.com/uteam/member?teamId=84947用户1-3和用户4以后的div结构是不一 ...

这种结构完全不一样,我建议选择下面两个方案之一,优选第一个

方案1:建立两个整理箱,1-3放一个整理箱;创建规则工作台上“新建”按钮再点一次,创建第二个整理箱,用于存储4以后的

方案2:一个整理箱中可以建成树状的结构,也就是整理箱中套者小箱子,建立两个小箱子,第一个存1-3,第二个存4以后的,每个小箱子都定义样例复制

建议使用会员中心的入库和导出功能,方案1会生成两个excel,方案2生成一个excel,但是会有冗余数据

你试试吧
举报 使用道具
7#
llssyy 初级会员 发表于 2016-4-23 22:39:31 | 只看该作者
Fuller 发表于 2016-4-23 16:56
这种结构完全不一样,我建议选择下面两个方案之一,优选第一个

方案1:建立两个整理箱,1-3放一个整理箱 ...

恩恩,谢谢,我后来也自己也是尝试用第二种解决的。

另外有个问题,就是还是那个链接,用户1他的整个div都没有链接,但是这个网站是有规则的,前后一样中间是用户名就是链接,怎么操作可以使抓取的链接变成完整链接储存下来呢?我现在只想到存下来了以后手动excel更改,但是觉得这样工作量好大。
举报 使用道具
8#
Fuller 管理员 发表于 2016-4-23 23:43:21 | 只看该作者
llssyy 发表于 2016-4-23 22:39
恩恩,谢谢,我后来也自己也是尝试用第二种解决的。

另外有个问题,就是还是那个链接,用户1他的整个div ...

前面的确实没有链接,只有抓下来入到excel后,用一个函数生成链接
举报 使用道具
9#
llssyy 初级会员 发表于 2016-4-24 14:41:44 | 只看该作者
Fuller 发表于 2016-4-23 23:43
前面的确实没有链接,只有抓下来入到excel后,用一个函数生成链接

哦哦,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-13 11:24