Web信息提取

帮忙看看这个信息结构

京苏大战

请问这个问题怎么解决?

kaidi_demoagain
是这个schema,抓凯迪社区的帖子,因为第一页和和以后几页的样式不一样,所以就在同一主题下做了两个,一个的辅名是default,一个辅名是second,他们分别抓数据的时候挺好的,但是一起使用的时候就不行了,就翻到第二页就不行了。

但我之前用辅名为second的抓,它一直抓到最后一页。

我想请教,是在第二页的时候,同一主题下的两个辅名不同的schema之间的转化出问题了?那么,怎么解决,能否帮忙检查一下这个schema?

怎么设置crontab使抓数据时在同一主题下的不同schema下自由转换?

请教。
怎么更改crontab文件?感觉不是会出现时间不够,导致来不及在不同schema之间转换?
谢谢!!

用info翻页出现跳页现象

hammerlet_fanri_kaidi
是这个schema
我用info的线索来翻页,就是把下一页的href当做info来翻页,
但是一翻页,开始开好好的,但翻了几页,就开始从第10页跳过中间几页,翻到15页,又跳过中间的翻到20页。
请问这是怎么回事呢?

帮忙看看这个信息结构为什么不好用

我要抓新浪微博的内容和评论
主题名为ML
看看为什么不好用

这个schema为啥使不了。。。

hammerlet_anti_qiangguo_post
是这个,很奇怪,当我以一个样本来试的时候,一切正常,但是当我用它的上一层后去线索之后,就不行了。
我感觉是要想是datascraper设置的问题。
之前我取消普通模式,他就只能抓一页上的某几条,当我使用普通模式,他就可以了。
但是现在使用普通模式,当她的线索数是400多的时候,就不能用了。。很奇怪。。。
求指教!

新浪微博数据抓取问题

我想要抓取微博的内容和它的评论内容
我定义了2个结构
weibo 用来抓微博内容,设置了maker线索1用来翻页,maker线索2用来模拟点击评论
weibo_1用来抓评论,设置了maker线索1用来翻页
可是为什么就抓了一页微博内容下来,评论一个都没有呢?

能帮忙看下这个结构吗?

hammerlet_anti_qiangguo_post1
这个结构每个页面总是要抓两次。。。。
因为我对title,subforum,reply 和click没有勾选key,因为在第二页第三页就没有这些对应项。但是现在的情况是,它要每页都要抓两边,一次是显示这四项的,第二次是不显示这四项的。
该怎么办呢?
请指教!
谢谢!

还有这个结构也很奇怪,他翻页但不抓第二页

名字是这个:hammerlet_anti_qiangguo_post2
最开始第一页也抓不全,我用了普通模式之后第一页可以抓全了。
但是第二页它就不抓了,既然能到第二页,翻页是没有问题的,请问为什么它第二页就不抓了呢?
谢谢!

能否帮我查一下这个信息结构的问题吗?

是这个:hammerlet_anti_qiangguo_post1
很奇怪,我在metastudio里面map的时候,content一项还能出来,而且能把第一页的都抓了。
但是,用datacraper出来三个问题:
1.它只能抓四个,而第一页有19个。
2.content一项都没有,都没抓到,很奇怪。
3.不能翻页。
请问是怎么回事呢?
谢谢!!

Syndicate content