Web信息提取

只能显示前N页的数据该怎么爬

这个网站

http://www.landchina.com/default.aspx?tabid=263&ComName=default

毫无思路求指点,大谢!

有关微博抓取的几个问题

在抓取微博的时候,按照相关规则进行内容映射和线索映射后,可以一次抓取40页左右的微博。遇到几个问题想请教:

1.按照规则定义,但是每次抓取的微博都存在内容不全的问题,尝试过很多定义的方法效果却不是很好,有无好的解决方法?

2.翻页抓取,总会碰到微博的小机器人,输完验证码后就无法再抓取了,如何解决 ?

3.如何在metastudio中调取之前定义好的主题呢,想修改之前的抓取规则……?

多次模拟点击问题

请问 多次模拟点击问题该如何解决。
网址:http://jp101.ys168.com/
我定义的主题:test_mm_1和test_mm_2,只能抓取到第一行的内容

怎样获得淘宝评论第2个主题的结果????

你好,我按上面的方法一步步配置,在dataSceaper运行第一个主题时,发现浏览器的确是在不断翻页抓取结果的,抓取完成后,我就到本地的DataScraperWorks文件夹下,只见到一个xml文件,然后我打开后发现里面只有第一个主题的内容结果,只有标题价格等。但第2个主题的评论信息完全看不到?请问第2个主题的结果应该怎样找到呢?我是菜鸟,希望大神能详细一点解答,谢谢您!

网站ajax数据包抓取问题

想抓取下面这个网站的数据包链接:
http://jp101.ys168.com/

但是因为ajax的关系,不知道如何设置线索,各位有什么好的建议吗?

提取信息翻页问题,属性是onclick="getnextquestion(this)" href="javascript:;"怎么实现翻页

提取信息翻页问题,属性是onclick="getnextquestion(this)" href="javascript:;"怎么实现翻页

提取网址:http://m.jxedt.com/mnks/chapter.asp?type=c&chapter=1

我建立的规则名字:jiaxiao

谢谢!

Datascraper使用时遇到问题

您好,我在抓取线索的时候 提示 the URL of the inthread clue is same as the current Stopped 这是什么原因呢?只抓取了2个数据 我的主题是京东乐视S50评价 麻烦您看一下吧 谢谢!

微博信息抓取翻页问题

Fuller大神:
你好!最近在搜集新浪微博时遇到了翻页的问题,坛子里也有很多教程,但是发现都不适合,都无法完成翻页。
目标页面:http://weibo.com/1764570453/B30DgfXaC?type=repost
主题名是:G1
采用了延长模式 和 积极模式
试了几种方法问题如下:
1、设置线索为偏好ID
问题:翻到第二页就停止了 等了很久出现timeout
2、设置偏好CLASS
问题:翻来翻去都是第1页

求教大神如何解决。

都是table怎么定义Freeformat

http://hongkong.mingluji.com/Footwear需要提取改网站的url,但是它处在table中无法定义freeformat,怎么才能提出其中信息的url?

二级抓取中的第一级抓取问题

主题:实验_1_1
为什么抓不到所有的url只能抓到对称的两个?

Syndicate content