Web信息提取

百度提取到第二页就停止，腾讯地图都是javascript:void(0)怎么提取

Wed, 11/26/2014 - 08:44 — gthinker

1.百度提取到第二页就停止，例：city8-汽车用品商行批发
百度搜索结果，marker线索记号值是下一页>。后来我部分匹配成下一页，也只能搜索到第二页。好像到第二页也是java形式
2.腾讯地图都是JAVA怎么提取
在腾讯地图里搜索的结果都是javascript:void(0) 怎么提取。
http://map.qq.com/

3.还有登陆我们网站，和发表文章的验证码太难输正确。

Web信息提取

Login to post comments

tmall商品的交易记录，现在又多了一个“查看更多历史记录”，怎么处理？

Tue, 11/18/2014 - 17:44 — hustszh

tmall商品的交易记录，现在又多了一个“查看更多历史记录”，必须点击它之后，才能看到更多的历史交易记录，像这种情况，应该怎么处理呢？有没有相关的案例可以参考一下？谢谢。

Web信息提取

2 comments

同一个主题可以对结构相同的两个网页提取信息吗？

Tue, 11/18/2014 - 16:07 — hustszh

我创建了一个主题为：szh_demo_tmaill_history，对http://detail.tmall.com/item.htm?id=36470320710中的交易记录进行提取。交易记录基本上都能提取出来，现在我想利用这个主题对http://detail.tmall.com/item.htm?id=36458766723这个网页也提取交易记录，网页结构都是类似的，应该怎样操作呢？
我把网页地址替换之后，之前定义的freeform和clue等信息都没有了。

Web信息提取

1 comment

求教层级不定的js目录树抓取方法

Fri, 11/14/2014 - 10:59 — sojod

老大，我的目标网站主体是两个DIV，左侧DIV中是js控制的目录树，点击父目录前的+号展开，层级不定。右侧DIV中显示点击目录树节点时对应的内容。

我研究了一下帮助文档中的多级目录和模拟点击，没有想出抓取上述动态目录树且层级不定的方法。

求赐教

Web信息提取

Login to post comments

Fuller老大，我的MetaStudio和DataScraper无法登陆

Tue, 11/11/2014 - 22:52 — hwhwhwzsh

Fuller老大，我的MetaStudio和DataScraper今天下午突然链接补上服务器，请帮忙看下！
另外，请问老大，在线收费版的费用及功能情况如何？谢谢！

Web信息提取

3 comments

Fuller大神，能否抓取新浪微博中每条微博发布者的关注数、粉丝数、微博数

Thu, 11/06/2014 - 21:52 — hwhwhwzsh

Fuller大神，在新浪微博中，每条微博发布者的关注数、粉丝数、微博数并不在搜索结果中直接显示，而是需要鼠标停留在微博发布者的名字上才能显示出来，请问能否有办法进行抓取？拜谢！！！

Web信息提取

1 comment

新浪微博的转发数和评论数的class值和结构基本一样，请问，有什么方法可以解决这个问题吗？谢谢

Wed, 11/05/2014 - 23:02 — hwhwhwzsh

老大！我在做新浪微博数据抓取时，发现新浪微博的转发数和评论数的class值和结构基本一样，请问，有什么方法可以解决这个问题吗？谢谢！

Web信息提取

1 comment

请老大帮忙看看信息结构和信息提取指令文件（主题名：福喜-新浪微博，用户：hwhwhwzsh）的问题

Mon, 11/03/2014 - 22:02 — hwhwhwzsh

老大好！我针对新浪微博做了一个信息结构和信息提取指令文件，已上传，但在测试时报错：“Exception caught: msg=Component returned failure code: 0x80600001 [nsIXSLTProcessor.importStylesheet] Transforming for FF”，麻烦老大帮忙看看问题在哪。
具体地，我是用账号登陆了新浪微博后，通过搜索关键词搜索新浪微博，获得搜索结果。然后我想把搜索结果的相关内容搜集下来，但是报错了。
非常感谢！