目录
- 快捷采集
- 初级教程(新版)
- 初级教程(老版)
- 数据转Excel处理
- 爬虫规则管理
- 高级教程(新版)
- 高级教程(老版)
- 用爬虫群分布式高效采集
- 爬虫关键知识拓展
- 问题集锦
- 实战演练案例
- 爬虫安装说明
- 关于集搜客
集搜客交流群
2000人群:点击加入
如何定位Citation
如何定位Ciatition这个数字(需要用Xpath进行定位) 而且有的文章里有,有的文章里没有这个数值 示例网址:[url]https://www.nature.com/articles/ncomms15516[/url] class定位不精确
新手求指教如何定位抓取
请问像图片中这种只抓取四个选择中项目当前所处阶段如何抓取
相同class定位兄弟节点,如何定位抓取整个DIV
只有里面黄色部分不相同,我要把整个DIV抓取文本,不定位或者定位class会导致数据一样 网址 [url]http
如何取消自动爬虫
每次打开打数机就自动调出很多个窗口,又要自己一个个关掉,好烦
如何输入定位表达式?
样本地址:http://china.nba.com/statistics/teamstats/ 需要输出每一年球队的数据 有提交按钮 [attach]2247[/attach]
两个一样的class 该如何定位
两个一样的class 该如何定位
如何根据class定位自动选择要抓取的内容
如图,想抓取每个页面对应的批次,怎样内容映射和定位映射?定位映射试过只用class和偏好class,都不行,用哪个#text做的内容映射所有结果就都是这同一个。
同级同类table,如何定位到第一个
[i=s] 本帖最后由 johnHu 于 2017-9-24 14:49 编辑 [/i] T
下拉框如何定位当前选中的option呢?
下拉框如何定位当前选中的option呢 ?
在一个text()里的信息如何分开定位?
在一个text()里的信息如何分开定位?
如何在网页上精确定位详细内容
用直观标注点点点之后会不会到了其他页面就不适用了
目标信息无法精确定位如何解决
spm=0.0.0.0.URhL1N[/url]页面 导航内 联系方式的链接作为下级线索 目前思路: 规则一、列表抓取线索一获得公司首页链接作为下级线索一 规则二、在线索页面 获得联系方式模块的链接作为下级线索 规则三、在页面抓取需要信息。目前问题: 规则二:阿里的导航设置有一定的自定义,部分商家的 联系方式模块并不在导航内的第5个位置。有些在第四个、有些在最后、有些没有联系方式 这个问题在规则三也会出现,可以如何解决?
结构不同使用自定义xpath定位时该如何操作
如图所示,我用class定位和#text定位都不能准确采到{联系方式}的链接,求大家给我看看怎么操作的,而且用#text定位测试时会提示确认xpath的正确性,第一次使用高级设置,感谢各位指点,拜谢
如何定时抓取数据?
[i=s] 本帖最后由 wangyong 于 2015-9-7 11:39 编辑 [/i] 怎样定时抓取数据?
如何准确采集网页上指定位置的内容。
比如,网页上有text值为 ” 来源:搜狐网“,如何只抓取到 “搜狐网”。