52 52840

泰國網頁資訊爬取問題

Wei_AA25 于 2020-9-22 10:22 发表 [复制链接]
知网期刊 新手上路 发表于 2020-9-25 17:47:50 | 显示全部楼层
Wei_AA25 发表于 2020-9-25 17:09
您好:

我今天一整天試下來

你的两级规则分别是什么?

举报 使用道具
Wei_AA25 中级会员 发表于 2020-9-28 09:11:56 | 显示全部楼层
知网期刊 发表于 2020-9-25 17:47
你的两级规则分别是什么?

第一級規則是設定我要抓的資訊
第二級規則就是做連續動作
點擊後會跳出第二個第三個...等資料的詳細資訊
举报 使用道具
Wei_AA25 中级会员 发表于 2020-9-28 10:54:53 | 显示全部楼层
知网期刊 发表于 2020-9-25 17:47
你的两级规则分别是什么?

以下附圖是我目前做的
我目前所做得規則第一層只能抓到前面兩筆
第二層只能抓第一筆顯示的資料

再麻煩大神救救


點擊回到第一層接下去

點擊回到第一層接下去

第二層需要抓取的資料

第二層需要抓取的資料

第二層

第二層

第一層的連續動作

第一層的連續動作

第一層需要翻頁

第一層需要翻頁

第一層隨便抓的資訊

第一層隨便抓的資訊

第一層:Thai

第一層:Thai
举报 使用道具
wangyong 版主 发表于 2020-9-28 11:33:37 | 显示全部楼层
Wei_AA25 发表于 2020-9-28 10:54
以下附圖是我目前做的
我目前所做得規則第一層只能抓到前面兩筆
第二層只能抓第一筆顯示的資料

规则要做两点修改
1,第二级规则不需要做连续动作,需要删除
2,第二级规则里的抓取内容都需要做上定位标志映射,整理箱顶节点一定得做上定位标志映射。然后选择偏好class,定位标志教程:https://www.gooseeker.com/doc/article-344-1.html
QQ截图20200928113216.png
QQ截图20200928113226.png
举报 使用道具
Wei_AA25 中级会员 发表于 2020-9-28 14:00:27 | 显示全部楼层
wangyong 发表于 2020-9-28 11:33
规则要做两点修改
1,第二级规则不需要做连续动作,需要删除
2,第二级规则里的抓取内容都需要做上定位标 ...

您好!

我使用的網站,定位標誌是一樣的,就選取一樣的就好了嗎 ?

举报 使用道具
知网期刊 新手上路 发表于 2020-9-28 14:43:01 | 显示全部楼层
Wei_AA25 发表于 2020-9-28 14:00
您好!

我使用的網站,定位標誌是一樣的,就選取一樣的就好了嗎 ?

看测试结果是否准确
举报 使用道具
Wei_AA25 中级会员 发表于 2020-9-28 15:12:10 | 显示全部楼层
本帖最后由 Wei_AA25 于 2020-9-28 15:14 编辑
知网期刊 发表于 2020-9-28 14:43
看测试结果是否准确

我在MS裏頭點按測試是可以抓到對的資料
不過我嘗試使用數據管家開始抓數據後
有抓到兩筆詳細資訊
不過這兩筆內容都是第一筆的資訊QQ
後面就沒再抓到資料了
举报 使用道具
知网期刊 新手上路 发表于 2020-9-28 15:31:54 | 显示全部楼层
1,第二级规则不需要做连续动作,需要删除
2,第二级规则里的抓取内容都需要做上定位标志映射,整理箱顶节点一定得做上定位标志映射。然后选择偏好
这两个修改做了吗
举报 使用道具
Wei_AA25 中级会员 发表于 2020-9-28 15:42:42 | 显示全部楼层
知网期刊 发表于 2020-9-28 15:31
1,第二级规则不需要做连续动作,需要删除
2,第二级规则里的抓取内容都需要做上定位标志映射,整理箱顶节 ...

都修改完成了!

擷取.PNG
举报 使用道具
知网期刊 新手上路 发表于 2020-9-28 17:45:20 | 显示全部楼层

QQ截图20200928174448.png
这个采集的时候是不是得登录才行?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 23:32