41#
Wei_AA25 中级会员 发表于 2020-9-28 17:48:47 | 只看该作者
知网期刊 发表于 2020-9-28 17:45
这个采集的时候是不是得登录才行?

是!
不過我在採集的時候都有登入!
這裡提供帳號密碼給您

04360270@me.mcu.edu.tw
weiting1125
举报 使用道具
42#
wangyong 版主 发表于 2020-9-28 18:49:21 | 只看该作者
Wei_AA25 发表于 2020-9-28 17:48
是!
不過我在採集的時候都有登入!
這裡提供帳號密碼給您


这个网页可以不用做连续动作
你把tr下的onclick抓取下来,然后通过Excel可以构造出这种网址来进行层级采集:https://www.dataforthai.com/company/0203541001419/printview

举报 使用道具
43#
Wei_AA25 中级会员 发表于 2020-9-29 09:12:00 | 只看该作者
wangyong 发表于 2020-9-28 18:49
这个网页可以不用做连续动作
你把tr下的onclick抓取下来,然后通过Excel可以构造出这种网址来进行层级采 ...

請問這個有完整的教學嗎 ?
因為我需要採集1萬多筆的資訊XDDD
举报 使用道具
44#
wangyong 版主 发表于 2020-9-29 09:42:38 | 只看该作者
Wei_AA25 发表于 2020-9-29 09:12
請問這個有完整的教學嗎 ?
因為我需要採集1萬多筆的資訊XDDD

就是在第一级做样例复制就能把每个交易的代码给抓取下来
举报 使用道具
45#
Wei_AA25 中级会员 发表于 2020-9-29 09:59:57 | 只看该作者
本帖最后由 Wei_AA25 于 2020-9-29 10:02 编辑
wangyong 发表于 2020-9-29 09:42
就是在第一级做样例复制就能把每个交易的代码给抓取下来

我抓好代碼之後,要如何讓他能夠直接抓代碼內的內容 ?
举报 使用道具
46#
wangyong 版主 发表于 2020-9-29 10:10:52 | 只看该作者
抓好代码之后也要做新的二级规则

https://www.dataforthai.com/company/0203541001419/printview

把代码通过Excel拼凑成新的网址后,按照这个教程:https://www.gooseeker.com/doc/thread-667-1-1.html

把网址添加到二级规则里
举报 使用道具
47#
Wei_AA25 中级会员 发表于 2020-9-29 16:56:47 | 只看该作者

哈囉您好!我將網址抓下來後使用集搜客抓取後,仍然抓不到資訊
是我的規則設定錯誤嗎 ?

第二規則透過另一個網址去抓詳細資料
規則名稱為 :泰國2 及 泰國3
举报 使用道具
48#
小蜜蜂测试162 高级会员 发表于 2020-9-30 09:00:19 | 只看该作者
Wei_AA25 发表于 2020-9-29 16:56
哈囉您好!我將網址抓下來後使用集搜客抓取後,仍然抓不到資訊
是我的規則設定錯誤嗎 ?

你添加的网址发出来看看
举报 使用道具
49#
Wei_AA25 中级会员 发表于 2020-9-30 14:26:09 | 只看该作者
举报 使用道具
50#
wangyong 版主 发表于 2020-9-30 14:42:56 | 只看该作者
Wei_AA25 发表于 2020-9-30 14:26
類似以下
https://www.dataforthai.com/company/0203541001419/printview
https://www.dataforthai.com/c ...

登出是指什么?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 20:22