初探AIoT中的機器學習(III)
- CRM PIMQ
- 2024年3月14日
- 讀畢需時 3 分鐘
已更新:2024年8月5日
在近五年機器學習(machine learning)在人工智慧領域的許多應用中取得巨大的成果,包含影像辨識到自然語言處理。

在了解機器學習中的兩大任務之後,這次我們將會簡介一下工業界在實務上部署模型的方法ー線上學習(Online Learning)。

機器學習(Online Learning)如何運作?
在初探AIoT中的機器學習(I),我們談到訓練機器學習模型最重要的是需要收集到大量的資料,並且根據這些資料不斷地進行迭代後修正來得到最佳的模型,這類方法我們會稱呼他為線下學習(Offline Learning),但是在這種方法往往會遇到模型泛化(generalization)的兩種挑戰,資料分佈的稀疏性(sparsity)以及動態性(dynamic)。
首先,稀疏性是每一個使用機器學習(或者是統計方法)的人都會被問到的一個問題,我到底需要多少資料才可以得到準確且可靠的結果?然而對於訓練資料的理論上的需求往往是遠大於實務上我們能收集到的資料,我們不可能等到資料全部準備好之後才讓服務上線。
而此外我們在實際場域上收集到的資料會是持續變動的,以機台狀況預測為例子,隨著生產產品的改變與設備的老化,其作動行為與收集到的參數是會持續上的變動,因次我們希望我的模型可以能適應這種動態性,所以常常會有人提到我的模型用一用就越來越不準了。

因此線上學習(Online Learning)這項技術目標就是,希望盡可能降低上線前與上線後之間的誤差,這裡有比較直覺的想法是每次拿到新的資料之後,就將整個資料集重新訓練,但這樣的方法隨著資料的累積,往往需要線性增加的大量的訓練時間;而另外一種想法是只針對新的一筆資料進行模型更新,但這樣的方法往往會造成模型過擬合(overfitting)在新的資料上面,甚至導致災難性遺忘(Catastrophic Forgetting),也就是無法預測之前的資料,因此在線上學習領域,如何有效率的利用過去的資料以及學習新的樣本是一個非常重要的問題,以下簡介三種算法:
隨機取樣(Random Sampling):目的在於盡可能的接近全部的資料分佈,因此隨機選取整個的資料集的部分樣本與新收集到的資料一起訓練,但這類的方法通常在面對新的樣本的學習能力較差,因此比較難適應動態的環境。

隊列取樣(Queue-based Sampling):假設資料分佈是持續變動的,模型目標是盡可能的去精準的預測新的資料,因此會按照時間序列排序資料後,模型僅需練在最新的N筆資料,雖然可以有效避免過擬合在單筆資料,但是對於之前的資料準確性難以保證。

查詢選取(Query-based Sampling):設計搜尋規則來決定資料的取樣,例如說希望一次更新中資料的多樣性越高越好,可以去將與新資料類別或是特徵差異度最大的資料一同訓練,反之,也可以去選擇相近的資料,讓模型可以在同一個類別上面多看到幾類的樣本來避免過擬合在單一樣本,但這類方法需要額外計算成本來估算樣本的相關性。

混合取樣、多任務與多模型策略,提升預測能力
因機器學習可能遇到的種種問題導致預測不準確,實務上通常是使用了混合式的取樣方法,來避免單一方法的偏差。而PIMQ智能系統除了利用以上取樣方法外,面對動態的工廠環境,也使用了多任務(muliti-task learning)以及多模型(essemlble learning),透過模型的版本控制,讓預測擁有更好的預測能力。

掌握未來,啟動智慧製造新革命
在這一期「初探AIoT中的機器學習」,我們了解了機器從資料中自動學習的方法論、兩大任務,以及實務方法,想必大家對於機器學習(Online Learning)有更進一步的了解! 這些技術對於優化工廠管理、提升製造業效率等方面有著重要的應用價值。