初探AIoT中的機器學習(II)
- CRM PIMQ
- 2024年3月14日
- 讀畢需時 4 分鐘
已更新:2024年8月5日
在近五年機器學習(machine learning)在人工智慧領域的許多應用中取得巨大的成果,包含影像辨識到自然語言處理。

在初探AIoT中的機器學習(I)中談完機器學習中的方法論,接著我們將探討機器學習在AIoT裡面最核心的兩大任務,迴歸任務(Regression Task)及分類任務(Classification Task)。
迴歸任務(Regression Task)
迴歸分析其實是一種統計學經典的數據分析方法,主要用於建立模型,釐清兩個或多個變數間的相關性,利用回歸模型我們可以在給定自變數的情況下,去推論其他應變數的變化量。這類方法在19世紀就已經有初步的框架,但隨著機器學習乃至深度學習的技術發展,我們利用迭代方法(iterative method),可以更有效率的去分析非常複雜的變數們之間的關係,以及建立對應的模型。以空氣品質預測為例子,我們可以利用過去24小時的空氣污染指標(AQI),單變數去預測說在接下來4小時內指標的變化程度,另外一方面,我們以可以經由多個變數,例如過去24小時內我的污染物檢測,如:H2O、SO2與CH4等,去預測接下來的空氣無染指數的變化。基本上迴歸分析的精神就是找到各數值之間高度相關的組合,利用這些組合去做預測,這類模型也常被應用在金融市場,如:期貨價格。
但回到AIoT領域,這樣的迴歸分析技術除了用於預測未來數值外,還可以用於哪些地方呢?
在AIoT領域中,迴歸分析技術可以被用於哪些地方?
遺失值估計(Missing Value Filling):在物聯網端串流服務(IoT Streaming Service),可能存在於網路品質不穩定導致部分的感應器(Sensor Node)的資料在伺服器端是遺失的,這時候就可以利用回歸模型,將與遺失的資料高度相關的參數利用回歸分析來推論及補上遺失的資料作為後續應用。

異常值偵測(Anomaly Detection):當擁有一個具有充分統計性質的迴歸模型,我們就可以用來檢測不符合特定模式的點,具體來說,我們的模型可以利用過去30分鐘的電力數據,精準的預測接下來5分鐘的電壓,那我們的模型就可以不斷地去預測未來一分鐘電壓,再去比較實際上接收到的值,若預測與誤差太大,代表此時收到的資料與過去的模式不符,即為異常值。

關鍵因子分析(Key Factor Analysis):我們也可以近一步去利用回歸模型,去找到對於關鍵指標有重大影響的因子,例如在做良率控制方面,經由建立良率的回歸分析模型,我們可以去找到高度相關的參數,如壓力、溫度等,在後續的管理針對對應的參數重點分析。

當然這邊值得注意的是,我們對於回歸模型的穩定性以及準確度是有一定程度的要求,若使用無相關的資料進行迴歸分析是不會有意義的。
分類任務(Classification Task)
回歸分析的目標在在給定過去數值的情況下去估計數值之間的關聯性,當收集到新的資訊利用過去收集到的資料去推論對應的數值,在分類任務中,除了學習數據之間的關聯性來預測數值外,最大的不同是模型需要額外學習一個閥值(threshold),用這個閥值來判斷該筆資料是否屬於該個類別,以機台溫度預測模型為例,回歸任務的目標是推測資料的值(300度),但分類任務需要進一步的預測這個數值是否超過閥值(250度),而在更高維度資料裡面,對於各個資料維度所須要的閥值會被稱為決策邊界(decision boundary),來區隔不同類別的資料。但要如何有效率學習這個邊界呢,這裡就會談到分類任務最大的挑戰,輸出的離散化(0/1),然而直接輸出離散化的資料是非常困難的,因此機器學習會將分類問題的目標訂為該筆資料屬於這個類別的機率,再利用這個機率數值的大小進行分類。
在AIoT領域中,分類技術可以被用於哪些地方?
二分類任務:二分類任務是指具有兩個類別標籤分類任務,常用於涉及一個屬於正常狀態的類和另一個屬於異常狀態的類。例如,機台異常的預測,而除了判斷異常這種分類外,輸出的機率值也可以應用於健康度,風險係數等。

多分類任務:與二分類不同,多類別分類沒有正常和異常結果的概念。相反,示例被分類爲屬於一系列已知類別中的一個,舉例來說,除了預測機台狀況外,可以進一步的用於異常狀況等原因分析,例如:馬達過熱或是震動異常等。

多標籤任務:多標籤任務再更進一步,在一筆資料上提供多個標註,例如,造成機台異常的情形往往有多個部件異常組成,利用多標籤預測技術就,可以不受前兩者任務只輸出唯一一個標籤的限制,提供使用者更完整的資訊。

機器學習中的問題與挑戰
在實務上AIoT中的機器學習往往會遇到很嚴重的資料稀疏問題,舉例來說相對於正常資料,異常資料的比數是非常稀疏的,而在如此稀疏的資料情況下要獲取標籤成本是非常高的,常見作法會使用如:資料增補(data augmentaion)以及偽標籤(Pseudo lable)技術,來有效率的利用有限資料,但這些技術在標籤非常稀少的時候,很容易造成模型過擬合(overfitting),使模型性能下降。此時,就需要 PIMQ 協助企業導入智能系統,收集工廠數據,並結合『虛擬領班』功能,可以在少量的資料情況向,近一步去分析標籤與標籤的關係,來提升分類的準確度。

下回,我們將會簡介一下工業界在實務上部署模型的方法ー線上學習(Online Learning)。鎖定PIMQ知識小學堂,準時開課!