物聯(lián)網(wǎng)世界中的自適應(yīng)采樣
這些設(shè)備可以是任何東西,從工業(yè)機械監(jiān)控、天氣和空氣質(zhì)量監(jiān)控系統(tǒng)、安全攝像頭到智能恒溫器和冰箱,再到可穿戴健身追蹤器。隨著物聯(lián)網(wǎng)設(shè)備數(shù)量的增加,它們生成的數(shù)據(jù)量也在增加。這種數(shù)據(jù)的典型應(yīng)用是提高被監(jiān)控系統(tǒng)的性能和效率,并深入了解用戶的行為和偏好。
然而,龐大的數(shù)據(jù)量使得收集和分析這些數(shù)據(jù)具有挑戰(zhàn)性。此外,大量數(shù)據(jù)可能會淹沒通信信道以及邊緣設(shè)備上有限的功率和處理量。這就是自適應(yīng)采樣技術(shù)發(fā)揮作用的地方。這些技術(shù)可以減少工作量,最大化資源利用率要求,并提高數(shù)據(jù)的準(zhǔn)確性和可靠性。
適應(yīng)性抽樣
自適應(yīng)采樣技術(shù)根據(jù)器件的特定需求或目標(biāo)系統(tǒng)的變化來“調(diào)整”采樣或傳輸頻率。例如,假設(shè)一臺設(shè)備使用有限的數(shù)據(jù)計劃、低功耗電池或計算受限平臺。
示例:
- 當(dāng)溫度快速變化時,溫度監(jiān)控傳感器可以更頻繁地收集數(shù)據(jù),而當(dāng)溫度保持穩(wěn)定時,可以不太頻繁地收集數(shù)據(jù)。
- 當(dāng)視野中有活動時,安全攝像機以更快的幀速率或更高的分辨率捕捉圖像。
- 當(dāng)空氣顆粒測量儀發(fā)現(xiàn)空氣質(zhì)量惡化時,它會提高采樣速率。
- 自動駕駛汽車不斷感知環(huán)境,但可能會將特殊的邊緣情況發(fā)送回中央服務(wù)器,以便發(fā)現(xiàn)邊緣情況。
取樣的內(nèi)容和地點
您對資源利用率的預(yù)期改進(jìn)將指導(dǎo)我們在何處以及何處進(jìn)行采樣。有兩個實施采樣的站點:At尺寸或者播送.
測量時取樣:
- 邊緣設(shè)備將僅在算法(運行在邊緣設(shè)備或服務(wù)器上)認(rèn)為合適時進(jìn)行測量(或更新測量頻率)。
- 降低功耗和計算量。
- 定期提高網(wǎng)絡(luò)帶寬利用率。
傳輸時采樣:
- 邊緣設(shè)備持續(xù)進(jìn)行測量,并使用本地運行的某種算法進(jìn)行處理。如果樣本是高熵的,上傳數(shù)據(jù)到云/服務(wù)器。
- 測量時的功率和計算不受影響。
- 降低網(wǎng)絡(luò)帶寬利用率。
- 識別重要和有用的數(shù)據(jù)
我們經(jīng)常聽到“數(shù)據(jù)、數(shù)據(jù)、數(shù)據(jù)”這個詞但是所有的數(shù)據(jù)都是平等的嗎?不完全是。當(dāng)數(shù)據(jù)帶來信息時,它是最有用的。這是真的,甚至對于大數(shù)據(jù)公認(rèn)的數(shù)據(jù)饑渴型應(yīng)用程序。舉個例子,機器學(xué)習(xí)和統(tǒng)計系統(tǒng)都需要“高質(zhì)量”的數(shù)據(jù),而不僅僅是大量數(shù)據(jù)。
那么我們?nèi)绾握业礁哔|(zhì)量的數(shù)據(jù)呢?熵!
熵
熵是不確定度的測量在系統(tǒng)中。用更直觀的解釋,熵是系統(tǒng)中“信息”的度量。例如,具有恒定值或恒定變化率(比如溫度)的系統(tǒng)。在最佳工作條件下,沒有新的信息。每次取樣時,您都會得到預(yù)期的測量值;這就是低熵。
另一方面,如果溫度“嘈雜地”或“出乎意料地”變化,系統(tǒng)中的熵就高;有新的有趣的信息。變化越出人意料,熵就越大,這個度量就越重要。
當(dāng)出現(xiàn)概率‘p(x)’較低時,熵較高,反之亦然。測量概率為1(我們真的期望會發(fā)生的事情)產(chǎn)生0熵,這是正確的。
這一原則“信息價值”是自適應(yīng)采樣的核心。
一些先進(jìn)的技術(shù)
所有自適應(yīng)技術(shù)的基本邏輯流程是:
自適應(yīng)濾波方法:
這些方法對測量值應(yīng)用濾波技術(shù),以估計下一時間步的測量值。
這些可能是FIR(有限脈沖響應(yīng))或IIR(無限脈沖響應(yīng))技術(shù),如:
- 加權(quán)移動平均(通過概率或指數(shù)處理可以更有表現(xiàn)力)
- 基于滑動窗口的方法
- 它們的復(fù)雜度相對較低,但是可能具有重要的內(nèi)存占用來緩沖過去的測量。
- 需要少量數(shù)據(jù)進(jìn)行配置。
卡爾曼濾波方法:
- 卡爾曼濾波器效率高,占用內(nèi)存少。
- 它們可能相對復(fù)雜且難以配置,但如果調(diào)整得當(dāng),效果會很好。
- 需要少量數(shù)據(jù)進(jìn)行配置。
機器學(xué)習(xí)方法:
- 利用過去收集的數(shù)據(jù),我們可以建立機器學(xué)習(xí)模型來預(yù)測被觀察系統(tǒng)的下一個狀態(tài)。
- 這些更復(fù)雜,但也概括得很好。
- 根據(jù)任務(wù)和復(fù)雜程度,訓(xùn)練可能需要大量數(shù)據(jù)。
主要優(yōu)勢
- 提高效率:通過從可用數(shù)據(jù)的子集收集和分析數(shù)據(jù),物聯(lián)網(wǎng)設(shè)備可以減少工作負(fù)載和資源需求。這有助于提高效率和性能,并降低數(shù)據(jù)收集、分析和存儲成本。
- 更高的精度:通過選擇最有可能提供最有價值或信息量最大的數(shù)據(jù)源,自適應(yīng)采樣技術(shù)有助于提高數(shù)據(jù)的準(zhǔn)確性和可靠性。這對于根據(jù)數(shù)據(jù)做出決策或采取行動特別有用。
- 更大的靈活性:自適應(yīng)采樣技術(shù)允許物聯(lián)網(wǎng)設(shè)備適應(yīng)數(shù)據(jù)源或數(shù)據(jù)本身的變化。這對于部署在動態(tài)或不斷變化的環(huán)境中的設(shè)備尤其有用,在這些環(huán)境中,數(shù)據(jù)可能會隨時間而變化。
- 降低后處理復(fù)雜性:通過從可用數(shù)據(jù)源的子集收集和分析數(shù)據(jù),自適應(yīng)采樣技術(shù)有助于降低數(shù)據(jù)的復(fù)雜性,使其更易于理解和分析。這對于處理能力或存儲容量有限的設(shè)備或團隊來說尤其有用數(shù)據(jù)科學(xué)/工程資源。
潛在的限制
- 選擇偏差:通過選擇數(shù)據(jù)的子集,自適應(yīng)采樣技術(shù)可能將選擇偏差引入數(shù)據(jù)。如果模型和系統(tǒng)是針對特定類型的數(shù)據(jù)進(jìn)行訓(xùn)練的,而這些數(shù)據(jù)并不代表整個數(shù)據(jù)群體,則會出現(xiàn)這種情況,從而導(dǎo)致不準(zhǔn)確或不可靠的結(jié)論。
- 采樣誤差:取樣過程中存在出錯的風(fēng)險,這會影響數(shù)據(jù)的準(zhǔn)確性和可靠性。這些錯誤可能是由于不正確的采樣程序、樣本量不足或非最佳配置造成的。
- 資源限制:自適應(yīng)采樣技術(shù)可能需要額外的處理能力、存儲容量或帶寬,而這些可能并非所有技術(shù)都具備物聯(lián)網(wǎng)設(shè)備。這可能會限制特定設(shè)備或特定環(huán)境中的自適應(yīng)采樣技術(shù)。
- 運行時復(fù)雜性:自適應(yīng)采樣技術(shù)可能涉及機器學(xué)習(xí)算法或其他復(fù)雜過程的使用,這會增加數(shù)據(jù)收集和分析過程的復(fù)雜性。對于處理能力或存儲容量有限的設(shè)備來說,這可能是一個挑戰(zhàn)。
變通辦法
- 分階段部署:不要在所有設(shè)備上部署抽樣方案,而是在小型但有代表性的測試組上部署。然后,來自這些組的“采樣”數(shù)據(jù)可以針對更廣泛的數(shù)據(jù)集進(jìn)行分析,以發(fā)現(xiàn)偏差和域不匹配。同樣,這可以分階段反復(fù)完成,確保我們的系統(tǒng)永遠(yuǎn)不會有很大偏差。
- 取樣技術(shù)的組合:不同的器件可以配備略有不同的采樣技術(shù),從樣本大小和窗口到不同的算法。當(dāng)然,這增加了后處理的復(fù)雜性,但它考慮了采樣誤差和選擇偏差。
- 資源約束和運行時復(fù)雜性很難緩解。不幸的是,這是實現(xiàn)更好的采樣技術(shù)的代價。
- 最后,測試,測試,更多的測試。