管理數據生命周期是自動駕駛汽車開發的關鍵部分……
毫無疑問,自動駕駛汽車開發成為熱門話題。完全無人駕駛的想法標志著機器人時代最激進的概念之一。不僅需要正確的技術來實施,而且所有使用道路以及參與道路和交通管理的人的思維方式都將發生重大變化。當然,安全是主要的考慮因素,這就是為什么一旦發生事故便成為頭條新聞。
然而,在大家爭論和不斷涌現的頭條新聞的背后,是另一個經常被忽視的故事:自動駕駛汽車成功地融入城市和社會很大程度上依賴于數據。實際上,從自動測試車輛收集的數據,為“訓練”車輛通過諸如機器學習(ML)之類的技術自動執行提供了基礎。
具有挑戰性的用例
鑒于操作車輛要面對的大量真實世界變量以及針對錯誤安全要求的相關零容忍度,自動駕駛是可想象的最具挑戰性的機器學習用例之一。該應用的成功將直接推動更多要求不高的用例,這就是為什么自動駕駛汽車的發展在許多不同領域(尤其是智慧城市)具有影響的原因。
從自動駕駛汽車的角度來看,關鍵的機器學習需求涉及訓練“感知層”,這意味著使用傳感器(無線電、攝像機、激光雷達、慣性測量單元等)來準確“查看”車輛遇到的狀況。這是至關重要的,因為采取的任何措施(例如指示車輛進行路徑調整)都將取決于準確的感知層視覺。
自動駕駛開發可能會驅動未來用例的原因之一是,訓練該重要感知層的機器學習模型和神經網絡在種類繁多的大型數據集上表現最佳。而自動駕駛汽車則依賴于龐大的數據集。此外,它還依賴于傳統的汽車工程專業知識,但是制造自動駕駛汽車所需的平均數據量估計約為150 PB。簡而言之,這既是數據分析又是機器學習的挑戰,而不僅僅是機械工程方面的挑戰。
需要收集和處理的數據量需要高級的數據管理功能,包括數據湖和對數據生命周期的清晰理解。未來的用例不僅取決于對數據管理和處理的理解,還取決于數據可以帶來的機會。
從歷史上看,由于與管理生命周期本身相關的工作量、成本和時間,分散的數據管理生命周期限制了擴展新用例的能力。通過優化生命周期,可以更快、更頻繁地重復它,從而提供對機器學習模型的持續改進。
共同努力
為此,汽車制造商、城市和其他利益相關者必須共同努力,并在瞬息萬變的環境中利用最新的硬件和軟件技術。掌握物聯網和機器學習數據分析生命周期所需的功能超出了任何一家公司的范圍。因此,基于標準和合作伙伴基于生態系統的方法對于鞏固真正轉變智慧城市和互聯社區的能力至關重要。
這種合作水平對于建立解決方案至關重要,因為聯合項目會同時產生標準和可重復使用的模式。作為最近的一個例子,Cloudera參與了一項名為Project Fusion的計劃,該計劃是一個多方汽車行業技術合作,旨在定義一個數據生命周期平臺,以啟用和優化未來的互聯和自動駕駛汽車系統。合作伙伴的目標是構建一種提供數據管理技術的車輛到云解決方案。
共同努力還將確保在自動駕駛汽車開發中最大程度地利用大數據和機器學習的其他一些障礙,并且可以解決其他用例。需要從系統中消除浪費和低效率,以減少管理生命周期的成本和時間。
至關重要的是,必須面對潛在的數據隱私問題。如前所述,對自動駕駛汽車進行駕駛訓練取決于現實世界中記錄的訓練數據。因此,解決方案提供商必須注意不要收集和存儲私人信息,例如駕駛員的臉孔和車牌號。
在收集和存儲此信息之前,必須提供編輯這些信息的功能。這需要強大的數據處理能力來識別和過濾隱私數據。此外,收集的任何信息都必須遵守諸如歐盟的《通用數據保護條例》和美國的《加州消費者隱私法》之類的規定。
實時決策
機器學習對于幫助城市、技術供應商和其他利益相關者超越簡單的監視和報告來自傳感器和其他設備的數據,進而基于其做出優化的實時決策至關重要。以運輸為例。
監視交通狀況并報告擁堵正在發生這一事實是一回事,但利用機器學習通過建議主動地引導市民(例如建議替代路線或主動建議出行者在不同時間出行)是一種更具吸引力的價值主張。使用機器學習,這些可以既基于實時條件又可以基于過去的經驗。
我們所知道的是,自動駕駛可以教會我們很多有關機器學習的潛力,并引導我們開發許多新應用
主動、優化和實時的決策是機器學習優勢的標志,而我們才剛剛開始。關于機器學習的潛力,我們還有很多要學習的東西,并且它的許多未來用例超出了我們當前的想象。
我們所知道的是,自動駕駛可以向我們教會很多有關其潛力的知識,并引導我們走向許多新的應用領域。我們需要確保的基礎和生態系統已經到位,以了解高級數據管理和數據生命周期的重要性,從而不會錯過任何機會。