微軟的高級安全項目經理Scott Christiansen,大量的半策展(semi-curated)數據非常適合機器學習。自2001年以來,微軟已經收集了1300萬個工作項目和BUG。
Christiansen表示:“我們利用這些數據開發了一個流程和機器學習模型,它能在99%的時間內正確區分出安全和非安全漏洞,并能準確識別出關鍵的、高優先級的安全漏洞,97%的時間內準確識別出關鍵的、高優先級的安全漏洞。”
微軟構建的機器學習模型中,旨在幫助開發者準確識別和優先處理需要修復的關鍵安全問題,并對其進行優先級排序。Christiansen表示:“我們的目標是建立一個機器學習系統,以盡可能接近安全專家的準確度將BUG分為安全/非安全和關鍵/非關鍵”。
為了實現這個目標,微軟對學習模型進行了諸多培訓,提供了很多標記為安全的BUG以及其他標記為不安全的BUG。該模型經過訓練之后,能夠基于掌握的信息來給沒有被預先分類的數據打上標簽。