3 月 19 日消息,IT之家從中國信通院官方微信公眾號獲悉,為摸清大模型的幻覺現(xiàn)狀,推動大模型應(yīng)用走深走實,中國信息通信研究院人工智能所基于前期的 AI Safety Benchmark 測評工作,發(fā)起大模型幻覺測試。
大模型幻覺(AI Hallucination)是指模型在生成內(nèi)容或回答問題時,產(chǎn)生了看似合理,實則與用戶輸入不一致(忠實性幻覺)或者不符合事實(事實性幻覺)的內(nèi)容。隨著大模型在醫(yī)療、金融等關(guān)鍵領(lǐng)域廣泛應(yīng)用,大模型幻覺帶來的潛在應(yīng)用風險日益加劇,正得到業(yè)界的廣泛關(guān)注。
本輪幻覺測試工作將以大語言模型為測試對象,涵蓋了事實性幻覺和忠實性幻覺兩種幻覺類型,具體測評體系如下:
測試數(shù)據(jù)包含 7000 余條中文測試樣本,測試形式包括對應(yīng)于忠實性幻覺檢測的信息抽取與知識推理兩類題型,以及對應(yīng)事實性幻覺檢測的事實判別題型??傮w涉及人文科學(xué)、社會科學(xué)、自然科學(xué)、應(yīng)用科學(xué)和形式科學(xué)五種測試維度。
中國信通院邀請各相關(guān)企業(yè)參與模型測評,共同推動大模型安全應(yīng)用。