8 月 5 日消息,國(guó)家安全部微信公眾號(hào)今日發(fā)文稱,當(dāng)前,人工智能已深度融入經(jīng)濟(jì)社會(huì)發(fā)展的方方面面,在深刻改變?nèi)祟惿a(chǎn)生活方式的同時(shí),也成為關(guān)乎高質(zhì)量發(fā)展和高水平安全的關(guān)鍵領(lǐng)域。然而,人工智能的訓(xùn)練數(shù)據(jù)存在良莠不齊的問題,其中不乏虛假信息、虛構(gòu)內(nèi)容和偏見性觀點(diǎn),造成數(shù)據(jù)源污染,給人工智能安全帶來新的挑戰(zhàn)。
文章稱,人工智能的三大核心要素是算法、算力和數(shù)據(jù),其中數(shù)據(jù)是訓(xùn)練 AI 模型的基礎(chǔ)要素,也是 AI 應(yīng)用的核心資源。
提供 AI 模型的原料。海量數(shù)據(jù)為 AI 模型提供了充足的訓(xùn)練素材,使其得以學(xué)習(xí)數(shù)據(jù)的內(nèi)在規(guī)律和模式,實(shí)現(xiàn)語義理解、智能決策和內(nèi)容生成。同時(shí),數(shù)據(jù)也驅(qū)動(dòng)人工智能不斷優(yōu)化性能和精度,實(shí)現(xiàn)模型的迭代升級(jí),以適應(yīng)新需求。
影響 AI 模型的性能。AI 模型對(duì)數(shù)據(jù)的數(shù)量、質(zhì)量及多樣性要求極高。充足的數(shù)據(jù)量是充分訓(xùn)練大規(guī)模模型的前提;高準(zhǔn)確性、完整性和一致性的數(shù)據(jù)能有效避免誤導(dǎo)模型;覆蓋多個(gè)領(lǐng)域的多樣化數(shù)據(jù),則能提升模型應(yīng)對(duì)實(shí)際復(fù)雜場(chǎng)景的能力。
促進(jìn) AI 模型的應(yīng)用。數(shù)據(jù)資源的日益豐富,加速了“人工智能 +”行動(dòng)的落地,有力促進(jìn)了人工智能與經(jīng)濟(jì)社會(huì)各領(lǐng)域的深度融合。這不僅培育和發(fā)展了新質(zhì)生產(chǎn)力,更推動(dòng)我國(guó)科技跨越式發(fā)展、產(chǎn)業(yè)優(yōu)化升級(jí)、生產(chǎn)力整體躍升。
文章稱,高質(zhì)量的數(shù)據(jù)能夠顯著提升模型的準(zhǔn)確性和可靠性,但數(shù)據(jù)一旦受到污染,則可能導(dǎo)致模型決策失誤甚至 AI 系統(tǒng)失效,存在一定的安全隱患。
投放有害內(nèi)容。通過篡改、虛構(gòu)和重復(fù)等“數(shù)據(jù)投毒”行為產(chǎn)生的污染數(shù)據(jù),將干擾模型在訓(xùn)練階段的參數(shù)調(diào)整,削弱模型性能、降低其準(zhǔn)確性,甚至誘發(fā)有害輸出。研究顯示,當(dāng)訓(xùn)練數(shù)據(jù)集中僅有 0.01% 的虛假文本時(shí),模型輸出的有害內(nèi)容會(huì)增加 11.2%;即使是 0.001% 的虛假文本,其有害輸出也會(huì)相應(yīng)上升 7.2%。
造成遞歸污染。受到數(shù)據(jù)污染的人工智能生成的虛假內(nèi)容,可能成為后續(xù)模型訓(xùn)練的數(shù)據(jù)源,形成具有延續(xù)性的“污染遺留效應(yīng)”。當(dāng)前,互聯(lián)網(wǎng) AI 生成內(nèi)容在數(shù)量上已遠(yuǎn)超人類生產(chǎn)的真實(shí)內(nèi)容,大量低質(zhì)量及非客觀數(shù)據(jù)充斥其中,導(dǎo)致 AI 訓(xùn)練數(shù)據(jù)集中的錯(cuò)誤信息逐代累積,最終扭曲模型本身的認(rèn)知能力。
引發(fā)現(xiàn)實(shí)風(fēng)險(xiǎn)。數(shù)據(jù)污染還可能引發(fā)一系列現(xiàn)實(shí)風(fēng)險(xiǎn),尤其在金融市場(chǎng)、公共安全和醫(yī)療健康等領(lǐng)域。在金融領(lǐng)域,不法分子利用 AI 炮制虛假信息,造成數(shù)據(jù)污染,可能引發(fā)股價(jià)異常波動(dòng),構(gòu)成新型市場(chǎng)操縱風(fēng)險(xiǎn);在公共安全領(lǐng)域,數(shù)據(jù)污染容易擾動(dòng)公眾認(rèn)知、誤導(dǎo)社會(huì)輿論,誘發(fā)社會(huì)恐慌情緒;在醫(yī)療健康領(lǐng)域,數(shù)據(jù)污染則可能致使模型生成錯(cuò)誤診療建議,不僅危及患者生命安全,也加劇偽科學(xué)的傳播。
文章最后提出應(yīng)對(duì)方案:
加強(qiáng)源頭監(jiān)管,防范污染生成。以《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》等法律法規(guī)為依據(jù),建立 AI 數(shù)據(jù)分類分級(jí)保護(hù)制度,從根本上防范污染數(shù)據(jù)的產(chǎn)生,助力有效防范 AI 數(shù)據(jù)安全威脅。
強(qiáng)化風(fēng)險(xiǎn)評(píng)估,保障數(shù)據(jù)流通。加強(qiáng)對(duì)人工智能數(shù)據(jù)安全風(fēng)險(xiǎn)的整體評(píng)估,確保數(shù)據(jù)在采集、存儲(chǔ)、傳輸、使用、交換和備份等全生命周期環(huán)節(jié)安全。同步加快構(gòu)建人工智能安全風(fēng)險(xiǎn)分類管理體系,不斷提高數(shù)據(jù)安全綜合保障能力。
末端清洗修復(fù),構(gòu)建治理框架。定期依據(jù)法規(guī)標(biāo)準(zhǔn)清洗修復(fù)受污數(shù)據(jù)。依據(jù)相關(guān)法律法規(guī)及行業(yè)標(biāo)準(zhǔn),制定數(shù)據(jù)清洗的具體規(guī)則。逐步構(gòu)建模塊化、可監(jiān)測(cè)、可擴(kuò)展的數(shù)據(jù)治理框架,實(shí)現(xiàn)持續(xù)管理與質(zhì)量把控。