來源:CSDN
作者 | DARTMOUTHCOLLEGE 責編 | 歐陽姝黎
第二次世界大戰期間,英國情報人員在一具尸體上放置了虛假文件,以愚弄納粹德國,誘使其對希臘發動襲擊。這種代號 " 碎肉行動 "(Operation Mincemeat)的措施取得了成功,并掩蓋了盟軍入侵西西里島的意圖。
間諜活動中的 " 金絲雀陷阱 " 技術通過傳播多種版本的假文件來隱藏秘密。金絲雀陷阱可以用來發掘泄露的信息,或者像第二次世界大戰期間發生的那樣,用制造分散注意力的消息來隱藏真正有價值的信息。
最近,達特茅斯學院計算機系設計了一個新型數據保護系統 --WE-FORGE,便可以使用人工智能技術構建金絲雀陷阱。
在知識產權犯罪活動日益猖獗的今天,這一研究具有十足的現實意義:創新型公司對技術進行了大量的投資,然而,往往一個小成本的網絡攻擊就可以使攻擊者竊取價值數以億計的新技術。
此前,FORGE(Fake Online Repository Generation Engine)系統已經被用于幫助解決這個問題,它可以自動生成任何真實文件的 N 個 " 假 " 版本,從而使攻擊者必須確定他們從被攻擊網絡中泄露的 N+1 個文件中哪一個是真實文件。但 FORGE 這個解決方案仍有兩個主要缺點:
(1)FORGE 首先需要本體(ontologies)生成假文件;
(2)FORGE 需要通過以下方式生成假文件:識別原始文件中的 " 目標 " 概念,然后用 " 替代 " 概念來替代它們。
而本文提出的 WE-FORGE 系統,基于 Word-Embedding 技術,完全消除了對本體的需求,可以自動制造虛假文件,來保護藥物設計和軍事技術等方面的知識產權。
論文題為 Using Word Embeddings to Deter Intellectual Property Theft through Automated Generation of Fake Documents,發表在 ACM Transactions on Management Information Systems 上。
根據論文,WE-FORGE 的主要幾大貢獻如下:
1、開發了一個融合詞嵌入和聚類的架構,以識別概念的潛在替代。
2、將選擇最佳概念替換和最佳替換的問題定為兩個 Joint Concept Replacement 問題(JCR)。
3、為了確保生成的假文件集的多樣性,在 JCR 問題的目標函數中加入了一個正則化項以確保這一點。
此外,WE-FORGE 算法確保隨機地選擇替代品,從而減少了攻擊者可以輕易地反向工程的機會。
達特茅斯學院網絡安全、技術和社會學領域杰出教授,安全、技術和社會學研究所主任 V.S.Subrahmanian 說:" 該系統生成的文件與原始文件非常相似,是具有可信度的,但又與原始文件有很大差異,實際上它們是錯誤的。"
事實上,網絡安全專家已經在使用 " 金絲雀陷阱 " 或 " 蜂蜜文件 " 以及外語翻譯技術來制造誘餌,以欺騙潛在的攻擊者。
但 WE-FORGE 進一步改進了這些技術,使用自然語言處理自動生成多個可信和不正確的假文件。該系統還添加了隨機性元素,以防攻擊者輕易識別出真正的文檔。
WE-FORGE 可以用來生成許多技術設計文件的偽造版本。當攻擊者入侵一個系統時,他們面臨的艱巨任務是找出眾多類似文檔中真實的那一個。
Subrahmanian 表示:" 我們使用這種技術迫使攻擊者浪費時間和精力來識別正確的文檔。此外,他們對自己找到的結果也是存疑的。"
該系統創建虛假技術文檔的前景可期。
根據該團隊的研究,一項專利可以包含超過 1000 個概念和多達 20 個可能的替代部分。WE-FORGE 最終可能會用來計算在單個技術文檔中可替換節點的數百萬種可能性。
Subrahmanian 表示:" 不法分子現在正在竊取知識產權并免受懲罰。這一系統增加了竊賊在竊取政府或行業機密時所需的成本。"
WE-FORGE 算法的工作原理是計算文檔中概念之間的相似性,并分析每個單詞與文檔的相關性。然后,系統將概念分類到堆棧中并為每個組計算可能的候選對象。
Guarini ’ 21 的 Dongkai Chen 表示:"WE-FORGE 也可以從原始文件的作者那里獲得輸入。人類和機器的聰明才智結合在一起,會讓知識產權竊取者付出更多代價。"
作為研究的一部分,該團隊偽造了一系列計算機科學和化學專利,并邀請專家來判斷哪些文件是真實的。結果表明,WE-FORGE 系統能夠 " 為每個任務持續生成高度可信的虛假文件。"
與其他工具不同,WE-FORGE 不是簡單地隱藏信息而是專門偽造技術信息,比如密碼。WE-FORGE 改進了系統的早期版本 FORGE,刪除了創建面向特定技術操作的耗時需求,還不確保了假消息之間有更豐富的多樣性,并遵循一種改進的方法來選擇要替換的部分。
當然,未來還有許多重要的研究方向。比如說,FORGE 和 WE-FORGE 只修改文件的文本部分。但是一個文件可以包含不同類型的相互聯系的實體,如數字、流程圖和表格,仍需要確保文本的變化在這些類型的實體中得到一致的反映。
這將是該研究邁向更廣闊的應用空間的下一步。