成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

基于統(tǒng)計(jì)學(xué)習(xí)的掛馬網(wǎng)頁(yè)實(shí)時(shí)檢測(cè)

第38卷 第1期計(jì)算機(jī)科學(xué)Vo l. 38No. 1基于統(tǒng)計(jì)學(xué)習(xí)的掛馬網(wǎng)頁(yè)實(shí)時(shí)檢測(cè)王 濤1 余順爭(zhēng)2(廣東工業(yè)大學(xué)自動(dòng)化學(xué)院 廣州510006)(中山大學(xué)信息科學(xué)與技術(shù)學(xué)院電子與通信工程系 廣州510

第38卷 第1期計(jì)算機(jī)科學(xué)Vo l. 38No. 1基于統(tǒng)計(jì)學(xué)習(xí)的掛馬網(wǎng)頁(yè)實(shí)時(shí)檢測(cè)

王 濤1 余順爭(zhēng)2

(廣東工業(yè)大學(xué)自動(dòng)化學(xué)院 廣州510006)

(中山大學(xué)信息科學(xué)與技術(shù)學(xué)院電子與通信工程系 廣州510006) 2

摘 要 近年來(lái)掛馬網(wǎng)頁(yè)對(duì)W eb 安全造成嚴(yán)重威脅, 客戶端的主要防御手段包括反病毒軟件與惡意站點(diǎn)黑名單。反病毒軟件采用特征碼匹配方法, 無(wú)法有效檢測(cè)經(jīng)過(guò)加密與混淆變形的網(wǎng)頁(yè)腳本代碼; 黑名單無(wú)法防御最新出現(xiàn)的惡意站點(diǎn)。提出一種新型的、與網(wǎng)頁(yè)內(nèi)容代碼無(wú)關(guān)的掛馬網(wǎng)頁(yè)實(shí)時(shí)檢測(cè)方法。該方法主要提取訪問(wèn)網(wǎng)頁(yè)時(shí)H T T P 會(huì)話過(guò)程的各種統(tǒng)計(jì)特征, 利用決策樹(shù)機(jī)器學(xué)習(xí)方法構(gòu)建掛馬網(wǎng)頁(yè)分類(lèi)模型并用于在線實(shí)時(shí)檢測(cè)。實(shí)驗(yàn)證明, 該方法能夠達(dá)到89. 7的掛馬網(wǎng)頁(yè)檢測(cè)率與0. 3的誤檢率。關(guān)鍵詞 掛馬網(wǎng)頁(yè), H T T P 會(huì)話, 決策樹(shù), 機(jī)器學(xué)習(xí)

1

Real time Detection of Malicious Web Pages Based on Statistical Learning

WA N G T ao 1 YU Shun zheng 2

(Faculty of Automation, Guangdong University of Technology, Guangzhou 510006, China) 1

(Depar tm ent of Electronics and Com munication Engineering, S un Yat S en Un iversity, Guangzhou 510006, China) 2

Abstract M alicious W eb pag es impo se incr easing thr eats on Web secur ity in r ecent years. Cur rently, there ar e mainly two client side pr otectio n appro aches including anti virus softw are packag es and blacklists o f malicious sites. Anti v ir us techniques commonly use sig natur e based appr oaches which might no t be able to efficiently identify malicious H T M L co des w ith encr yption and o bfuscation. F urthermo re, blacklisting t echniques are difficult to keep up to date. T his paper pr esented a no vel classification method for real time detecting malicious W eb pag es w hich is independent w ith the co n tents o f W eb pag es. O ur approach character izes malicious Web pag es using H T T P sessio n infor mation. W ith representa t ive statistical features and decision tree alg or ithm in machine lear ning , w e built an effective classificat ion model for o n line real time det ecting malicious W eb pages. Ex per iment results demo nstr ate that w e are able to successfully detect 89. 7of the malicious W eb pag es w ith a low false po sitiv e rate of 0. 3.Keywords M alicio us Web pages, H T T P session, Decisio n t ree, M achine lear ning

過(guò)推送模式把惡意程序傳播到漏洞主機(jī), 但此方式不能穿越

N A T 以及網(wǎng)絡(luò)邊界防火墻。網(wǎng)頁(yè)掛馬攻擊采用取回模式的感染方式, 在用戶瀏覽被俘獲網(wǎng)站時(shí)自動(dòng)將惡意程序植入到用戶系統(tǒng), 整個(gè)過(guò)程在后臺(tái)進(jìn)行并且用戶無(wú)法察覺(jué)。因此, 一旦攻擊者俘獲具有較大訪問(wèn)量的正常網(wǎng)站并用于實(shí)施掛馬攻擊, 將會(huì)造成大面積感染。圖1是一個(gè)典型的網(wǎng)頁(yè)掛馬攻擊交互過(guò)程。其中, 惡意程序分發(fā)站點(diǎn)(malwar e dist ribution sit e) 是提供惡意木馬病毒下載的站點(diǎn)。通常, 攻擊者為逃避跟蹤監(jiān)測(cè), 會(huì)利用多次重定向鏈接將W eb 用戶引導(dǎo)至惡意程序分發(fā)站點(diǎn), 自動(dòng)下載惡意程序到本地并執(zhí)行。

現(xiàn)階段檢測(cè)掛馬網(wǎng)頁(yè)的主要方法包括網(wǎng)頁(yè)惡意代碼特征匹配與基于高交互虛擬蜜罐系統(tǒng)的動(dòng)態(tài)行為監(jiān)測(cè)。網(wǎng)頁(yè)惡意代碼特征匹配[3, 4]是將惡意腳本代碼視為腳本病毒, 通過(guò)檢查腳本代碼是否與已知特征碼匹配進(jìn)行判定。此方法具有固有缺陷:需要將加密腳本解釋成為明文腳本再來(lái)檢測(cè), 但目前正常網(wǎng)頁(yè)為保護(hù)知識(shí)產(chǎn)權(quán)也普遍使用加密技術(shù); 瀏覽器插件

1 引言

豐富的Web 服務(wù)在為信息共享帶來(lái)便利的同時(shí), 也成為攻擊者入侵用戶系統(tǒng)的主要平臺(tái)。掛馬網(wǎng)頁(yè)指被攻擊者植入了惡意H T M L 腳本代碼的網(wǎng)頁(yè), 主要利用瀏覽器與Web 應(yīng)用程序漏洞把各種惡意程序傳播到用戶系統(tǒng)。一旦用戶瀏覽掛馬網(wǎng)頁(yè), 瀏覽器就會(huì)加載運(yùn)行惡意腳本代碼并自動(dòng)下載執(zhí)行惡意程序。通過(guò)安裝的惡意程序, 攻擊者可以控制用戶主機(jī), 盜取用戶的隱私信息, 幫助某些流氓廠商提高安裝量或點(diǎn)擊率, 對(duì)某個(gè)網(wǎng)站服務(wù)器發(fā)動(dòng)DDo S 攻擊等等。據(jù)瑞星公司2009年抽樣統(tǒng)計(jì)[1]顯示, 每天約有30的網(wǎng)民上網(wǎng)時(shí)會(huì)遇到掛馬網(wǎng)站。

攻擊者利用掛馬網(wǎng)頁(yè)傳播惡意程序的行為稱(chēng)為網(wǎng)頁(yè)掛馬攻擊。目前, 網(wǎng)頁(yè)掛馬攻擊已取代傳統(tǒng)的掃描攻擊方式, 并成為傳播病毒木馬的主要手段[2]。病毒蠕蟲(chóng)主要通過(guò)大量掃描發(fā)現(xiàn)有系統(tǒng)漏洞的主機(jī)(如某個(gè)開(kāi)放的網(wǎng)絡(luò)服務(wù)端口) , 并通

到稿日期:2010 02 05 返修日期:2010 05 07 本文受?chē)?guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃) 專(zhuān)題課題(2007AA01Z449) , 國(guó)家自然科學(xué)基金 廣東聯(lián)合基金重點(diǎn)項(xiàng)目(U0735002) , 國(guó)家自然科學(xué)基金面上項(xiàng)目(60970146) , 教育部博士點(diǎn)專(zhuān)項(xiàng)基金(20090171120001) 資助。

王 濤(1983-) , 男, 博士生, 主要研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)安全, E mail:wangtaosea@msn. com; 余順爭(zhēng)(1958-) , 男, 教授, 博士生導(dǎo)師, 主要研究方向?yàn)榫W(wǎng)絡(luò)安全、網(wǎng)絡(luò)行為分析、網(wǎng)絡(luò)測(cè)量等。

, ,

站的域名做統(tǒng)計(jì), 將常被引用的外部域名看作是可信的網(wǎng)站并列入白名單, 白名單之外的網(wǎng)站稱(chēng)為可疑網(wǎng)站。經(jīng)過(guò)統(tǒng)計(jì), 少部分外部域名被頻繁引用, 如w ww. g oog le analytics. com 在本文采集的數(shù)據(jù)中被約6萬(wàn)個(gè)網(wǎng)頁(yè)引用。同時(shí), 惡意程序分發(fā)站點(diǎn)一般都是由黑客直接管理并不對(duì)外提供正常的Web 服務(wù), 因此不會(huì)在白名單內(nèi)。即使攻擊者利用白名單中的正常網(wǎng)站作為中間媒介站點(diǎn)來(lái)實(shí)現(xiàn)掛馬, 但用戶最終也需要被連接到惡意程序分發(fā)服務(wù)器才能下載惡意程序。根據(jù)對(duì)掛馬網(wǎng)頁(yè)會(huì)話過(guò)程的觀測(cè)可以發(fā)現(xiàn), 多數(shù)包含不止一個(gè)可疑外部域名。圖5是各個(gè)網(wǎng)頁(yè)會(huì)話中可疑外部域名數(shù)量的統(tǒng)計(jì)。對(duì)正常網(wǎng)頁(yè)集(見(jiàn)圖5(a) ) , 約76. 8的網(wǎng)頁(yè)不會(huì)引用可疑的外部域; 對(duì)掛馬網(wǎng)頁(yè)集(見(jiàn)圖5(b) ) , 網(wǎng)頁(yè)通常引用2~5個(gè)可疑的外部域名, 甚至更多。在實(shí)際應(yīng)用中, 使用動(dòng)態(tài)白名單, 實(shí)時(shí)增添一些知名度高且可信的域名, 由此篩選出一些可疑的域名。所以, 可以把網(wǎng)頁(yè)H T T P 會(huì)話過(guò)程中引用外部可

疑域名的數(shù)量作為檢測(cè)掛馬網(wǎng)頁(yè)的一個(gè)特征。

我們將網(wǎng)頁(yè)會(huì)話中缺少這3個(gè)信息域的請(qǐng)求數(shù)量作為特征。數(shù)據(jù)集中約55. 3的掛馬網(wǎng)頁(yè)會(huì)話包含此類(lèi)具有不完整頭部信息域的請(qǐng)求, 而只有1. 24的正常網(wǎng)頁(yè)會(huì)話出現(xiàn)過(guò)此類(lèi)

請(qǐng)求。

圖7 不完整頭部信息域的請(qǐng)求實(shí)例

3. 5 各種常見(jiàn)類(lèi)型文件的請(qǐng)求數(shù)量

我們將在網(wǎng)頁(yè)會(huì)話過(guò)程中到可疑外部域(白名單外) 的各

種常見(jiàn)類(lèi)型文件的請(qǐng)求數(shù)量作為特征值。圖8是html, js 兩種類(lèi)型文件的請(qǐng)求數(shù)量的分布情況:約94. 3的正常網(wǎng)頁(yè)沒(méi)有引用可疑外部域的html 文件, 而約96的掛馬網(wǎng)頁(yè)引用多于2個(gè)的html 文件; 約52. 2的正常網(wǎng)頁(yè)沒(méi)有引用可疑外部域的js 文件, 而掛馬網(wǎng)頁(yè)中只有20。同時(shí), 正常頁(yè)面所引用可疑外部域的html, js 文件一般不多于3個(gè)。因此, 如果一個(gè)網(wǎng)頁(yè)會(huì)話過(guò)程中出現(xiàn)過(guò)多到可疑外部域的html, js 文件的請(qǐng)求,

則此網(wǎng)頁(yè)可能是掛馬網(wǎng)頁(yè)。

(a) Number o f suspicious ext ernal

do mains

(b) Number of suspic io us ex te rnal

doma i ns

圖5 網(wǎng)頁(yè)引用可疑外部域名的數(shù)量分布

3. 3 域名段數(shù)

基于分隔符 . ! , 可稱(chēng)全域名w ww. sohu. com 的段數(shù)為3段, 二級(jí)域名sohu. com 為2段。圖6統(tǒng)計(jì)了兩類(lèi)數(shù)據(jù)集引用的所有外部域名段數(shù):對(duì)正常網(wǎng)頁(yè)集(見(jiàn)圖6(a) ) , 網(wǎng)頁(yè)所引用的外部域名一般為三段或更多(多級(jí)子域名) , 只有約0. 2的二段外部域名; 對(duì)掛馬網(wǎng)頁(yè)集(見(jiàn)圖6(b) ) , 兩段的外部域名約占41. 9??梢?jiàn), 正常網(wǎng)站一般使用多個(gè)子域名來(lái)區(qū)分不同的服務(wù)器并對(duì)外提供服務(wù), 如ad. doubleclick. net, g. dou bleclick. net, 因此其域名段數(shù)基本都在3段以上; 而惡意站點(diǎn)一般直接使用注冊(cè)的二級(jí)域名對(duì)外提供服務(wù), 如ccndk822. cn, ew rew r34. cn 。因此, 將網(wǎng)頁(yè)是否有引用過(guò)二段的外部域

名作為一個(gè)特征。

(a) Number of request ed ht ml fil es (b) Num ber of request ed j s files

圖8 不同類(lèi)型文件的請(qǐng)求數(shù)量分布

3. 6 重定向?qū)訑?shù)

對(duì)于一個(gè)網(wǎng)頁(yè)會(huì)話, 利用各個(gè)請(qǐng)求包頭部域中Refer er 的信息對(duì)會(huì)話進(jìn)行重組, 構(gòu)建一個(gè)鏈接樹(shù)。此鏈接樹(shù)以用戶請(qǐng)求的原始頁(yè)面(landing W ebpag e) 作為根節(jié)點(diǎn), 每個(gè)請(qǐng)求以其Referer 域內(nèi)的對(duì)象作為父節(jié)點(diǎn)。圖9是一個(gè)網(wǎng)頁(yè)H T T P 會(huì)話過(guò)程的重定向鏈接樹(shù), 其中M , N 是不同的外部站點(diǎn)。由根節(jié)點(diǎn)開(kāi)始, 最長(zhǎng)的鏈接路徑(包含外部站點(diǎn)) 長(zhǎng)度稱(chēng)為頁(yè)面重定向鏈接層數(shù)(page r edir ection steps)

。

圖9

網(wǎng)頁(yè)會(huì)話的重定向鏈接樹(shù)

(a) N um ber o f seqments o f

ex ternal do mains

(b) Number of seqm ent s of

ex ternal domains

圖6 網(wǎng)頁(yè)所引用外部域名的段數(shù)分布

3. 4 不完整頭部信息域的請(qǐng)求數(shù)量

大部分正常的H T T P 請(qǐng)求頭默認(rèn)情況下會(huì)有以下幾個(gè)信息域:A ccept, Accept L anguag e, Accept Encoding, U ser A g ent , Referer , H ost, Co nnectio n 。一些掛馬網(wǎng)頁(yè)會(huì)話過(guò)程中會(huì)出現(xiàn)缺少多個(gè)常見(jiàn)的頭部信息域的請(qǐng)求。圖7是訪問(wèn)掛馬網(wǎng)頁(yè)后自動(dòng)發(fā)送到惡意程序分發(fā)站點(diǎn)的請(qǐng)求頭部信息, 缺少Accept Lang uag e, Accept Encoding 與Referer 3個(gè)信息域。

圖10 網(wǎng)頁(yè)會(huì)話重定向鏈接層數(shù)分布

圖10統(tǒng)計(jì)比較了正常網(wǎng)頁(yè)集與掛馬網(wǎng)頁(yè)集中所有實(shí)例

的重定向鏈接層數(shù)。對(duì)正常網(wǎng)頁(yè), 約16. 8的網(wǎng)頁(yè)不會(huì)引用外部對(duì)象, 約61. 6的網(wǎng)頁(yè)是直接引用外部對(duì)象, 只有約6. 6的網(wǎng)頁(yè)會(huì)話包含3次以上重定向鏈接; 對(duì)掛馬網(wǎng)頁(yè), 約

,

87. 1的網(wǎng)頁(yè)會(huì)話包含3次以上重定向鏈接, 最終將用戶引導(dǎo)到惡意程序分發(fā)站點(diǎn)。所以, 由統(tǒng)計(jì)結(jié)果可知, 網(wǎng)頁(yè)編輯人員引用外部對(duì)象時(shí), 基本上都會(huì)直接引用, 其對(duì)象的請(qǐng)求大多由初始頁(yè)面直接產(chǎn)生, 不會(huì)經(jīng)過(guò)多層的鏈接才訪問(wèn)到遠(yuǎn)程對(duì)象; 而攻擊者經(jīng)常利用多次重定向來(lái)躲避檢測(cè)。3. 7 典型的可疑特征

一些掛馬頁(yè)面H T T P 會(huì)話過(guò)程具有典型的可疑特征, 如所引用的外部域名采用了代碼混淆方法, 或U RL 中含有重定向地址, 或直接采用IP 地址, 或使用一些特殊的服務(wù)端口, 這在正常的網(wǎng)頁(yè)會(huì)話過(guò)程中很少出現(xiàn), 實(shí)例如圖11

所示。

N Mj ) ]

式中, 對(duì)于給定子集S j ,

I (N 1j , N 2j , ?, N Mj ) =-#p ij log 2(p ij )

i =1M

(2)

(3)

式中, p ij =N ij /|S j |表示S j 中的樣本屬于類(lèi)w i 的概率; |S j |表示S j 中的樣本個(gè)數(shù)。因此在屬性A i 上分支獲得的信息增益表示為

Gain(A i ) =I (N 1, N 2, ?, N M ) -E(A i )

(4)

Gain(A i ) 指由于知道特征A i 的值而導(dǎo)致的平均信息量的減小, 即分類(lèi)不確定性的降低。因此, 選擇信息增益最大的特征創(chuàng)建決策樹(shù)節(jié)點(diǎn), 根據(jù)特征的不同取值創(chuàng)建各個(gè)分支。再對(duì)各分支的子集遞歸調(diào)用該方法, 建立決策樹(shù)節(jié)點(diǎn)的分支, 直到所有子集僅包含同一類(lèi)別的數(shù)據(jù)為止。

對(duì)于非離散的特征, C4. 5決策樹(shù)算法采用離散化其取值

圖11 4種典型的可疑特征

3. 8 特征表

經(jīng)過(guò)匯總, 共提取特征24個(gè), 如表2所列。

表2 特征集

Feature

N um ber o f suspicious ex ternal IPs

N um ber o f suspicious ex ternal do mains

Whether ext ernal dom ains w i t h 2seg ments exist

N um ber of request s w i t h 13co mmo n t ypes to suspicious ext ernal sites

N um ber o f pag e redirec t ion steps N um ber o f different Sev er headers

N um ber o f different U ser Agent hea ders N um ber o f requests wi t h inco mpl et e headers T y pical suspicious feat ures A ll

Co unt 111131111424

空間的策略, 將其轉(zhuǎn)化成為離散特征進(jìn)行計(jì)算。C4. 5決策樹(shù)方法處理分類(lèi)問(wèn)題有以下優(yōu)勢(shì):C4. 5決策樹(shù)方法在模型構(gòu)建和樣本預(yù)測(cè)過(guò)程中都不依賴(lài)于樣本的分布, 因此該方法能夠有效避免樣本分布變化所帶來(lái)的影響, 具有良好的分類(lèi)穩(wěn)定性; C4. 5決策樹(shù)處理分類(lèi)問(wèn)題具有更高的效率。

我們將掛馬網(wǎng)頁(yè)作為正例子(posit ive class) , 正常網(wǎng)頁(yè)作為負(fù)例子(neg ativ e class) , 并采用評(píng)價(jià)分類(lèi)模型的4個(gè)主要指標(biāo):檢測(cè)率(T rue Po sitive R ate) , 即掛馬網(wǎng)頁(yè)被正確檢測(cè)出來(lái)的比率; 誤檢率(F alse Po sitiv e Rate) , 即正常網(wǎng)頁(yè)被誤檢為掛馬網(wǎng)頁(yè)的比率; 精確率(Pr ecision) , 即被判為正例子的集合中真實(shí)掛馬網(wǎng)頁(yè)的比率; 準(zhǔn)確率(A ccuracy ) , 即被正確檢測(cè)出的樣本占訓(xùn)練集所有樣本的比率。

4. 2 模型檢測(cè)性能

在訓(xùn)練分類(lèi)模型時(shí), 采用十折交叉驗(yàn)證來(lái)測(cè)試模型性能。訓(xùn)練數(shù)據(jù)集被隨機(jī)地分為10份, 輪流將其中9份做訓(xùn)練, 1份做測(cè)試, 10次結(jié)果的均值作為對(duì)算法性能的估計(jì)。模型的R OC 曲線如圖12所示。由于實(shí)際環(huán)境下正常網(wǎng)頁(yè)數(shù)量要遠(yuǎn)遠(yuǎn)大于掛馬網(wǎng)頁(yè), 因此在保證一定檢測(cè)率的條件下, 模型誤檢率越低越好。C4. 5決策樹(shù)檢測(cè)模型達(dá)到了較高的檢測(cè)率(89. 7) 以及低誤檢率(0. 3) , 模型的精確率為85. 7, 準(zhǔn)確率為99. 5

。

4 分類(lèi)模型訓(xùn)練

4. 1 C4. 5決策樹(shù)

本文采用C4. 5決策樹(shù)方法[10]訓(xùn)練掛馬網(wǎng)頁(yè)分類(lèi)模型。決策樹(shù)是用于分類(lèi)和預(yù)測(cè)的一種樹(shù)結(jié)構(gòu), 是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。它著眼于從一組無(wú)次序、無(wú)規(guī)則的實(shí)例中推理出決策樹(shù)表示形式的分類(lèi)規(guī)則。利用決策樹(shù)方法處理分類(lèi)問(wèn)題分為兩個(gè)步驟:第一步利用訓(xùn)練集建立并精化一棵決策樹(shù), 建立決策樹(shù)模型; 第二步利用生成完畢的決策樹(shù)對(duì)輸入樣本進(jìn)行分類(lèi)。對(duì)輸入的待測(cè)樣本, 從根節(jié)點(diǎn)依次測(cè)試待測(cè)樣本的特征值, 直到到達(dá)某個(gè)葉節(jié)點(diǎn), 從而確定該待測(cè)樣本所在的類(lèi)。

設(shè)訓(xùn)練集S ={X 1, X 2, ?, X N }, 其中包含M 個(gè)不同的類(lèi)w i (i =1, 2, ?, M ) 。設(shè)N i 是屬于類(lèi)w i 的樣本的個(gè)數(shù)。由此可以得到訓(xùn)練集S 對(duì)分類(lèi)的平均信息量

I (N 1, N 1, ?, N M ) =-#p i lo g 2(p i )

i =1M

圖12 C4. 5分類(lèi)模型ROC 曲線

表3列出了C4. 5決策樹(shù)模型中信息增益排名前五的特征??梢?jiàn), 可疑外部域名的數(shù)量具有最大的特征信息增益, 根據(jù)此特征可以過(guò)濾出很多正常網(wǎng)頁(yè), 其次是重定向鏈接層數(shù)。

為了衡量檢測(cè)模型的分類(lèi)穩(wěn)定性, 我們改變訓(xùn)練集中正常網(wǎng)頁(yè)樣本與掛馬網(wǎng)頁(yè)樣本的比例。表4是模型檢測(cè)性能隨樣本分布的變化情況。可以看出, 在訓(xùn)練集樣本數(shù)量與分布不同的情況下, 分類(lèi)模型的性能基本保持穩(wěn)定, 其準(zhǔn)確率保持上升。另外, 隨著正常樣本數(shù)量的增加, 分類(lèi)模型的檢測(cè)率有所降低, 這是因?yàn)樾略龅囊恍┠:龢颖?與掛馬網(wǎng)頁(yè)特征相近) 影響了模型的分類(lèi)規(guī)則, 但這類(lèi)模糊樣本數(shù)量較小, 因此分類(lèi)模型依然保持了較高的檢測(cè)率與較低的誤檢率。

(下轉(zhuǎn)第129頁(yè))

(1)

式中, p i =N i /N 是樣本屬于類(lèi)w i 的概率。設(shè)每個(gè)樣本可由包含d 個(gè)特征的特征向量(A 1, A 2, ?, A d ) 表示。對(duì)任一離散特征A i (1?i ?d) , 假設(shè)A i 存在k 個(gè)不同取值{a 1, a 2, ?, a j , ?, a k }, 那么根據(jù)A i 的取值, 可以將訓(xùn)練集S 劃分為k 個(gè)子集S 1, S 2, ?, S k , 其中S j ={X |X S, S. A =a j }。如果選A i 為測(cè)試屬性, 那么這些子集表示從代表集合S 出發(fā)的所有樹(shù)枝。設(shè)N ij 表示S j 中類(lèi)為w i 的樣本的個(gè)數(shù)。由特征A i 進(jìn)一步劃分訓(xùn)練集后, 訓(xùn)練集S 對(duì)分類(lèi)的平均信息量為

E(A i ) =#[(

j =1k

N N ? N ) I (N 1j , N 2j , ?,

N

,

言的事實(shí)標(biāo)準(zhǔn)。本文在X ACM L 基礎(chǔ)上, 通過(guò)引入時(shí)態(tài)約束來(lái)彌補(bǔ)XA CM L 在描述異構(gòu)策略組合時(shí)不能有效描述時(shí)態(tài)約束的不足。XA CM L 在描述策略組合時(shí), 沒(méi)有考慮策略之間的安全屬性, 也無(wú)法描述策略組合后的安全屬性, 如何在XACM L 中引入策略的安全等級(jí)將是下一步需要解決的問(wèn)題。

[8]

tional W orks hop on Policies for Dis tributed Systems and Net w orks. W as hington DC, U SA:IEEE Com puter S ociety Press, 2003:111 119

W ain er J, Kumar A, Barthelmes s P. DW RBAC:A Formal Secu rity M odel of Delegation and Revocation in W orkflow System s [J]. Information S ystems , 2007, 22(3):365 384[9]

James B D, Bertino E, Latif U, et al. A Generaliz ed T emporal Role Bas ed Acces s Control M odel [J ]. IEEE Transaction on Know ledge an d Data Engin eering, 2005:4 22

[10]唐卓, 趙林, 李肯立, 等. 一種基于風(fēng)險(xiǎn)的多域互操作動(dòng)態(tài)訪問(wèn)控

制模型[J]. 計(jì)算機(jī)研究與發(fā)展, 2009, 43(6) :948 955

[11]Li Ninghu i, Wang Qihua, Qardaji W, et al. Access C on tr ol Policy

Combining:T heory M eets Practice[C]?Proceedings of the 14th ACM symposium on Acces s control models and technologies. Ju ne 2009

[12]Chen g chen, Rohatgi P, W agn er G M , et al. Fuzz y M ulti Level

Security:An Experimen t on Quan tified Ris k Adaptive Acces s Control[C]?IE EE Sympos ium on Security and Privacy. 2007:222 230

[13]許峰, 賴(lài)海光, 等. 面向服務(wù)的角色訪問(wèn)控制技術(shù)研究[J]. 計(jì)算

機(jī)學(xué)報(bào), 2005, 28(4) :686 693

[14]黃建, 卿斯?jié)h. 帶時(shí)間特性的角色訪問(wèn)控制[J ]. 軟件學(xué)報(bào), 2003,

14(11) :1944 1954

[15]Dew ri R, Poolsappasit N, Ray P, et al. Optim al S ecu rity Harde

nin g Us ing M ulti Objective Optimization on Attack T ree M odels of Netw or ks[C]?Proceedings of the 14th ACM Conference on Compu ter and Comm unications S ecur ity (CCS (07) . New York, US A:ACM Pr ess , 2007:204 213

參考文獻(xiàn)

[1][2]

鄧集波, 洪帆. 基于任務(wù)的訪問(wèn)控制模型[J]. 軟件學(xué)報(bào), 2003, 14(1) :76 82

Gong L, Qian X. Computational Is sues in Secure Interoperation [J ]. IE EE Transactions on S oftw are Engin eering, 1996, 22(1) :43 52[3]

Xacml T C. OASIS eXtensible Access C on tr ol M arkup Language (XACM L ) [DB/OL ]. http://ww w. oasis open. org/commit tees /xacml/[4]

H ada S, Kudo M. XM L acces s control language:Pr ovis ion al au thoriz ation for XM L d ocumen ts [DB/OL]. http://w w w. trl. ib m. com /projects /x ml /xacl /xacl s pec. h tm l [5]

Ashley P, H ada S, Kar joth G, et al. The en terpris e privacy au thoriz ation lan guage(E PAL ) [DB/OL ]. http://w w w. w 3. org/2003/p3p w s/pp/ib m3. html [6]

Ribeiro C, Z &l quete A, Fer reira P, et al. S PL :An access control langu age for security policies w ith complex con straints [C ]?NDSS (01:Netw ork and Distributed S ystem S ecu rity Sym po sium. 2001[7]

Bharadw aj V G, Baras J S. T ow ards automated n egotiation of acces s control policies [C ]?Proceedings of IE EE 4th Intern a

(上接第90頁(yè))

表3 信息增益排名前五的特征

Rank

12345

F eature

Number of suspici o us ext ernal dom ai ns Number of pa ge redi rection st eps

Number o f requests w i t h i ncom plet e headers Whet her ex ternal dom ai ns with 2seg ments ex ist

Number of re quest ed ht ml fil e s

1248160663d53890. shtml [2]

Provos N, M cNamee D, M avrommatis P, et al. T he ghos t in th e br ow s er analysis of W eb based malw are[C]?Proceedings of th e First Work shop on H ot Topics in Un derstanding Botn ets. Cam bridge, M A, 2007[3]

H ou Yun g T sung, Ch ang Yimeng, C hen Ts uhan, et al. M alicious W eb content detection by machine learning [J]. Expert System s w ith Applications, 2010, 37(1) :55 60[4]

Accuracy

98?. 8?. 9?. 5

表4 不同樣本分布下C4. 5分類(lèi)模型的性能

M ali cious Webpage percentag e TP

50?. 6

20All So urces

95. 7?. 2?. 7

FP 0. 60. 40. 30. 3

Precision 99. 4?. 4?. 2?. 7

S eifert C, Komis arczuk P, Welch I. Iden tification of M alicious W eb Pages w ith Static H euristics [C]?IEEE Australasian Tele com munication Netw orks and Applications Conference. Ade laide, 2008:91 96

[5]M oshch uk A, Bragin T, Deville D, et al. SpyProxy:Ex ecution b as ed Detection of M aliciou s Web C on tent [C]?Proc. of th e U SENIX Security Sympos ium. Boston, M A, Aug. 2007:27 42

結(jié)束語(yǔ) 當(dāng)前檢測(cè)掛馬網(wǎng)頁(yè)的主要手段有網(wǎng)頁(yè)代碼特征

匹配與高交互虛擬蜜罐技術(shù)。前者難以對(duì)抗代碼加密與混淆變形技術(shù), 后者資源消耗較大, 難以在客戶端直接部署。針對(duì)這些不足, 本文提出一種輕量級(jí)的、基于訪問(wèn)網(wǎng)頁(yè)的HT T P 會(huì)話統(tǒng)計(jì)特征的掛馬網(wǎng)頁(yè)檢測(cè)方法, 它無(wú)需對(duì)網(wǎng)頁(yè)H T M L 代碼、數(shù)據(jù)載荷進(jìn)行特征匹配?;诘途S特征與有監(jiān)督的C4. 5決策樹(shù)學(xué)習(xí), 訓(xùn)練了能有效檢測(cè)掛馬網(wǎng)頁(yè)的分類(lèi)模型。實(shí)驗(yàn)證明, 我們能達(dá)到89. 7的檢測(cè)率與0. 3的誤檢率。下一步工作是進(jìn)一步發(fā)掘更多掛馬網(wǎng)頁(yè)的特征, 研究在線學(xué)習(xí)算法, 以適應(yīng)不斷更新的掛馬網(wǎng)頁(yè)特征。

[6]Provos N, M avrommatis P, Rajab M A, et al. All Your iFR AM E s Point to Us [C]?Proc. of the USENIX S ecurity S ympo sium. San J ose, CA, J uly 2008:1 15

[7]Zhuge J ianw ei, Th orsten H, S on g Chengyu, et al. Studyin g M ali cious W eb sites an d the Underground Economy on the Ch ines e W eb[C]?Proceedings of 2008W or kshop on th e Econ omics of Information Security(W EIS (08) . Jun e 2008

[8][9]

Top 1, 000, 000S ites [EB/OL ]. http://ww w. alexa. com/top sites, S eptember 2009

Seifert C, Steenson R. Captu re honeypot client [EB/OL]. htt ps://w w w. client honeynet. org/capture. html, 2006

參考文獻(xiàn)

[1]

2009年上半年中國(guó)大陸地區(qū)互聯(lián)網(wǎng)安全報(bào)告[EB/OL]. See ht tp://it. rising. com. cn/new 2008/New s/New sInfo/2009 07 21/

[10]W itten I H , Frank E. Data M ining:Practical M achine L earning

T ools and Techn iqu es (2nd ed ) [M ]. San Francis co:Elsevier Inc. , 2005

標(biāo)簽: