《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 解決方案 > 一種屬性相關性的加權貝葉斯分類算法研究

一種屬性相關性的加權貝葉斯分類算法研究

2011-08-02
作者:鄭 默,劉瓊蓀
來源:來源:微型機與應用2011年第7期

摘  要: 根據(jù)Rough Set屬性重要度理論,構建了基于互信息的屬性子集重要度,提出屬性相關性的加權樸素貝葉斯分類算法,該算法同時放寬了樸素貝葉斯算法屬性獨立性、屬性重要性相同的假設。通過在UCI部分數(shù)據(jù)集上進行仿真實驗,與基于屬性相關性分析的貝葉斯(CB)和加權樸素貝葉斯(WNB)兩種算法做比較,證明了該算法的有效性。
關鍵詞: 樸素貝葉斯;屬性重要度;屬性相關;分類

 分類是數(shù)據(jù)挖掘中一類非常重要的問題,分類算法的核心是構造能快速、有效處理大數(shù)據(jù)容量、高精確度的分類器。在眾多分類算法和理論中,樸素貝葉斯NB(Naive Bayes)由于計算高效、高精確度,并具有堅實的理論基礎而得到了廣泛應用。NB分類基于一個簡單的假定:在給定分類特征條件下屬性值之間具有獨立性,且每個條件屬性對類變量(決策屬性)的重要度是相同的。然而,在實際問題中,這些假設往往不能滿足。為了保持NB的計算既簡單,又能提高其分類性能,參考文獻[1]提出了一種基于屬性相關性分析的貝葉斯分類模型CB(Correlated Bayes),放寬了屬性獨立性的假設,當屬性間存在相關性時較好地提高了分類性能,但是該模型假定每個屬性相對于決策屬性重要性相同,當屬性相對于決策屬性的重要性不相同時,分類效果并沒有提高;參考文獻[2-4]中提出了根據(jù)屬性的重要性賦予屬性權值的加權樸素貝葉斯WNB(Weighted Naive Bayes)模型,允許屬性之間重要度不相同,較之NB模型獲得較好的分類效果,但該模型仍基于屬性類條件獨立假設,當屬性間存在相關性時分類效果并不好。綜上,上述方法均只側(cè)重改進NB方法的某單一假設,并未同時放寬兩個假設,現(xiàn)實中數(shù)據(jù)也常常不能同時滿足兩個假設。
 本文在CB模型和WNB模型的基礎上,以互信息作為度量條件屬性相對于決策屬性的重要度,提出了集合重要度的概念,并賦予各屬性子集權值,同時考慮屬性子集內(nèi)部屬性間的相關性,提出屬性相關性的加權貝葉斯分類算法(WCB),以達到提高NB的分類性能的目的。

 





2.3 WCB模型的構造步驟
 (1)對訓練樣本進行缺失處理和離散化處理。
 (2)分類器的構造。
 ①掃描訓練樣本集,統(tǒng)計訓練集中,類別Ci的個數(shù)di和類Ci中屬性Ak取值為aik的實例個數(shù)dik,構成統(tǒng)計表;
 ②對訓練屬性集進行聚類,并由式(9)計算屬性子集Ej的權重wj;
 ③計算所有的先驗概率P(Ci)=di/d,由式(2)和式(11)計算條件概率P(Ej|Ci),形成概率表;
 ④式(2)中,選擇控制參數(shù)β∈[0,0.3],取步長h=0.01,選取訓練效果最優(yōu)的β值構建分類器;
 (3)分類,對于樣本X,調(diào)用概率表和構建好的分類器,得出分類結果。
3 實驗分析
 為了驗證WCB算法的分類效果,本文選用UCI[6]機器學習庫中的8個數(shù)據(jù)集進行算法測試,以分類正確率作為算法優(yōu)劣的主要評價指標。在相同的試驗環(huán)境下,利用MATLAB編程分別實現(xiàn)了WNB算法、CB算法和本文提出的WCB算法。數(shù)據(jù)集中連續(xù)屬性進行離散化處理。由于Letter-Recognition、kr-vs-kp和MushRoom數(shù)據(jù)集樣本容量或?qū)傩詡€數(shù)較多,一次測試需要較長時間,采用分割數(shù)據(jù)集的方法進行測試,取2/3的數(shù)據(jù)作為訓練集,1/3數(shù)據(jù)作為測試集。其余數(shù)據(jù)集均采用10折交叉驗證,取10次的平均值作為實驗的測試結果。實驗結果如表1所示。

 仿真實驗表明,WCB算法在大部分數(shù)據(jù)集上分類正確率高于CB算法和WNB算法,由于本文構造的WCB算法兼顧了不同的屬性相關性和屬性重要性,更能反映真實情況,并克服了CB算法和WNB算法的不足。因為本算法既要調(diào)用屬性集合重要度子函數(shù),又要選取控制參數(shù)β,所以算法運行的時間比CB算法和WNB算法稍長。當屬性子集重要度wj均為1時,WCB算法即為CB算法;當向量相關度系數(shù)CorrEr均為1時,WCB算法則為WNB算法。因此,本文提出的算法不會比二者分類效果差。
 實驗都采用了UCI標準數(shù)據(jù)集,因此實驗結果具有一定的可比性。
 本文提出的WCB算法放寬了NB的兩個假設,同時考慮屬性相關性和屬性重要性,進一步擴展了現(xiàn)有貝葉斯分類算法,有效地提高了分類效果。同時本文提出一種屬性集合重要度的計算方法,隨著屬性相關性和屬性重要度研究的發(fā)展,還可以使用其他度量屬性相關性或?qū)傩灾匾缘姆椒ǎ瑢ふ曳诸愋Ч玫腤CB算法是今后的研究方向。
參考文獻
[1] 章舜仲,王樹梅,黃河燕,等.基于屬性相關性分析的貝葉斯模型[J].情報學報,2007,24(2):58-65.
[2] HARRY Z, SHENG S L. Learning weighted naive bayes with accurate ranking[A]. Fourth IEEE International Conference on Data Mining (I CDMπ 04)[C]. Brighton, UK.2004:567-570.
[3] 鄧維斌,黃蜀江,周玉敏.基于條件信息熵的自主式樸素貝葉斯分類算法[J].計算機應用,2007,27(4):888-891.
[4] 鄧維斌,王國胤,王燕.基于Rough Set的加權樸素貝葉斯分類算法[J].計算機科學,2007,34(2):204-206.
[5] 曾黃麟.粗集理論及其應用(修訂版)[M].重慶:重慶大學出版社,1998.
[6] NEWMAN D J, HETTICH S, BLAKE C L, et al. UCI repository of machine learning databases [EB/OL]. http://www.ics.uci.edu/mlearn/MLRepository. html, 1998.   

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 太粗太深了用力点视频| 欧美在线暴力性xxxx| 国产婷婷色一区二区三区| 99久久99久久久99精品齐| 无码一区二区三区免费| 亚洲国产精品sss在线观看AV | 无码国产精品一区二区免费模式 | 国产精品久免费的黄网站| 亚洲精品国精品久久99热| 被黑人侵犯若妻中文字幕| 国产精品第1页| www.成年人视频| 日日碰狠狠添天天爽不卡| 亚洲乱码一区av春药高潮| 爱情岛论坛亚洲品质自拍视频| 国产69精品久久久久APP下载| 黄色成人免费网站| 国内精品久久久久| 一本大道AV伊人久久综合| 日本五月天婷久久网站| 亚洲国产精品一区二区三区在线观看 | 天堂8中文在线最新版在线| 中文字幕亚洲综合久久菠萝蜜| 本子库里番acg全彩无遮挡| 亚洲男人电影天堂| 真实的国产乱xxxx在线| 四虎在线精品观看免费| 97人洗澡从澡人人爽人人模| 成年女人色毛片| 久久精品亚洲一区二区| 欧美国产综合视频| 亚洲精品无码不卡在线播放| 精品久久久久久无码中文字幕一区| 国产人妖乱国产精品人妖| caoporn成人| 国产高清在线a视频大全| ssss国产在线观看| 成年丰满熟妇午夜免费视频| 久久天天躁狠狠躁夜夜| 樱桃视频影院在线播放| 亚洲最大的黄色网|