《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 基于風(fēng)險處理機制的醫(yī)療數(shù)據(jù)挖掘算法研究
基于風(fēng)險處理機制的醫(yī)療數(shù)據(jù)挖掘算法研究
2014年微型機與應(yīng)用第12期
范爍楠
廣東省第二中醫(yī)院,廣東 廣州
摘要: 針對現(xiàn)有醫(yī)療IT技術(shù)在診斷及預(yù)防措施方面的漏洞,設(shè)計了一種基于風(fēng)險處理機制的醫(yī)療數(shù)據(jù)挖掘算法。在最佳風(fēng)險處理機制的前提下,引入病情特征碼值,通過帶有一定權(quán)重的風(fēng)險處理數(shù)據(jù)算法來定義病情特征碼值的權(quán)重參數(shù)。經(jīng)醫(yī)療數(shù)據(jù)信息集測試實驗表明,此醫(yī)療數(shù)據(jù)挖掘算法能夠從海量醫(yī)療數(shù)據(jù)信息中抽取最具說明性的病情特征碼值,并給予一定權(quán)重參數(shù),得到高效的數(shù)據(jù)挖掘效率。
Abstract:
Key words :

  摘  要: 針對現(xiàn)有醫(yī)療IT技術(shù)在診斷及預(yù)防措施方面的漏洞,設(shè)計了一種基于風(fēng)險處理機制的醫(yī)療數(shù)據(jù)挖掘算法。在最佳風(fēng)險處理機制的前提下,引入病情特征碼值,通過帶有一定權(quán)重的風(fēng)險處理數(shù)據(jù)算法來定義病情特征碼值的權(quán)重參數(shù)。經(jīng)醫(yī)療數(shù)據(jù)信息集測試實驗表明,此醫(yī)療數(shù)據(jù)挖掘算法能夠從海量醫(yī)療數(shù)據(jù)信息中抽取最具說明性的病情特征碼值,并給予一定權(quán)重參數(shù),得到高效的數(shù)據(jù)挖掘效率。

  關(guān)鍵詞: 風(fēng)險處理機制;病情特征碼值;數(shù)據(jù)挖掘;權(quán)重參數(shù)

  近年來,針對醫(yī)療IT信息化系統(tǒng)產(chǎn)生的海量數(shù)據(jù)信息無法得到高效利用的問題,為了提高醫(yī)療IT系統(tǒng)中對病情數(shù)據(jù)信息的高效深度控制,國內(nèi)外學(xué)者們做了深入研究與分析,提出一系列醫(yī)療數(shù)據(jù)處理算法,形成一些新型的、高效的醫(yī)療數(shù)據(jù)挖掘結(jié)構(gòu)模型,例如應(yīng)用于醫(yī)療結(jié)構(gòu)診斷分析的C4.5決策控制樹算法。然而過于精確地衡量尺碼的缺陷阻礙了此算法在醫(yī)療IT系統(tǒng)數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用與拓展。另一種是在醫(yī)療數(shù)據(jù)挖掘領(lǐng)域研究較深的關(guān)聯(lián)規(guī)則算法,此算法的原理是利用不同特征關(guān)系的數(shù)據(jù)信息規(guī)則項進行挖掘研究,現(xiàn)已廣泛應(yīng)用于醫(yī)學(xué)臨床領(lǐng)域。目前典型的關(guān)聯(lián)規(guī)則算法主要有Apriori和FP-growth方法。但在低符合率的條件下,關(guān)聯(lián)規(guī)則算法會產(chǎn)生過多無用或冗余規(guī)則信息,而且存在可識別程度與效率過低的問題。

  目前,基于安全風(fēng)險參數(shù)與比值概率的醫(yī)療數(shù)據(jù)挖掘也已經(jīng)應(yīng)用于IT系統(tǒng)模型中。在此前提下,參考文獻[1-2]都已設(shè)計出基于最優(yōu)化安全風(fēng)險結(jié)構(gòu)模型數(shù)據(jù)挖掘算法,然而其缺陷都是冗余數(shù)據(jù)信息過多,且數(shù)據(jù)模型與信息展示過于復(fù)雜。

  在上述研究成果的基礎(chǔ)之上,本文設(shè)計出一種基于風(fēng)險處理機制的醫(yī)療數(shù)據(jù)挖掘算法MRPM(Medical Risk Processing Mechanism),引入病情特征碼值,使用權(quán)重參數(shù)抽取及病情有關(guān)的安全風(fēng)險、預(yù)防與診斷因素。該算法在醫(yī)療IT系統(tǒng)數(shù)據(jù)挖掘與分析中數(shù)據(jù)信息冗余度較低、效率高,并且展現(xiàn)方式更加立體、直觀。

  1 相關(guān)研究

  1.1 相關(guān)算法

  1.1.1 最優(yōu)化安全風(fēng)險模型算法

  病情種類情況從醫(yī)療數(shù)據(jù)信息角度可以分為惡性與良性兩種。模型一般被說明為:特征碼值的集合,最優(yōu)化安全風(fēng)險模型獲取的結(jié)果是惡性,而其預(yù)防與診斷模型出現(xiàn)的結(jié)果是良性。針對此種情況,參考文獻[3]提出了一種MORE算法,用于得到最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型。

  MORE算法一方面采取部分支持度挖掘使用頻率較高的數(shù)據(jù)結(jié)構(gòu)模型,再采用病理學(xué)中對應(yīng)于安全風(fēng)險指標項得到最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型。為了使模型更加直觀,本文通過病情特征碼值的長度設(shè)置操作模型坐標值項,該模型滿足反單調(diào)原則。

  1.1.2 醫(yī)療數(shù)據(jù)挖掘算法

  基于最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型盡管能識別典型病情數(shù)據(jù)結(jié)構(gòu),但其結(jié)構(gòu)存在明顯的誤區(qū),影響醫(yī)療IT系統(tǒng)病情診斷環(huán)節(jié)。針對這一缺陷,本文設(shè)計了一種基于風(fēng)險處理機制(包含最優(yōu)化安全風(fēng)險與預(yù)防能力)的醫(yī)療數(shù)據(jù)挖掘算法。此算法創(chuàng)造性地加入病情特征碼值,形成了最優(yōu)化風(fēng)險集合與預(yù)防集合。并采用權(quán)重參數(shù)對每個集合進行度量,使集合中每個病情特征碼值的權(quán)重參數(shù)與病情數(shù)據(jù)信息使用頻率構(gòu)成正比函數(shù)關(guān)系,從而體現(xiàn)出每個病情特征碼值對醫(yī)療診斷與預(yù)防方面貢獻程度[4]。

  1.2 MRPM算法

  相關(guān)符號的定義如下:m1是最優(yōu)化安全風(fēng)險結(jié)構(gòu)模型的數(shù)量;m2是最優(yōu)化預(yù)防結(jié)構(gòu)模型的數(shù)量;spt是部分支持度的參數(shù)值;m1*spt是初始化安全風(fēng)險集合的期望使用頻率參數(shù)標準值;m2*spt是初始化預(yù)防集合期望使用頻率參數(shù)標準值;R1、R2是初始化安全風(fēng)險與預(yù)防集合中病情特征碼值數(shù)量;R1′、R2′是非初始化安全風(fēng)險與預(yù)防集合中病情特征碼值數(shù)量。為了方便,分別使用IRS、IPS、RS、PS代表初始化安全風(fēng)險與預(yù)防集合以及非初始化狀態(tài)的安全風(fēng)險與預(yù)防集合,RFS、PFS分別表示安全風(fēng)險與預(yù)防使用頻率指標項,RSM、PSM分別表示安全風(fēng)險分數(shù)矩陣與預(yù)防分數(shù)矩陣(RSM、PSM分別對應(yīng)RS、PS中每個病情特征碼值參數(shù)項)。

  若IRS=[IRi1,IRi2,…,IRiR1]T、IPS=[IPi1,IPi2,…,IPiR2]T,對應(yīng)的IRFS=[IRf1,IRf2,…,IRfR1]T、IPFS=[IPf1,IPf2,…,IPfR2]T。其中集合滿足以下特性:

  (1)IRf1≥IRf2≥…≥IRfR1≥m1*spt

  (2)IPf1≥IPf2≥…≥IPfR2≥m2*spt

  若IRS與IPS有交集,且不為空,因為IRS與IPS彼此矛盾,因而需要將其公共特征值參數(shù)鏟除,則可以得到包括RS、PS、RFS、PFS集合,它們之間的相互關(guān)系如下:RS?奐IRS;RFS?奐IRFS;PS?奐IPS以及PFS?奐IPFS。若RS=[Ri1,Ri2,…,RiR1]T、PS=[Pi1,Pi2,…,PiR2]T,對應(yīng)于RS、PS的RFS=[Rf1,Rf2,…,RfR1]T、PFS=[Pf1,Pf2,…,PfR2]T。其中滿足以下特性:

  (3)Rf1≥Rf2≥…≥RfR1≥m1*spt

  (4)Pf1≥Pf2≥…≥PfR2≥m2*spt

  RSM與PSM則滿足以下特性:

  55 (1).png

  55 (2).png

  若病情特征碼值權(quán)重參數(shù)≥式(5)中第一項與第二項之和,則可以判定病者存在一定安全風(fēng)險,與之相對應(yīng),當病情特征碼值權(quán)重參數(shù)≥式(6)中第一項與第二項之和,則可以判定病者暫無安全風(fēng)險。

  MRPM算法中包含兩個核心函數(shù)機制,一個產(chǎn)生(IRS、IPS),另一個產(chǎn)生帶有病情特征碼值權(quán)重參數(shù)的(RS、PS)。這兩個函數(shù)的機制原理分析如下。

  1.2.1 函數(shù)1:產(chǎn)生(IRS、IPS)

  輸入?yún)?shù):最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型、m1*spt、m2*spt;輸出參數(shù):IRS與IPS。

  (IRS、IPS)輸出過程如下:

  (1)得到最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型,計算出初始化與非初始化安全風(fēng)險集合的期望使用頻率參數(shù)標準值m1*spt、m2*spt。

  (2)對病情特征碼值進行使用頻率統(tǒng)計,過濾其中期望使用頻率值小于期望使用頻率參數(shù)標準值。

  (3)對統(tǒng)計的期望使用頻率值進行降序排列,其中IRS由最優(yōu)化安全風(fēng)險數(shù)據(jù)結(jié)構(gòu)模型中病情特征碼值參數(shù)項構(gòu)成,IPS由最優(yōu)化預(yù)防數(shù)據(jù)結(jié)構(gòu)模型中病情特征碼值參數(shù)項構(gòu)成。

  盡管函數(shù)1得到(IRS、IPS),然而它們之間的公共特征參數(shù)項會給安全風(fēng)險與預(yù)防機制帶來數(shù)據(jù)誤差,因此需要預(yù)先鏟除。

  1.2.2 函數(shù)2:產(chǎn)生(RS、PS)

  輸入?yún)?shù):(IRS、IPS);輸出參數(shù):(RS、PS、RSM、PSM)。(RS、PS、RSM、PSM)輸出的過程如下:

  (1)鏟除(IRS、IPS)的公共特征參數(shù)項。

  (2)重新對病情特征碼值進行使用頻率統(tǒng)計,且降序排列,得到RS=IRS、PS=IPS。

  (3)依次計算RS和PS的病情特征碼值權(quán)重參數(shù),獲取RSM、PSM。

  步驟(3)過程是通過1.2節(jié)的步驟(5)、(6)推導(dǎo)得出的,其中100為總權(quán)重參數(shù)值。

  2 測試結(jié)果與應(yīng)用分析

  本文使用了兩組UCI數(shù)據(jù)庫中取得的醫(yī)療數(shù)據(jù)信息基準集合以及最典型的最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型[5],采用對比論證方式進行測試應(yīng)用與分析,其中數(shù)據(jù)信息說明如表1所示。

003.jpg

  2.1 安全風(fēng)險與預(yù)防模型對比分析

  由UCI醫(yī)療數(shù)據(jù)信息說明中可知,本文依次使用了類比率為30的免疫系統(tǒng)功能衰退與類比率為4的淋巴癌示例進行測試,為了保證實驗的廣泛性,使用了不同的類比分布概率。兩種醫(yī)療數(shù)據(jù)信息集合分別進行了最小熵離散化與隔離分布處理,數(shù)據(jù)信息集合中的spt的最小值分別為7%和33%,病情特征碼參數(shù)值度量分別為L=6、L=7,相對安全風(fēng)險參數(shù)最小值為1.2。

  在取得最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型以及從核心函數(shù)機制中輸出的病情特征碼參數(shù)項的前提下,采用MRPM算法在醫(yī)療數(shù)據(jù)信息中深度挖掘帶有權(quán)重參數(shù)值的安全風(fēng)險與預(yù)防集合。

  為了對比最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型、最典型的安全風(fēng)險和預(yù)防數(shù)據(jù)結(jié)構(gòu)模型以及(RS、PS)中的病情特征碼參數(shù)值,當數(shù)據(jù)源為免疫系統(tǒng)功能衰退時,與最優(yōu)化安全風(fēng)險和預(yù)防數(shù)據(jù)結(jié)構(gòu)模型相關(guān)的病情特征碼值分別是334和194,典型性安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型涉及的病情特征碼值分別是13和4。相類似,當數(shù)據(jù)源為淋巴癌時,與最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型相關(guān)的病情特征碼值分別是714和296,典型性安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型涉及的病情特征碼值分別是45和57,而RS、PS中涉及的病情特征碼值分別是13和4。

  上述病情特征碼值對比結(jié)果說明:在最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型相關(guān)的病情特征碼值、典型性安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型涉及的病情特征碼值遠遠大于(RS、PS)中的相關(guān)病情特征碼值。其中帶有權(quán)重參數(shù)值越大,病情特征碼值影響程度就越高,對病情影響也越大,反之一樣。從而表達了(RS、PS)能夠深度挖掘出與病情最具有關(guān)聯(lián)[6]的安全風(fēng)險及預(yù)防因子。

  2.2 (RS、PS)中每個病情特征碼值的權(quán)重參數(shù)

  對于病情特征碼值而言,其內(nèi)部的權(quán)重參數(shù)出自于(RS、PS)中的百分比率。它能夠判定其病情特碼值的影響程度,并且也能夠通過它來觀察病者病情的安全風(fēng)險權(quán)重參數(shù)與預(yù)防權(quán)重參數(shù)。MRPM算法在免疫系統(tǒng)功能衰退數(shù)據(jù)信息集合中的RS、PS如圖1、圖2所示,其中spt=0.06,L=5,圖中下面一欄統(tǒng)一是病情特征碼值。

  從圖1可以得出結(jié)論:RS中最大的兩個病情特征碼值權(quán)重參數(shù)是immune_surgery=r(18.315 0)和query_

  hypoimmune=r(12.087 9)。所以,相對于免疫系統(tǒng)功能衰退,兩個最大的病情特征碼值的權(quán)重之和為30.402 9。依據(jù)上述推理論證說明此病者的病情特征碼值的權(quán)重參數(shù)之和≥30.402 9,此病情患有免疫系統(tǒng)功能衰退的安全風(fēng)險;但是在PS中,最大的兩個病情特征碼值權(quán)重參數(shù)分別是immune_surgery=p(23.7 624)、immunty=p(20.792 1)。可知其權(quán)重參數(shù)之和為44.554 5。因此,若病者病情特征碼值的權(quán)重參數(shù)<44.554 5,則患有免疫系統(tǒng)功能衰退的概率較高。

  在最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型及最具典型的安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型的基礎(chǔ)之上,本文在醫(yī)療數(shù)據(jù)挖掘中創(chuàng)造性地引入了病情特征碼值,并對其設(shè)置相關(guān)權(quán)重參數(shù),且通過權(quán)重參數(shù)判定其病情特征碼值的安全風(fēng)險與預(yù)防影響程度,對醫(yī)療數(shù)據(jù)信息進行深度挖掘。測試結(jié)果顯示,所設(shè)計出的MRPM算法可以深度挖掘具有典型性質(zhì)的病情特征碼值,且展示立體、直觀,對醫(yī)療工作者提供了更加有效的參考價值。

  參考文獻

  [1] Wang Guoyin.Rough reduction in algebra view and informa-tion view[J].International Journal of Intelligent System,2003,18(3):679-688.

  [2] 葉明全,伍長榮,胡學(xué)剛.基于粗糙集的醫(yī)療數(shù)據(jù)挖掘研究與應(yīng)用[J].計算機工程與應(yīng)用,2010,46(21):232-237.

  [3] 邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003.

  [4] KANTARDZIC M.Data mining concept,models,methods and algorithms[M].IEEE Press,2002,12(4):223-263.

  [5] 張俊鵬,賀建峰,馬磊.基于最優(yōu)風(fēng)險與預(yù)防模型的醫(yī)療數(shù)據(jù)挖掘算法[J].計算機工程,2011,37(22):33-37.

  [6] Li Jiuyong,F(xiàn)u Waichee,F(xiàn)AHEY P.Mining risk patterns in medical data[C].Proceeding of the 7th ACM SIGKDD Inter-national Conference on Knowledge Discovery in Data Mining,New York,USA:ACM Press,2005:770-775.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 国产真实伦在线视频免费观看| 日本亚洲黄色片| 动漫人物桶机动漫| 国产乱子精品免费视观看片| 妞干网视频在线观看| 久久最新免费视频| 欧美日韩综合视频| 动漫美女被爆羞羞免费| 麻豆国产尤物AV尤物在线观看| 在线免费观看中文字幕| 中文字幕在线观看国产| 最近免费中文字幕大全高清大全1 最近免费中文字幕大全高清大全1 | 国产精品入口麻豆完整版| 一级毛片免费播放视频| 日韩人妻无码专区精品| 亚洲日本一区二区一本一道| 精品一区二区久久久久久久网站 | 欧美换爱交换乱理伦片不卡片| 免费无码看av的网站| 色综合小说久久综合图片| 国产福利一区视频| 99久久久久久久| 怡红院av一区二区三区| 久久免费动漫品精老司机| 欧美人牲交a欧美精区日韩| 人人妻人人澡人人爽超污| 美女把腿扒开让男人桶爽了 | 99精品国产高清一区二区| 挺进白嫩老师下面视频| 二个人的视频www| 欧美色欧美亚洲另类二区| 六月丁香激情综合成人| 51在线视频免费观看视频| 性欧美wideos| 久久亚洲精品无码观看不卡| 欧美乱妇在线观看| 亚洲综合欧美色五月俺也去| 国产香蕉精品视频| 国内精品一区二区三区app| 一区五十路在线中出| 日本xxxx高清在线观看免费|