《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 一種服務于K-means的初始中心選取方法
一種服務于K-means的初始中心選取方法
電子技術應用 2023年3期
李秋云1,劉燕武2
(1.中國運載火箭技術研究院 北京宇航系統工程研究所,北京 100076; 2.中國電子信息產業集團有限公司,廣東 深圳 518000)
摘要: 聚類是數據挖掘領域最重要的技術之一,K-means是其中使用頻率最高的舉足輕重的聚類算法。然而,K-means算法表現嚴重依賴于初始中心,選取多少個初始中心以及選擇哪些數據點作為初始中心對K-means算法十分重要。基于此,提出一種初始中心選取方法DPCC(Density Peak Clustering Centers)。DPCC方法基于密度和距離生成一個選取決策圖,將數據集中所有的密度峰值點凸顯出來。這些密度峰值點即為DPCC方法為K-means算法提供的初始中心。實驗表明,DPCC方法不僅可為K-means提供初始中心數量,還能有效提高K-means算法的準確度,并縮減K-means算法的執行時間。
中圖分類號:TP3-0 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.223066
中文引用格式: 李秋云,劉燕武. 一種服務于K-means的初始中心選取方法[J]. 電子技術應用,2023,49(3):134-138.
英文引用格式: Li Qiuyun,Liu Yanwu. An initial centers selection method serving K-means[J]. Application of Electronic Technique,2023,49(3):134-138.
An initial centers selection method serving K-means
Li Qiuyun1,Liu Yanwu2
(1.Beijing Institute of Astronautical Systems Engineering,China Academy of Launch Vehicle Technology, Beijing 100076, China; 2.China Electronics Corporation, Shenzhen 518000, China)
Abstract: Clustering is one of the most important data mining technologies, and K-means is the most famous and commonly used clustering algorithm. However, the performance of K-means depends heavily on the initial centers. It is very important for K-means to select how many initial centers and which data points to choose as the initial centers. Therefore, an initial centers selection method called DPCC (density peak clustering centers) is proposed. DPCC generates a selection decision graph based on density and distance, so as to highlight all density peak points in dataset. These density peak points are the initial centers provided by DPCC for K-means. Experiments show that DPCC not only provides decision support for the number of initial centers, but also improves the accuracy of K-means and reduces the running time of K-means.
Key words : clustering;initial centers;decision graph

0 引言

聚類是一種無監督分析方法,其目的是識別出數據集中的所有數據簇,并將每個簇中的數據點看作一類。在眾多聚類算法中,K-means[1]是使用頻率最高的舉足輕重的算法之一。K-means算法從數據集中選取k個數據點作為初始聚類中心,按照距離最近原則,將其他數據點分配給這k個初始中心得到初始簇,再將處于初始簇中心的數據點作為新的聚類中心。重復上述過程,直到聚類中心不再改變為止。K-means算法的原理相對簡單,這也是其受到廣泛追捧的原因。然而,該算法也存在著明顯缺陷:

(1)分析之前,需要明確k值。在K-means算法中,k值就是簇的數量。若k被設置為10,那么K-means算法將識別出10個數據簇。但聚類是一種無監督分析任務,在聚類之前無法得知數據集存在多少簇。顯然,K-means算法的機理與聚類初衷是相矛盾的。在真實分析場景中,常常會出現k值多于或少于真實簇數的情況,影響聚類準確度。

(2)初始中心易聚團。K-means算法隨機將k個數據點確定為初始聚類中心,易造成多個聚類中心出現在同一簇內,導致該簇被分解為多類。

(3)迭代次數無法控制。K-means算法需要經過多次迭代直至聚類中心不再改變為止。通常情況下,聚類中心最終會迭代到密度稠密區。也就是說,初始中心越遠離密度核心,K-means算法的迭代次數越多,運行時間越長。又因初始中心是隨機選取的,致使K-means算法的運行時間無法控制。

針對上述問題,本文提出一種名為DPCC(Density Peak Clustering Centers)的方法,為K-means算法提供初始中心。DPCC運用于K-means算法之前,通過計算數據點密度以及與高密度數據點間最近距離生成決策圖,以凸顯數據集中所有的密度峰值點。這些密度峰值點即可作為K-means算法的初始中心。



本文詳細內容請下載:http://m.xxav2194.com/resource/share/2000005243




作者信息:

李秋云1,劉燕武2

(1.中國運載火箭技術研究院 北京宇航系統工程研究所,北京 100076;
2.中國電子信息產業集團有限公司,廣東 深圳 518000)



微信圖片_20210517164139.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 男女一边摸一边做爽的免费视频| 国产精品第一区揄拍无码| 国精品午夜福利视频不卡麻豆| 国产精品成熟老女人视频| 国产农村妇女精品一二区| 免费污网站在线观看| 亚洲国产一区视频| 中文字幕资源在线| 91蜜桃传媒一二三区| 野花香社区在线视频观看播放 | 国产特级毛片AAAAAA| 啊轻点灬大ji巴太粗太长了h| 交换配乱吟粗大SNS84O| 久久精品男人影院| haodiaocao几万部精彩视频| 欧美日韩一区二区三区麻豆| 精品亚洲欧美无人区乱码| 欧美一级做一级爱a做片性| 成人中文字幕一区二区三区| 国产精品亚洲成在人线| 另类重口100页在线播放| 亚洲xxxxxx| fc2免费人成为视频| 黄网站色成年片大免费高清| 男人的j插女人的p| 日韩精品卡二卡3卡四卡| 天堂精品高清1区2区3区| 国产伦一区二区三区免费| 亚洲熟妇AV一区二区三区漫画| 中文字幕韩国电影| 亚洲最大激情中文字幕| 琪琪色原网站在线观看| 男生和女生一起差差差差| 日韩欧美电影在线| 在线中文字幕观看| 四虎永久在线精品免费观看地址| 亚洲一本之道高清乱码| 99视频免费在线观看| 美女的尿口免费看软件| 日韩精品武藤兰视频在线| 国内精品久久久久久久影视|