《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 設計應用 > 一種基于Yarn云平臺的基因啟發式多序列比對算法
一種基于Yarn云平臺的基因啟發式多序列比對算法
電子技術應用
楊波1,徐勝超1,周繼鵬2,王志堅1
1.廣州華商學院 人工智能學院;2.暨南大學 信息科學技術學院
摘要: 提出一種基于Yarn云平臺的基因啟發式多序列比對算法。建立核酸替換等價矩陣作為基因啟發式數學模型,構建Yarn云平臺邏輯架構,通過對基因數據預處理、基因數據存儲、基因序列比對、基因數據管理、基因數據分析等步驟,對數據分類保存,劃分錯誤率較高的長序列,得到多個較短的基因片段。對不同片段實施定位,將其中的變長種子生成,進行骨架構建和孔隙填補,可以實現基因啟發式多序列比對。結果表明,設計的算法在不同數據集下處理時間縮短,多序列比對SP(Sum of Pairs)的分值較高,實驗驗證了該多序列比對方法具有很好的應用價值。
中圖分類號:TP393.4 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.245448
中文引用格式: 楊波,徐勝超,周繼鵬,等. 一種基于Yarn云平臺的基因啟發式多序列比對算法[J]. 電子技術應用,2024,50(11):16-22.
英文引用格式: Yang Bo,Xu Shengchao,Zhou Jipeng,et al. Gene heuristic multi sequence alignment algorithm based on Yarn cloud platform[J]. Application of Electronic Technique,2024,50(11):16-22.
Gene heuristic multi sequence alignment algorithm based on Yarn cloud platform
Yang Bo1,Xu Shengchao1,Zhou Jipeng2,Wang Zhijian1
1.School of Artificial Intelligent, Guangzhou Huashang College; 2.School of Information Science and Technology, Jinan University
Abstract: This paper proposes a gene heuristic multi sequence alignment algorithm based on the Yarn cloud platform. Establish a nucleic acid replacement equivalence matrix as a genetic heuristic mathematical model, construct the Yarn cloud platform logical architecture, and classify and save the data through steps such as gene data preprocessing, gene data storage, gene data alignment, gene data management, and gene data analysis. Divide long sequences with high error rates, and obtain multiple shorter gene fragments. Implementing localization on different fragments, generating variable length seeds, constructing skeletons and filling gaps, can achieve gene heuristic multi sequence alignment. The results show that the designed algorithm reduces processing time on different datasets, and the sum of pairs (SP) score for multi sequence alignment is higher. This experiment verifies the practicality of the multi sequence alignment method.
Key words : biological data;parallel computing;distributed computing architecture;distributed database system;big data processing platform

引言

生物序列對比是生物信息學領域的核心內容。由于不同物種的基因序列長度不同,大量的重復序列高頻率出現在每個物種的基因組中,因此每個物種都有一個多序列比對問題。最重要的工作是建立基因數據庫,在基因數據庫的建立過程中,對于基因啟發式的多序列比對研究是重中之重。在比對的過程中,通過比較不同物種或同一物種不同基因的DNA序列,基因啟發式多序列比對算法有助于理解基因的進化歷史、功能和結構,通過比對多個基因序列的相似性和差異性,可以推斷出這些物種之間的進化關系,從而了解物種之間是否有親緣關系和演化到目前為止的歷程。基因啟發式多序列比對算法可以找出多個基因序列之間的共同結構和功能區域,這有助于預測新的基因功能,為藥物設計和疾病治療提供重要信息。總之,基因啟發式多序列對比算法可以揭示基因的多種特點和規律,為生物學、醫學和農業等領域的研究提供重要支持。

國內外眾多學者都對基因比對算法有著深入研究。文獻[1]提出了一種基于序列長度的高效多序列比對算法,該算法首先根據基因序列的長度將其劃分為若干段,然后對每個分段排序,并與原始序列比對。文獻[2]介紹了一種基于時間窗的DNA序列分段方法,該方法的核心步驟是將DNA序列依據其長度切割成多個區間,并對這些區間逐一比較分析。而文獻[3]則側重于基因序列比對原理的探討,通過引入Logistic映射對混沌遺傳算法的優化,有效提升了算法的收斂速度。在算法設計中,它明確了基因序列的遺傳編碼方式,并計算了相應的適應度值,同時考慮了堿基缺失情況的影響。此外,文中還設計了混沌遺傳算子,實施了混沌變異操作,從而實現了基因序列的比對。文獻[4]則提出了一種基于啟發式策略的多序列比對算法。該算法首先利用啟發式策略對多個基因排序,然后將所有排序后的結果比對。然而,DNA序列比對算法在實踐中也面臨一些挑戰。由于DNA序列通常較長且序列間重疊率高,傳統的比對算法往往耗時較長。同時,由于DNA序列的穩定性以及比對結果的單一性,基因數據信息在比對過程中損失較大,這在一定程度上影響了比對的準確性。因此,如何快速且準確地完成多個基因的比對,成為當前亟待解決的問題[5-8]。

云平臺能夠共享龐大的計算資源,并以服務的形式提供給用戶,讓用戶能夠按需靈活使用。Yarn云平臺是云計算Apache Hadoop2.0生態系統中的一個關鍵組件,是用于資源管理和作業調度的分布式計算框架。利用Yarn在云環境中提供資源分配、作業調度和容錯能力,使用戶能夠高效地利用云計算提供的計算能力。本文提出了一種基于Yarn云平臺的基因啟發式多序列比對算法,旨在提高比對效率和準確性。結合生物知識建立基因啟發式數學模型,構建Yarn云平臺邏輯架構,針對處理后的數據并行計算,提高處理效率,利用HBase數據庫和基因段編碼模塊對數據的存儲和處理,將序列比對的結果展示在數據庫中。通過實驗結果可知,本文的方法運行時間較短且SP分值高于0.9,具有良好的應用性能。


本文詳細內容請下載:

http://m.xxav2194.com/resource/share/2000006204


作者信息:

楊波1,徐勝超1,周繼鵬2,王志堅1

(1.廣州華商學院 人工智能學院, 廣東  廣州511300;

2.暨南大學 信息科學技術學院, 廣東 廣州510632)


Magazine.Subscription.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 亚洲免费人成在线视频观看| 国产乱子伦精品免费无码专区| 三级视频在线播放| 欧美三级纯黄版| 免费人成网址在线观看国内| 香蕉国产人午夜视频在线| 国产高清在线精品一区| 中文字字幕在线精品乱码app| 最近最好的中文字幕2019免费| 天堂а√在线地址| 久久亚洲精品视频| 欧美日韩精品久久免费| 午夜三级限制福利电影在线看| 91麻豆最新在线人成免费观看 | 无码任你躁久久久久久老妇| 午夜时刻免费入口| 久久人人做人人玩人精品| 夜夜春宵伴娇全文阅读| 中文字幕乱码人妻综合二区三区| 特黄特色大片免费| 国产v日韩v欧美v精品专区| 日本a∨在线播放高清| 国内精品久久久久精品| 一本久久a久久精品vr综合| 日本午夜精品一区二区三区电影| 亚洲一区二区影院| 永久免费AV无码网站YY| 免费观看呢日本天堂视频| 蜜桃av噜噜一区二区三区| 国产欧美一区二区三区在线看 | 亚洲欧洲自拍拍偷综合| 秋葵视频在线观看在线下载| 国产一级性生活片| 99久久香蕉国产线看观香| 成人国产在线观看高清不卡| 久久大香线蕉综合爱| 欧美videosdesexo肥婆| 亚洲欧美日韩色| 男人使劲躁爽女人动态图| 又大又硬一进一出做视频| 观看国产色欲色欲色欲www|