《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 正交約束型SincNet可微分前端及在音頻分類中的應用
正交約束型SincNet可微分前端及在音頻分類中的應用
網絡安全與數據治理 2期
劉 偉,孫 蒙,張 玥,張雄偉
(中國人民解放軍陸軍工程大學,江蘇 南京210007)
摘要: 在音頻場景分類任務中,現有端到端模型中特征建模層學習過程存在缺乏約束、學習結果缺乏直觀解釋以及僅適用于特定的后端分類模型等缺點。因此,以SincNet可微分前端為基礎,引入正交約束提高其求解效率,同時提高所得可微分前端的可解釋性,并使其能提高多種后端網絡的分類性能。提出的這種新型可微分前端命名為正交約束型SincNet(OrthSincNet)。研究發現,OrthSincNet卷積核對應的頻譜既具有類似于梅爾濾波器的形態,又可提高分類效果。在UrbanSound8K官方評測數據集上的實驗表明,相對于常用的梅爾頻譜前端,OrthSincNet改進了6種后端分類網絡的性能,分類準確率平均提高了2.2%。
中圖分類號: TP391
文獻標識碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.02.015
引用格式: 劉偉,孫蒙,張玥,等. 正交約束型SincNet可微分前端及在音頻分類中的應用[J].網絡安全與數據治理,2022,41(2):92-98.
Differentiable front-end of SincNet with orthogonal constrains and its application in audio classification
Liu Wei,Sun Meng,Zhang Yue,Zhang Xiongwei
(Army Engineering University of PLA,Nanjing 210007,China)
Abstract: In the audio scene classification task, the feature modeling layer learning process in the existing end-to-end models has shortcomings such as lack of constraints, lack of intuitive interpretation of learning results, and only applicable to specific back-end classification models. Based on the differentiable front-end of SincNet, this paper introduces orthogonal constraints to improve the performance of the solution of the overall network, tries to promote the interpretability of the learnt front-end, and adapts it to multiple back-end classifiers. The proposed new front-end is called Orthogonal SincNet(OrthSincNet). Therefore, the convolution kernels of OrthSincNet is expected to not only hold good properties on frequency responses like Mel filters but also to be able to tune the parameters adaptively for specific back-end classifiers. Experimental results on the official test set of UrbanSound8K showed that OrthSincNet improved the conventional Mel filter banks by 2.2% in average on 6 back-end classifiers.
Key words : differentiable front-end; orthogonal convolutions; SincNet; end-to-end classification network

0 引言

音頻分類是計算機自動實施聽覺感知和理解的重要步驟,也是一項非常具有挑戰性的任務,如自動音樂標記、音樂類型分類、說話人識別、音頻場景分類和多媒體檢索等。深度神經網絡的發展使得音頻分類任務的準確率取得了顯著提升。當前,深度神經網絡一般是建立在對輸入音頻提取時頻特征等預處理的基礎上,如首先通過廣泛使用的梅爾濾波器組提取時頻譜圖特征,然后將時頻譜圖特征輸入到各種后端分類網絡。

特征提取的預處理過程通常采用固定的時頻參數和濾波器類型,難以保證對所有的后端分類網絡結構持續提取出最優特征。此外,這些預處理過程一般需要線下完成,不能無縫對接到神經網絡分類器中,因此難以適用于一些需要對聲音波形進行反向求導的任務,如求解對抗樣本[1]等。這些局限性推動了研究者們尋求構建端到端模型來完成音頻分類任務。所謂端到端的分類網絡結構是指直接輸入聲音波形,然后輸出類別標簽,而無須用戶通過額外的特征提取工具來提取特征。例如,Dai等提出了具有不同網絡結構和不同數量參數的端到端卷積神經網絡(Convolutional Neural Network,CNN)用于音頻分類[2]。Tokozume等提出了一種含有8層網絡并以原始波形為輸入的端到端網絡結構,通過調節超參數并選擇適當大小的卷積核來提高分類性能[3]。此外,還有端到端的CNN架構AclNet[4],受到MobileNet[5]的啟發,其計算僅需155k參數和每秒4 930萬次乘法加法即可高效完成分類任務。




本文詳細內容請下載:http://m.xxav2194.com/resource/share/2000004865




作者信息:

劉  偉,孫  蒙,張  玥,張雄偉

(中國人民解放軍陸軍工程大學,江蘇 南京210007)

微信圖片_20210517164139.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 在线a亚洲视频播放在线观看| 桃子视频在线观看高清免费视频| 国产成人一区二区三区| аⅴ资源中文在线天堂| 日韩色图在线观看| 健身私教弄了好多次| 高清欧美一区二区免费影视| 在线观看国产一区二区三区| 久久久久亚洲AV无码专区首JN | 精品人成电影在线观看| 国产成人综合亚洲| 91麻豆最新在线人成免费观看| 成人男女网18免费视频| 乳孔被撑开乳孔改造里番| 欧美黑人又大又粗XXXXX| 午夜精品一区二区三区在线观看| 黄色毛片免费在线观看| 国产精品蜜芽在线观看| xxxxx日韩| 无遮无挡非常色的视频免费| 亚洲人成色777777在线观看| 狠狠色综合网站久久久久久久| 四虎永久在线精品视频| 国产香蕉精品视频| 国产自产拍精品视频免费看| 一个人免费视频观看在线www| 日本亚洲娇小与非洲黑人tube| 亚洲一区中文字幕在线观看| 波多野结衣厨房被强电影| 午夜毛片免费看| 视频在线一区二区| 国产看午夜精品理论片| 91视频国产91久久久| 女人是男人的未来1分29分| 中文字幕日本最新乱码视频| 日韩网新片免费| 亚洲免费中文字幕| 波多野结衣丝袜美腿| 免费看国产一级片| 美国一级毛片免费看| 国产九九视频在线观看|