《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 針對在線教育情感分析的數據擴充研究
針對在線教育情感分析的數據擴充研究
網絡安全與數據治理 2022年 第1期
黃偉強1,劉 海2,梁韜文2,楊海華2
(1.華南師范大學 網絡中心,廣東 廣州510631;2.華南師范大學 計算機學院,廣東 廣州510631)
摘要: 在互聯網上大量主觀性的評論具有豐富的研究價值,可以通過對評論的分析獲取評論的情感極性。在對大量評論進行情感分析時,存在時間和人力消耗過多等問題,針對該問題,提出了基于聚類分析的文本數據擴充方法:在對少量關鍵數據進行標注的基礎上,通過聚類分析標注大量數據,以減少情感分析在實際應用中的成本。以在線教育平臺的評論為例,對目前多個主流在線教育平臺上爬取的共569 970條中文評論數據進行少量標注,然后使用該方法進行數據擴充,最后基于目前多個主流機器學習模型和卷積神經網絡模型進行情感分析訓練。研究結果表明,數據處理經過聚類后取得較好的數據擴充效果,其中采用卷積神經網絡模型進行的情感分析,準確度可以達到96.5%。
中圖分類號: TP391
文獻標識碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.01.015
引用格式: 黃偉強,劉海,梁韜文,等. 針對在線教育情感分析的數據擴充研究[J].網絡安全與數據治理,2022,41(1):93-100.
A data augmentation method for online education sentiment analysis
Huang Weiqiang1,Liu Hai2,Liang Taowen2,Yang Haihua2
(1.Network Center,South China Normal University,Guangzhou 510631,China; 2.School of Computer Science,South China Normal University,Guangzhou 510631,China)
Abstract: A large number of subjective comments have rich research value on the Internet. The sentiment polarity of the comments can be obtained through the sentiment analysis of the text. However, there are many problems such as excessive time and human resource consumption in sentiment analysis of massive text comments. In response to the above problems, a method of augmenting data based on cluster analysis is proposed to reduce the cost of sentiment analysis in practical applications. The method can label a large amount of data based on a small amount of key data. Taking reviews on online education platforms as an example, in this paper, a small number of data are labelled on a total of 569 970 Chinese comments crawled on many mainstream online education platforms and then augmented using the method mentioned in this paper,four popular machine learning models and the CNN(Convolutional Neural Network) model are used in the sentiment analysis. The experimental results show that the data processing achieves better data expansion effect after clustering,and the Chinese sentiment analysis model based on the convolutional neural network has an accuracy of 96.5%.
Key words : text data augmentation;sentiment analysis;natural language processing;cluster analysis

0 引言

隨著信息技術的飛速發展,在線教育逐漸興起,越來越多的人在在線教育課程中留下了有價值的評論,通過對這些評論進行情感分析可以達到多方面的目的,如分析學生對課程的滿意度、調查老師授課水平、挖掘課程質量等。 

情感分析(Sentiment Analysis),又稱為情感傾向性分析[1],目的是找出文本中情感的正負性,如正面或負面、積極或消極,并且把這種正負性數值化,以百分比或者正負值的方式表現出來。情感分析的研究方法大致可以分為兩種:一是基于情感詞典的情感分析[2],主要通過建立情感詞典或領域詞典及通過文本中帶有極性的情感詞進行計算來獲取文本的極性,由于依賴于情感詞典,存在覆蓋率不足等缺點;二是基于機器學習的情感分析,包括監督學習、無監督學習和半監督學習三種方法,其中與監督學習和無監督學習相比,半監督學習通過少量標注數據和大量無標注數據進行識別,既不用對所有的數據進行標注,也不依賴先驗經驗,有較好的實用性,從而被許多學者應用在情感分析問題上,如陳珂等[3]利用基于分類器集成的self-training方法進行情感分析研究,使用少量標注樣本和大量未標注樣本來進行情感分析訓練,準確率達86%。

數據擴充[4]是一種結合機器學習使用的方法,在訓練樣本不足的情況下,可使模型訓練更好地擬合,通過與半監督的方法相結合,可達到標注少量數據以擴充至大量訓練數據的效果。數據擴充方法目前已被用于圖像、交通、醫療等領域[5-7],目前主流的數據擴充方法有圖像翻轉、隨機噪聲、標簽傳播等[8]。

情感分析目前已被應用于如電影評論、書籍評論、微博短評等多個領域,但在在線教育課程評論領域的應用還較缺乏,把情感分析應用在在線教育課程評論上存在著各種挑戰,如評論數據的獲取、評論數據的標注等。為了解決以上問題,本文借鑒半監督學習的方法,提出基于聚類分析的文本數據擴充方法:對少量關鍵數據進行標注,并通過聚類分析獲得大量已標注數據。在目前主流在線教育平臺爬取的569 970條課程評論中選取1 000條關鍵數據進行標注并使用本文數據擴充方法擴充至10萬條標注數據,分別利用SVM[9]、RandomForest[10]、AdaBoost[11]、GradientBoost[12]和CNN模型對標注數據進行訓練,實驗表明,與目前主流的LabelSpreading算法相比,本文的數據擴充方法均有準確率上的優勢。




本文詳細內容請下載:http://m.xxav2194.com/resource/share/2000004618




作者信息:

黃偉強1,劉  海2,梁韜文2,楊海華2

(1.華南師范大學 網絡中心,廣東 廣州510631;2.華南師范大學 計算機學院,廣東 廣州510631)


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: xxxwww欧美性| 亚洲乱妇老熟女爽到高潮的片| 黄网站免费观看| 大地资源在线资源官网| 久久一本精品久久精品66| 欧美巨大xxxx做受中文字幕| 免费看黄色a级片| 青青国产成人久久激情911| 国产精品美女久久久免费| 一区国严二区亚洲三区| 日韩人妻无码一区二区三区| 亚洲校园春色另类激情| 精品久久久久久久久久中文字幕 | 精品国产免费观看一区| 国产成人精品免费视频大全办公室 | 国产麻豆精品入口在线观看| 中文字幕亚洲一区二区三区| 暖暖在线视频日本| 亚洲欧美天堂网| 秋霞免费一级毛片| 国产99视频精品草莓免视看| 成人免费视频网站www| 国产香蕉尹人在线观看视频| www.亚洲欧美| 成人综合激情另类小说| 久久精品国产一区二区电影| 欧美大香线蕉线伊人久久| 人人妻人人爽人人做夜欢视频九色| 美女视频内衣脱空一净二净| 国产在线精品一区二区中文| 爽爽影院在线看| 在厨房里挺进美妇雪臀| ol丝袜高跟秘书在线观看视频| 拍摄直播play文h| 久久国产视频网站| 最近免费中文字幕完整7| 亚洲欧洲专线一区| 漂亮人妻洗澡被公强| 免费看的黄色大片| 精品福利一区二区三区| 国产一区二区视频在线观看|