摘 要: 在煙草行業中,卷煙感官分析評價技術已成為煙葉新品種培育、卷煙新產品研發、配方成分替換、香味品質管理等許多方面的重要技術手段。介紹了卷煙質量評價系統的實現。該系統主要依據文本情感分析原理和詞頻統計技術,旨在對卷煙產品的質量評價信息進行管理,對評價數據進行統計分析,并能對海量評價信息進行匯總,方便用戶查看,為產品用料提供依據。
關鍵詞: 卷煙;文本情感分析;詞頻統計;數據庫
卷煙產品主要是通過點燃、吸食,從而給吸煙者帶來生理、心理的強烈滿足感和舒適愉悅心情的一類產品。煙葉原料、葉組配方、香精香料、輔料搭配、工藝改進等都會對卷煙內在品質產生較大影響,進而影響卷煙的感官質量,最終直接影響卷煙受消費者青睞的程度。感官評吸能客觀、直接地檢驗并監控卷煙內在品質的變化,評價員站在消費者的角度專業地對卷煙進行吸味評定并提出寶貴指導意見,從而更好地指導原料選擇、配方調整等工作的開展。評價員通過視覺、嗅覺、感官對卷煙品類、地方吸食喜好符合性和真偽煙的初步鑒別都可以有一個現場及時的總體把握[1]。由此可見卷煙的感官評價對卷煙產品的重要性。但是由于傳統的感官評價數據比較分散,沒有對評價數據進行系統的統一管理,數據比較容易丟失,并且也不利于對數據的進一步研究利用,更不利于實現信息的共享,因此,本系統旨在對單料煙感官質量數據進行系統的管理。
由于參與感官評價的評委眾多,并且每位評委對同一種煙的評價也褒貶不一,因此在對評價信息進行詞頻統計之后,需要按照文本情感分析原理對其進行分析,確定每位評委的情感傾向,進而實現評價數據的管理。
1 系統結構及實現原理
1.1 系統總體設計思想
本系統旨在將手工方式管理感官評價數據轉變成計算機錄入管理。該系統可以將多個評委評吸數據進行綜合評價,形成質量分析報告,實現卷煙感官質量評價管理與分析的方便性和高效性。
系統在軟件架構上采用C/S架構模式。為了更好滿足企業多點研發模式,采用Microsoft Visual C#.NET 2.0開發平臺和SQL Server 2005數據庫,服務器部署方式為應用服務器—數據服務器分離的分布式構架、“雙機熱備”技術。本系統與ERP系統在企業局域網中實現信息集成,通過接口傳輸原料基本信息和質量數據。同時為了保證數據具有良好的安全性,系統采用CA認證、多級多層次權限控制、MD5等加密技術的安全機制。
1.2 具體結構
1.2.1 數據庫結構
根據卷煙國家標準、感官評價方法標準和卷煙感官標準樣品,該單料煙感官評價系統的數據庫包括:卷煙樣品信息表、評吸數據模板、感官評吸數據表、測試平臺數據表、評吸標準數據表、評吸人員數據表和感官評價測試結果視圖。數據庫的結構如圖1所示。
1.2.2 系統結構
本功能旨在管理卷煙產品的質量綜合測試與評價過程,并對測試評價數據進行統計分析。整個系統可分為3大模塊:評價數據管理、評價數據統計分析和系統管理。系統結構圖如圖2所示。
其中,評價數據管理模塊的作用是錄入評吸數據模板、錄入評吸數據、錄入評吸標準及錄入評價人員檔案信息等信息的錄入,實現的功能為:對市場測試評價數據的統一管理,用于市場測試評價數據的統計分析。為減輕數據管理員的工作強度,可將相關的質量數據直接導入到本系統中。導入數據的格式可采用Excel文件格式,這使整個數據導入工作快速高效,也減少了操作人員錄入數據時出現的錯誤,提高了工作效率。評價數據統計分析模塊主要實現的功能是對市場測試評價數據的統計分析功能,主要評價描述的摘要統計,并能實現摘要信息的Excel格式導出,為管理和改進卷煙配方提供參考依據。系統管理模塊旨在管理系統的權限,保障系統的安全性,當系統操作數據出現異常情況時,便于管理員通過系統日志找出出現問題的原因,并及時改正;還有利于管理各個人的角色,有利于責任的落實,如果哪個角色的工作沒做完或出現了問題,便于部門領導將相應的責任落實到個人,便于下一步工作的部署。
1.3 關鍵技術實現
1.3.1 詞頻統計算法實現
詞頻統計[2]是一種用于情報檢索與文本挖掘的常用加權技術,用以評估一個詞對于一個文件或者一個語料庫中的一個領域文件集的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。利用詞頻統計方法實現產品特征的出現頻率的統計,以句子為單位,實現名詞與形容詞的匹配,并將名詞按出現頻率從高到低排序,將形容詞按權值加權求值,實現評價信息的概括、歸納的功能。
可以將評價數據Execl表格格式導入,導入數據如表1所示。
詞頻統計過程如圖3所示。
1.3.2 文本情感分析原理
文本情感分析又稱意見挖掘,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。情感分析可歸納為3項層層遞進的研究任務,即情感信息的抽取、情感信息的分類以及情感信息的檢索與歸納。
首先,建立卷煙感官評價指標詞庫,例如香氣、外觀、口感、刺激性、余味、勁頭、煙氣、包裝等;建立情感詞庫,例如很好、好、較好、一般、差、小、較小、柔和等。
將由詞頻統計后的結果,即其中的名稱與卷煙感官評價指標詞庫進行相似度匹配,形容詞與情感詞庫進行匹配,進而判斷該句評價信息的評價指標和對該指標的評價情感,匹配規則如下:
其中,S2、L分別表示文本標引詞串和知識庫中的詞串。
1.3.3 用戶管理與系統維護的解決方案
本平臺采用多級權限多層次管理模式,定義多個角色,通過關聯用戶和角色的定義關系,實現用戶權利分配。系統將菜單和功能按鈕、數據列都作為權限控制的范疇,建立程序資源和權限的關聯關系的同時建立程序資源和界面功能組件(菜單,功能按鈕)的關聯關系,定義分級管理的授權模型,系統基于角色對用戶組進行訪問控制,同時支持角色的繼承和多重繼承。
由于卷煙產品配方的重要性,系統提供對產品各類配方數據管理權限的控制功能,僅開放給授權用戶操作相關產品牌號的配方數據,他人不能操作,以確保關鍵數據的保密性。
2 系統功能與應用
2.1 數據管理
數據管理可以實現對卷煙感官評價過程中的數據的集中的、系統的管理,方便以后對數據的處理和研究,避免出現數據丟失的問題,同時也便于數據的共享。該功能模塊主要包括兩部分:(1)評價人員檔案管理,系統對相關人員的所屬測試平臺、檔案信息及評價水平進行分類管理,方便數據有效性的責任落實。其中測試平臺分為內部測試平臺和外部測試平臺,包括中煙評煙委員會、煙草公司、零售戶等。(2)測試數據管理,實現對質量評價結果的管理,用于評價數據統計。測試數據的錄入有手動錄入和批量錄入兩種方式。系統支持Execl文件導入功能,這使整個數據導入工作快速高效,也減少了操作人員錄入數據時出現的錯誤。在導入數據時,系統根據事先建立好的評價數據模板,將導入的數據與其進行匹配,自動根據評吸人員姓名與測試平臺人員檔案信息進行關聯,對于未關聯上的評吸人員進行系統提示,由用戶手工指定關聯關系。
2.2 評價數據統計分析
評價數據統計分析功能模塊實現對市場測試評價數據的統計分析功能,包括評價人數統計和評價描述的摘要統計,方便用戶對卷煙感官評價有一個整體的把握,為后續的卷煙配方的調整提供可靠依據,如圖4所示。利用文本情感分析、詞頻統計算法、中文語義識別算法和專有名詞庫,對測試小組的全部評價描述語言進行語義識別,提取出產品質量評價匯總摘要,對市場測試數據進行統計匯總,并將匯總結果保存在系統中。
卷煙產品的吸食特點,決定了卷煙感官質量評價的重要性,它是與消費者直接接觸的,直接決定著消費者的喜惡。本系統能夠系統地管理感官評價信息,采用文本情感分析技術和詞頻統計技術做技術支撐,對感官質量評價數據做了科學深入的處理,方便用戶整體把握卷煙感官評價,為后續的卷煙配方的調整提供可靠依據。
今后系統還應考慮添加卷煙市場銷量規律管理功能,通過分析市場銷量數據與感官質量數據之間的相關性研究,得出市場銷量與感官質量評價之間的關系,并作進一步研究。
參考文獻
[1] 劉忠祥.卷煙感官分析與評價[DB/OL].全國煙草品種審定委員會,2011.
[2] 費洪曉,康松林,朱小娟,等.基于詞頻統計的中文分詞的研究[J].計算機工程與應用,2005(7):67-68.
[3] 陸文星,王燕飛.中文文本情感分析研究綜述[J].計算機應用研究,2012(6):2014-2017.