摘 要: 近年來我國創業板股市頻繁出現新股破發現象,暴露出創業板市場存在的風險問題。基于行為金融學及有限注意力理論,運用Web挖掘手段和機器學習算法分析股票論壇投資者的文本評論和搜索行為,建立投資者情緒和投資者關注指數,對創業板新股破發進行定量化實證研究。結果表明,除了市場指標、發行指標、機構參與指標和財務指標,從股票論壇和搜索引擎獲取的投資者情緒和關注也是影響創業板股票破發的重要因素,據此建立的新股破發預測模型平均準確率達90%。
關鍵詞: Web挖掘;新股破發;機器學習;支持向量機;樸素貝葉斯
0 引言
創業板市場是專門為創業型企業融資上市的市場,與主板市場相比,門檻低、風險高。近年來,創業板迎來大面積新股破發的窘境,即新股的上市首日收盤價低于其發行價。破發的損失全部由廣大的投資者承擔,打擊二級市場投資者的信心,不利于新股流通;降低保薦人和承銷商信譽度和業務量;影響發行公司信譽,不利于其再融資。探究創業板新股破發成因并對其進行預測具有重大意義。
以往對新股破發問題的研究主要從傳統的財務指標和上市公司基本信息出發,未能全面地解釋這一現象。互聯網上關于上市公司和股民觀點的大數據為探究新股破發成因帶來了新的思路。本文基于行為金融學和有限注意力理論,利用Web挖掘技術和機器學習算法,從股票論壇和搜索引擎爬取數據進行文本挖掘和情感分析。將建立的投資者情緒和關注指標與傳統的金融學指標相結合,全面探究創業板股票破發成因,建立預測模型。本文研究框架如圖1所示。實證表明,預測模型準確率達到90%以上,可用于對創業板股票市場行情的早期研判,有助于監管部門提早采取引導措施,避免新股破發帶來的危害,推動創業板以及整個證券市場的協調發展。
1 國內外相關研究現狀
對新股破發的影響因素,蔡春華認為影響破發最主要的3個因素是每股收益、發行價格和日換手率[1]。肖奇定性地從發行公司、政府、承銷商和投資者4個維度去探究新股破發的原因[2]。
在文本挖掘技術興起之前,對于投資者情緒的度量主要是使用金融市場中其他數據計算得到的間接代表投資者情感的指標,魯訓法選用“每周新開交易賬戶數”作為反映投資者情緒變化的代理指標[3]。
有限注意力理論認為存在注意力配置的問題,投資者關注確實會影響其對信息的反應,進而影響決策。WYSOCKI P D發現發帖量能夠預測第二天的交易量與異常收益率[4]。
2 影響創業板新股破發的指標體系建立
本文把市場因素、上市指標、機構參與情況以及公司財務狀況與投資者情緒和關注相結合,建立起表1所示的指標體系。
3 投資者情緒和投資者關注指標計算
3.1 投資者情緒指數計算
本文以東方財富股吧作為數據源,爬取45支作為樣本的創業板個股上市前后10天的帖子共61 921條,并從中抽取了2 000條進行“積極”、“消極”和“中性”的人工情感標注。用查全率和查準率的綜合值f1來比較樸素貝葉斯(NB)和線性支持向量機(LinearSVC)等分類算法的效率,結果如圖2所示。最終確定1 500的特征維度下的支持向量機法作為最佳分類器。
3.1.1 樂觀情緒指數
樂觀情緒指數計算公式為:
表示t時間段內類別c的帖子的加權條數,M看漲和M看跌分別代表t時刻看漲的帖子和看跌帖子的數目,若t時間段內沒有人發帖,則認為情緒指數為0。
3.1.2 意見分歧指數
情緒的方差計算公式如下:
3.2 投資者關注指標計算
股票論壇某日發帖量可作為投資者關注的衡量指標,而搜索引擎也是中小投資者獲取信息的主要網絡渠道。百度在中國平均市場份額遠超其他搜索引擎,故選擇百度指數作為數據源。對每支個股都將股票名稱和股票代碼搜索強度加總來描述該股的綜合搜索強度。
4 創業板新股破發成因實證分析
4.1 樣本個股選取及時間范圍確定
本文按照與當年上市的創業板新股總量成比例的原則選取了2011年1月25到2014年1月23日之間上市的45支創業板個股。
以股票的首發抑價率作為因變量來衡量創業板新股上市當日的破發程度,抑價率越高,破發的程度越低,計算公式如下:
4.2 多元線性回歸
4.2.1 OLS多元線性回歸和多重共線性檢驗
根據指標體系建立多元逐步線性回歸模型,消除模型的共線性和異方差性后,結果如表2所示。
4.2.2 多元線性回歸結論
創業板指數代表的市場行情與新股抑價率成正比,說明市場行情好的時候股票不容易破發。而在發行指標中,市盈率、首發募集資金以及超募資金均與抑價率成反比,這體現了創業板新股“三高”問題是導致創業板破發的重要原因。限售股的比例與首發抑價率成正比,說明較高的機構參與度往往可以降低股票的破發概率且影響力較大。此外公司本身的盈利情況和資產構成也會影響其是否破發。可以發現網絡變量是影響創業板破發的重要因素,首發前5~10天投資者越樂觀和關注度越高,股票破發的概率越小。而首發之后的5~10天投資者的情緒和關注對破發的影響大大降低,可能是這段時間內投資者并沒有獲得更多的新消息。直到上市當天,投資者情緒和關注又會對首發抑價率產生正向影響。當投資者意見存在分歧時,市場的投機氛圍弱,股票破發的風險也會降低。
5 新股破發預測模型
線性回歸模型中的顯著變量作為特征,以45只個股作為訓練集,并以另外20只新股作為測試集,分別以支持向量機(SVM)和樸素貝葉斯(NB)模型建立分類預測模型。采用十折交叉檢驗的方法,用查全率和查準率的綜合值f1作為評價模型準確率的指標。將預測模型與只用傳統金融學指標作為特征建立的分類模型進行對比,結果如表3所示。
6 結論
實證研究中模型擬合優度達到93%,很好地解釋了創業板股票破發的成因。市場指標、發行指標、機構參與指標、財務指標、投資者情緒和關注都是創業板破發的重要影響因素。據此建立的新股破發預測模型較傳統預測模型準確率從60%提升到90%以上。投資者情緒和關注本身是多因素的綜合反映,從這兩點入手來研究創業板股票破發問題,開辟了這一問題研究的新視角。
考慮了網絡信息后模型擬合優度從57%提升到了93%,說明從網絡信息中獲取的投資者情緒和關注是影響創業板股票破發的重要因素。基于Web挖掘的預測模型準確率超過90%,可為投資者決策提供參考,減少損失。
根據實證結論給監管部門的建議如下:(1)創業板新股“三高”問題是導致創業板破發的重要原因,要完善創業板股票的發行和定價機制,增加獨立中介機構的詢價權限,防止機構為了自身利益報價過高;(2)創業板公司需強化信息披露,防止惡意隱瞞其財務和重要信息;(3)網絡已經成為股市輿情的重要發源地,有關部門應完善對論壇、搜索引擎等網絡平臺的監管,加強投資者教育,引導情緒,促進其理性投資。
參考文獻
[1] 蔡春華.中國創業板上市公司破發影響因素實證分析[J].現代商業,2013(8):43-44.
[2] 肖奇.我國創業板新股破發原因探究[D].成都:西南財經大學,2012.
[3] 魯訓法,黎建強.中國股市指數與投資者情緒指數的相互關系[J].系統工程理論與實踐,2012(3):621-629.
[4] WYSOCKI P D. Cheap talk on the Web: the determinants of postings on stock message boards[J]. University of Michigan Business School Working Paper, 1998 (98025).