国产在线精品一区二区高清不卡,69国产品国产在线观看

前言：想要寫(xiě)出一篇引人入勝的文章？我們特意為您整理了金融學(xué)文本大數(shù)據(jù)挖掘方法淺議范文，希望能給你帶來(lái)靈感和參考，敬請(qǐng)閱讀。

金融學(xué)文本大數(shù)據(jù)挖掘方法淺議

摘要：通過(guò)回顧歷史文獻(xiàn)可知，傳統(tǒng)研究主要研究文本分析常用方法，對(duì)于文本大數(shù)據(jù)挖掘?qū)嵤┻^(guò)程關(guān)注較少。本文闡述了文本大數(shù)據(jù)挖掘的主要方法，闡述在此過(guò)程中獲取、預(yù)處理、表示文檔和抽取文檔特征的方法，總結(jié)文本大數(shù)據(jù)挖掘信息來(lái)源，結(jié)合文本信息來(lái)源分析金融學(xué)領(lǐng)域文本大數(shù)據(jù)挖掘應(yīng)用發(fā)展趨勢(shì)，從而為金融學(xué)領(lǐng)域文本大數(shù)據(jù)應(yīng)用提供參考。

關(guān)鍵詞：金融學(xué)研究；文本大數(shù)據(jù)；數(shù)據(jù)挖掘；深度學(xué)習(xí)

在針對(duì)金融學(xué)領(lǐng)域進(jìn)行實(shí)證研究時(shí)，傳統(tǒng)研究方法通常選擇結(jié)構(gòu)化數(shù)據(jù)作為研究依據(jù)，常見(jiàn)類(lèi)型如股票市場(chǎng)數(shù)據(jù)、財(cái)務(wù)報(bào)表等。大數(shù)據(jù)技術(shù)發(fā)展后，計(jì)算機(jī)技術(shù)逐漸成熟，在實(shí)證研究中可獲取更加多樣化的數(shù)據(jù)，非結(jié)構(gòu)化文本大數(shù)據(jù)得到應(yīng)用，例如：P2P網(wǎng)絡(luò)借貸文本、財(cái)經(jīng)媒體報(bào)道、網(wǎng)絡(luò)搜索指數(shù)、上市公司披露文本、社交網(wǎng)絡(luò)文本等。本文探討了相關(guān)文本可讀性、相似性、語(yǔ)氣語(yǔ)調(diào)與語(yǔ)義特征等。

1.在金融學(xué)研究中文本大數(shù)據(jù)的挖掘方法

傳統(tǒng)研究方法通常采用人工閱讀方法對(duì)文本信息進(jìn)行識(shí)別，因?yàn)槲谋緮?shù)量龐大、信息構(gòu)成復(fù)雜，人工識(shí)別效率較低，而且信息識(shí)別質(zhì)量不穩(wěn)定，信息識(shí)別效果受到閱讀者專(zhuān)業(yè)素養(yǎng)、理解能力等多方面因素影響。計(jì)算機(jī)技術(shù)發(fā)展后逐漸被應(yīng)用于分析文本大數(shù)據(jù)，利用計(jì)算機(jī)技術(shù)獲取語(yǔ)料，對(duì)文本資料進(jìn)行預(yù)處理、文本表示、抽取特征等操作。完成上述步驟后，在研究分析中使用文檔特征，從而開(kāi)展深入分析[1]。在分析文本大數(shù)據(jù)時(shí)，主要采取如下流程：（1）從眾多信息來(lái)源中獲取語(yǔ)料，對(duì)語(yǔ)料文檔進(jìn)行解析，明確文本定位，清洗數(shù)據(jù)，獲得文本分詞，標(biāo)注詞性，將其中停用詞清除。（2）構(gòu)建詞云、詞嵌入、詞袋模型與主題模型。（3）分析文本情緒、可讀性、相似性，分析語(yǔ)義關(guān)聯(lián)性。（4）監(jiān)督機(jī)器學(xué)習(xí)、詞典語(yǔ)法處理[2]。

1.1獲取語(yǔ)料

獲取語(yǔ)料的方法主要分為兩種：（1）人工獲??；（2）利用網(wǎng)絡(luò)工具爬取或抓取。其中人工獲取語(yǔ)料投入成本較高，耗時(shí)較長(zhǎng)，需要投入大量人力，因此網(wǎng)絡(luò)抓取的可行性相對(duì)較高[3]。網(wǎng)絡(luò)抓取方法可有效應(yīng)對(duì)大量文本量，在一定程度上降低文本大數(shù)據(jù)獲取難度。在網(wǎng)絡(luò)抓取語(yǔ)料時(shí)，需要借助編程語(yǔ)言，通過(guò)直接抓取或爬取的方法獲取文本大數(shù)據(jù)。采用此種語(yǔ)料獲取模式具有兩方面顯著優(yōu)勢(shì)，不僅獲取文本信息耗時(shí)較短，效率較高，而且可直接使用編程語(yǔ)言整理內(nèi)容和規(guī)范形式，為后續(xù)文本分析工作奠定基礎(chǔ)[4]。

1.2預(yù)處理環(huán)節(jié)

獲取目標(biāo)語(yǔ)料后，前期需要預(yù)處理文本，解析、定位文本，清洗數(shù)據(jù)，標(biāo)注分詞與詞性，最后去除停用詞。金融市場(chǎng)通常要求企業(yè)采用PDF格式作為信息披露文檔格式，文本預(yù)處理中首先需要解析富格式文檔，獲取文檔信息。定位文本和清洗數(shù)據(jù)環(huán)節(jié)中，利用計(jì)算機(jī)程序定位文本信息[5]。在該類(lèi)研究中，MD＆A研究熱度較高，使用正則表達(dá)式進(jìn)行財(cái)務(wù)報(bào)告正文MD＆A定位首尾信息部分，提取上述信息。此外，文本信息中除核心內(nèi)容結(jié)構(gòu)外，還包括超文本標(biāo)記語(yǔ)文、腳本語(yǔ)等代碼信息、圖片信息、廣告信息等，該類(lèi)信息在文本分析中屬于噪聲內(nèi)容，需要?jiǎng)h除和清洗相關(guān)信息，從文本中篩選有價(jià)值的核心內(nèi)容[6]。文本分詞處理與文本語(yǔ)言密切相關(guān)。英文文本使用空格劃分單詞，即自然存在分詞形式，也可采取提取詞干、還原詞形等方法劃分單詞。中文文本中不使用空格分詞，根據(jù)中文語(yǔ)言習(xí)慣，詞語(yǔ)為最小語(yǔ)言單位，可獨(dú)立使用。基于此種背景，分析文本時(shí)需要專(zhuān)門(mén)分詞處理中文文本，例如：使用Python開(kāi)源“jieba”中的中文分詞處理模塊處理文本，股票論壇帖子文本、年度業(yè)績(jī)說(shuō)明會(huì)以及企業(yè)財(cái)務(wù)報(bào)告均可使用該類(lèi)工具處理，完成分詞。在針對(duì)中文文本進(jìn)行分詞處理時(shí)，其中實(shí)施難度較高的部分是識(shí)別新詞、歧義詞與控制切分顆粒度。在處理歧義詞時(shí)，需要科學(xué)選擇分詞方法，采用“jieba”針對(duì)文本進(jìn)行分詞處理時(shí)，選擇分詞模式是否科學(xué)直接影響分詞精準(zhǔn)度。分詞處理新詞時(shí)，需要用戶在相應(yīng)模塊中自行添加新詞，完善自定義詞典，從而使分詞軟件識(shí)別新詞[7]。語(yǔ)義信息被識(shí)別的關(guān)鍵依據(jù)是詞性等語(yǔ)法特征，詞語(yǔ)切分后標(biāo)記詞語(yǔ)詞性操作被稱為詞性標(biāo)注。詞性標(biāo)注操作可幫助計(jì)算機(jī)進(jìn)行詞語(yǔ)種類(lèi)識(shí)別，避免詞語(yǔ)歧義，對(duì)語(yǔ)法結(jié)構(gòu)進(jìn)行有效識(shí)別，從而促進(jìn)計(jì)算機(jī)順利進(jìn)行語(yǔ)義分析。詞性標(biāo)注時(shí)，中英文操作方法不同，詞性劃分英文單詞要求比較嚴(yán)謹(jǐn)，利用詞尾變化反映詞性變化。在英文詞匯中，許多固定詞尾可提示詳細(xì)詞性信息。在處理中文詞語(yǔ)中，并無(wú)明確詞性指示，詞性識(shí)別依據(jù)主要為語(yǔ)法、語(yǔ)義等。簡(jiǎn)言之，英文詞性識(shí)別標(biāo)記注重形式，漢語(yǔ)詞性標(biāo)記以語(yǔ)義為主。在處理文本信息時(shí)，需要將文本信息中停用詞去除，從而保證文本挖掘信息具有較高精度。所謂停用詞，即自身詞義表達(dá)有限，然而對(duì)于句子語(yǔ)法結(jié)構(gòu)完整性而言非常重要的詞語(yǔ)。停用詞導(dǎo)致文本數(shù)據(jù)具有更繁瑣維度，導(dǎo)致分析文本的成本較高。英文中動(dòng)詞、連詞、冠詞均為常見(jiàn)停用詞。中文處理方法比較復(fù)雜，必須結(jié)合語(yǔ)言習(xí)慣分析停用詞，不僅需要處理特殊符號(hào)、標(biāo)點(diǎn)符號(hào)，還需要處理連詞、俚語(yǔ)。除此之外，應(yīng)根據(jù)具體研究?jī)?nèi)容確定停用詞。在進(jìn)行文本情緒研究時(shí)，特定標(biāo)點(diǎn)符號(hào)、語(yǔ)氣詞等會(huì)影響文本表達(dá)的情感信息，對(duì)于此類(lèi)信息需要予以保留，從而保證文本情感程度得到準(zhǔn)確分析。

1.3文檔表示環(huán)節(jié)

文本數(shù)據(jù)為高維度數(shù)據(jù)，具有稀疏特點(diǎn)，使用計(jì)算機(jī)處理文本數(shù)據(jù)時(shí)難度較高，預(yù)處理實(shí)施后，必須通過(guò)特定方式表示文檔信息，通過(guò)此種處理降低后續(xù)計(jì)算機(jī)分析和人工研究難度。詞云、詞嵌入、詞袋模型、主題模型均為核心表示方法[8]。詞語(yǔ)技術(shù)具有可視化特點(diǎn)，是文本大數(shù)據(jù)技術(shù)之一。所謂本文可視化，即使用視覺(jué)符號(hào)顯示復(fù)雜內(nèi)容，展示文本規(guī)律。根據(jù)生物特性，人們習(xí)慣于通過(guò)視覺(jué)獲取文本信息，實(shí)現(xiàn)文本可視化可提高信息提取效率。使用詞云技術(shù)可有效描述文本中詞匯使用頻率，采用醒目形式顯示高頻詞匯。詞袋模型的構(gòu)建基礎(chǔ)是無(wú)嚴(yán)格語(yǔ)序要求的文字詞組存在[9]，以此種假設(shè)為前提，文本相當(dāng)于眾多詞語(yǔ)集合，采用向量化方法表達(dá)文本，在此過(guò)程中只計(jì)算各個(gè)詞語(yǔ)出現(xiàn)頻率。在詞袋模型中含有兩種構(gòu)建方法：（1）獨(dú)熱表示法；（2）詞頻-逆文檔頻率法。前者的應(yīng)用優(yōu)勢(shì)是可行性較高，操作難度較低。例如：現(xiàn)有如下兩個(gè)文檔：（1）文檔一：“經(jīng)濟(jì)學(xué)中文本大數(shù)據(jù)使用”；（2）文檔二：“金融學(xué)中文本大數(shù)據(jù)使用”。以文檔一、文檔二為基礎(chǔ)建設(shè)詞表，根據(jù)詞序?qū)嵤┰~袋化處理，確定詞袋向量。對(duì)于出現(xiàn)的詞，以“1”表示，未出現(xiàn)的詞以“0”表示。但是在實(shí)際操作中，不同詞語(yǔ)在文檔中出現(xiàn)頻率存在差異，通常文本中高頻詞數(shù)量較少，許多詞匯使用頻率較低。為體現(xiàn)文檔中不同詞語(yǔ)的作用，對(duì)單詞詞語(yǔ)賦予權(quán)重。TF-IDF是計(jì)算文檔中特定詞語(yǔ)權(quán)重的有效方法。含有詞語(yǔ)i文檔數(shù)描述為dfi，集合中文檔總量描述為N，逆文檔頻率描述為idfi，第j個(gè)文件中詞語(yǔ)i頻率描述為tfi,j，第j個(gè)文檔內(nèi)詞語(yǔ)數(shù)量描述為aj，第i個(gè)文檔內(nèi)詞語(yǔ)i權(quán)重描述為tf-idfi,j，則公式應(yīng)表示為[10]其中的前提條件是不低于1，0定義為其他情況。較之獨(dú)熱表示法，TF-IDF方法的特點(diǎn)是對(duì)每個(gè)單詞賦予不同權(quán)重。在賦予其權(quán)重的基本方法時(shí)文本中該詞匯出現(xiàn)頻率越高，其重要性越高，與此同時(shí)語(yǔ)料庫(kù)中該詞匯出現(xiàn)頻率越高，則其重要性相應(yīng)降低。詞嵌入處理中，主要是在低緯度連續(xù)向量空間嵌入指定高維空間，該高維空間維數(shù)包括全部詞數(shù)量。在金融學(xué)領(lǐng)域中進(jìn)行文本研究時(shí)，詞嵌入技術(shù)通常采用Word2vec技術(shù)，該技術(shù)中主要使用CBOW技術(shù)與Skip-Gram神經(jīng)網(wǎng)絡(luò)模型，針對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，促使其有效捕獲詞語(yǔ)中包含的上下文信息，對(duì)詞語(yǔ)進(jìn)行向量化映射，得到的向量語(yǔ)義信息更加豐富，信息密度更大，信息維度更低。主題模型中應(yīng)用頻率較高的是LDA模型，應(yīng)用此種模型進(jìn)行文本分析屬于無(wú)監(jiān)督機(jī)器學(xué)習(xí)法，通過(guò)此種方法才能夠大量集中語(yǔ)料中提取主題信息。在應(yīng)用該方法時(shí)，將生成文檔的過(guò)程分為兩步，首先假定各文檔具有對(duì)應(yīng)主題，從這些主題中抽取一個(gè)主題，然后假定文檔具有對(duì)應(yīng)詞匯，對(duì)比之前抽取的主題，從詞語(yǔ)中選取一個(gè)與主題對(duì)應(yīng)的詞語(yǔ)。完成上述迭代后，將其與文檔中各詞語(yǔ)擬合，從而獲得各文檔主題、主題中詞語(yǔ)分布情況。LDA模型主要優(yōu)勢(shì)是，與手動(dòng)編碼相比，該模型性能更完善，可有效分類(lèi)大規(guī)模文檔。該模型做出的文本主題分類(lèi)支持復(fù)制，準(zhǔn)確性較高，而采用人工手段分類(lèi)文本時(shí)較易受到主觀性影響。此外，使用此種模型時(shí)，無(wú)需人工分類(lèi)進(jìn)行關(guān)鍵詞、規(guī)則設(shè)定。LDA模型的缺點(diǎn)是在主題預(yù)設(shè)個(gè)數(shù)時(shí)，受到研究者主觀因素影響，選擇主題個(gè)數(shù)的數(shù)量受此影響顯著，因此生成主題過(guò)程與歸類(lèi)文本主題時(shí)較易受到相關(guān)影響。

1.4抽取文本特征的方法

文本特征是指文本可讀性、相似性、文本情緒以及語(yǔ)義關(guān)聯(lián)性。其中文本可讀性即讀者在閱讀文本時(shí)是否可較容易地理解文本信息。在編輯文本時(shí)應(yīng)保證文本具有較高可讀性，保證投資者通過(guò)閱讀文本可有效理解文本信息，即確保文本對(duì)投資者投資行為產(chǎn)生積極影響。有研究者在文本分析中使用迷霧指數(shù)，該類(lèi)研究認(rèn)為，迷霧指數(shù)與年報(bào)可讀性呈負(fù)相關(guān)。年報(bào)文本字?jǐn)?shù)、電子文檔規(guī)格也是影響年報(bào)可讀性的重要因素。在使用迷霧指數(shù)評(píng)價(jià)文本可讀性時(shí)，常見(jiàn)的問(wèn)題是，隨機(jī)排序句子中詞語(yǔ)將導(dǎo)致文本難以理解，然而正常文本和經(jīng)過(guò)隨機(jī)排序處理的文本在分析計(jì)算時(shí)，顯示相同迷霧指數(shù)。不僅如此，在進(jìn)行商業(yè)文本測(cè)量時(shí)采用迷霧指數(shù)作為依據(jù)具有顯著缺陷，例如，當(dāng)對(duì)企業(yè)披露信息進(jìn)行可讀性分析時(shí)，難以有效劃分年報(bào)可讀性與該企業(yè)實(shí)際復(fù)雜性?；诖朔N背景，在針對(duì)年報(bào)文本可讀性進(jìn)行評(píng)價(jià)時(shí)，需要結(jié)合企業(yè)業(yè)務(wù)復(fù)雜性等影響，提出非文本因素[11]。在提取文本情緒時(shí)，通常采用有監(jiān)督機(jī)器學(xué)習(xí)法與詞典法進(jìn)行提取操作。詞典法即在文本情緒、語(yǔ)氣語(yǔ)調(diào)研究中使用情緒詞典輔助分析。詞典確定后，該類(lèi)研究即支持復(fù)制。不僅如此，建設(shè)詞典時(shí)還需要融合大量金融學(xué)專(zhuān)業(yè)知識(shí)，從而使詞典與金融文本分析需求一致。使用現(xiàn)有多種類(lèi)詞典、文獻(xiàn)等分析媒體報(bào)道情緒，針對(duì)財(cái)務(wù)報(bào)告進(jìn)行語(yǔ)氣語(yǔ)調(diào)分析，以及進(jìn)行電話會(huì)議等進(jìn)行語(yǔ)氣語(yǔ)調(diào)分析等。中文大數(shù)據(jù)分析時(shí)，通常是以英文詞典、詞庫(kù)等為模板，構(gòu)建中文情緒詞典。使用該類(lèi)詞典輔助分析股票成交量、收益率，評(píng)估股市崩盤(pán)風(fēng)險(xiǎn)高低。在詞典法應(yīng)用中需要結(jié)合加權(quán)法進(jìn)行文本情緒分析[12]。有監(jiān)督機(jī)器學(xué)習(xí)法包括支持向量機(jī)、樸素貝葉斯等方法。采用此類(lèi)方法時(shí)，重點(diǎn)環(huán)節(jié)在于對(duì)分類(lèi)效果進(jìn)行檢驗(yàn)和評(píng)價(jià)。交叉驗(yàn)證法是常見(jiàn)檢驗(yàn)方法。有監(jiān)督機(jī)器學(xué)習(xí)法的缺點(diǎn)是必須人工編碼設(shè)置訓(xùn)練集，工作量較大，并且人工編碼較易受到主觀因素影響，分類(lèi)效果魯棒性較差，并且研究難以復(fù)制。其優(yōu)點(diǎn)是分類(lèi)精確度較好。

2.文本大數(shù)據(jù)分析

大數(shù)據(jù)分析主要是進(jìn)行財(cái)務(wù)報(bào)告等公司披露文本信息、搜索指數(shù)、社交網(wǎng)絡(luò)文本以及財(cái)經(jīng)媒體報(bào)道等進(jìn)行分析。通過(guò)文本挖掘從海量文本中抽取核心特征，分析其可行性、相似性、語(yǔ)義特征、語(yǔ)氣語(yǔ)調(diào)等，然后分析股票市場(chǎng)行為與文本特征等相關(guān)性。分析披露文本信息時(shí)，主要是利用文本信息對(duì)企業(yè)財(cái)務(wù)、經(jīng)營(yíng)、管理層長(zhǎng)效經(jīng)營(yíng)信息等進(jìn)行研究。在進(jìn)行此類(lèi)研究時(shí)，重點(diǎn)是分析文本可讀性、相似性，以及分析語(yǔ)氣語(yǔ)調(diào)。披露文本可讀性較高時(shí)，有利于投資者有效獲取公司信息，影響投資行為。迷霧指數(shù)理論認(rèn)為，財(cái)務(wù)報(bào)告具有較高可讀性的企業(yè)通常具有更長(zhǎng)久的利潤(rùn)。此外，有研究者提出，財(cái)務(wù)報(bào)告可讀性直接影響盈余預(yù)測(cè)離散性和可靠性。財(cái)務(wù)報(bào)告可讀性較低時(shí)，公司為減輕此種消極影響，可采取自愿披露措施緩解消極影響。管理者通過(guò)控制財(cái)務(wù)報(bào)告可讀性可對(duì)投資者行為做出影響[13]。在針對(duì)企業(yè)發(fā)展情況和股票市場(chǎng)發(fā)展趨勢(shì)進(jìn)行分析時(shí)，披露文本語(yǔ)氣語(yǔ)調(diào)具有重要參考價(jià)值。相關(guān)研究認(rèn)為，MD＆A語(yǔ)氣內(nèi)含有增量信息，該類(lèi)信息為企業(yè)長(zhǎng)效經(jīng)營(yíng)能力進(jìn)行預(yù)測(cè)，同時(shí)可根據(jù)該類(lèi)信息分析企業(yè)破產(chǎn)風(fēng)險(xiǎn)。管理者情緒狀態(tài)可表現(xiàn)在電話會(huì)議語(yǔ)氣中，此種語(yǔ)氣分散情況與經(jīng)營(yíng)決策具有相關(guān)性，同時(shí)語(yǔ)氣對(duì)投資者感知、分析師評(píng)價(jià)產(chǎn)生影響。分析財(cái)經(jīng)媒體報(bào)道時(shí)，主要關(guān)注媒體情緒，分析媒體報(bào)道著眼點(diǎn)，針對(duì)經(jīng)濟(jì)政策進(jìn)行分析，了解其不確定性，此外還需要研究媒體報(bào)道偏向信息、假新聞等。進(jìn)行社交網(wǎng)絡(luò)文本研究時(shí)，主要是分析策略性信息披露情況與文本情緒。搜索指數(shù)研究方面，主要通過(guò)搜索指數(shù)了解投資者關(guān)注度。

3結(jié)語(yǔ)

綜上所述，在金融學(xué)領(lǐng)域中針對(duì)文本進(jìn)行大數(shù)據(jù)挖掘時(shí)，主要分析流程是獲取語(yǔ)料、預(yù)處理文本、文檔表示以及抽取文檔特征。在分析文本大數(shù)據(jù)時(shí)，可通過(guò)分析上市公司披露文本信息、研究財(cái)經(jīng)報(bào)道、分析社交網(wǎng)絡(luò)文本和搜索指數(shù)等，評(píng)價(jià)文本的可讀性、相似性，分析語(yǔ)義語(yǔ)氣，了解文本情緒，獲取有價(jià)值的文本信息。

作者:胡丹單位:鄭州升達(dá)經(jīng)貿(mào)管理學(xué)院

金融學(xué)文本大數(shù)據(jù)挖掘方法淺議

相關(guān)熱門(mén)標(biāo)簽

相關(guān)文章閱讀

相關(guān)期刊推薦

金融學(xué)季刊

廣東金融學(xué)院學(xué)報(bào)

上海金融學(xué)院學(xué)報(bào)

上海立信會(huì)計(jì)金融學(xué)院學(xué)報(bào)

精選范文推薦