公務(wù)員期刊網(wǎng) 論文中心 正文

數(shù)據(jù)挖掘的電影票房分析

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘的電影票房分析范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

數(shù)據(jù)挖掘的電影票房分析

【摘要】在電影產(chǎn)業(yè)迅猛發(fā)展的今天,票房直接反映了一部電影所帶來(lái)的經(jīng)濟(jì)效益,也是衡量一部電影成功與否的重要指標(biāo),因而對(duì)電影票房進(jìn)行分析和預(yù)測(cè)來(lái)輔助電影投資和排片十分必要。本文選取了2015~2017年三年的電影數(shù)據(jù),通過(guò)建立C5.0決策樹(shù)模型,分析了類型、檔期、發(fā)行公司、國(guó)家地區(qū)等八個(gè)重要因素對(duì)電影票房高低的影響,構(gòu)建了電影票房預(yù)測(cè)模型。在此基礎(chǔ)上,本文也對(duì)這些影響因素進(jìn)行了關(guān)聯(lián)規(guī)則分析。通過(guò)實(shí)驗(yàn)分析,得出了諸多有意義的結(jié)論,如制式是影響票房的關(guān)鍵因素。此外,結(jié)果表明,本文構(gòu)建的預(yù)測(cè)模型效果良好,可將其用于電影票房預(yù)測(cè)。

【關(guān)鍵詞】電影票房;數(shù)據(jù)挖掘;分類預(yù)測(cè);決策樹(shù);關(guān)聯(lián)分析

1引言

隨著人們生活水平不斷提高,我國(guó)影視行業(yè)發(fā)展迅速,成為全球第二大電影市場(chǎng),同時(shí)也是增長(zhǎng)最快的市場(chǎng)之一。據(jù)中國(guó)新聞出版廣電總局調(diào)查顯示,2017年全國(guó)電影總票房已經(jīng)超過(guò)550億[1],這說(shuō)明中國(guó)電影產(chǎn)業(yè)有著良好的發(fā)展前景。然而,電影行業(yè)本身的高風(fēng)險(xiǎn)性和社會(huì)環(huán)境的多樣性也為電影票房帶來(lái)許多不確定因素,高投入低票房低收益的電影案例也屢見(jiàn)不鮮,如2016年上映的《封神傳奇》斥資5億,卻只收獲2.84億的票房。因而,研究電影票房的預(yù)測(cè)模型和相關(guān)影響因素對(duì)電影投資和排片的決策有著至關(guān)重要的指導(dǎo)性作用。電影作為一種特殊的生存期短的商品,對(duì)其票房的預(yù)測(cè)難度非常大。然而,電影在制作和宣傳過(guò)程中的高成本、高風(fēng)險(xiǎn)使得對(duì)電影票房的預(yù)測(cè)至關(guān)重要。吳發(fā)翔等[2]選取了2015年上映的200部國(guó)產(chǎn)電影作為實(shí)驗(yàn)數(shù)據(jù),通過(guò)觀眾期待度、電影自身影響度、同期競(jìng)爭(zhēng)力等作為預(yù)測(cè)因變量,提出了基于決策樹(shù)C5.0的票房預(yù)測(cè)模型。鄭堅(jiān)等[3]選取2008~2010年之間192部國(guó)產(chǎn)電影作為數(shù)據(jù)集,提出了一種基于多層反饋神經(jīng)網(wǎng)絡(luò)的票房預(yù)測(cè)模型。王煉等[4]選取了2011年上映的211部電影進(jìn)行分析,提出了基于網(wǎng)絡(luò)搜索的票房預(yù)測(cè)模型。對(duì)比這些現(xiàn)有的票房預(yù)測(cè)研究[5],他們選取的數(shù)據(jù)集多為2016年之前,缺乏時(shí)效性。此外,他們并未將電影制式作為影響票房的因變量因素進(jìn)行分析?;诖耍疚膶?015~2017三年間在中國(guó)內(nèi)地上映的所有電影票房數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),選取了類型、檔期、發(fā)行公司、國(guó)家地區(qū)、制式、導(dǎo)演影響力、主演影響力、同期競(jìng)爭(zhēng)力八個(gè)影響因素,對(duì)電影票房進(jìn)行了分類分析和關(guān)聯(lián)規(guī)則分析,建立了電影票房預(yù)測(cè)模型。本文選取的實(shí)驗(yàn)數(shù)據(jù)具備很強(qiáng)的時(shí)效性,覆蓋度廣,同時(shí)創(chuàng)新性地選取了電影制式作為因變量影響因素,對(duì)電影票房預(yù)測(cè)模型的研究具有非常重要的意義。

2數(shù)據(jù)選擇和處理

數(shù)據(jù)的選擇和處理作為數(shù)據(jù)分析的重要組成步驟,會(huì)直接影響到數(shù)據(jù)分析的結(jié)果。

2.1數(shù)據(jù)選擇

本文選取了2015~2017三年的電影票房數(shù)據(jù),與其他已有的電影票房預(yù)測(cè)模型相比,具備很強(qiáng)的時(shí)效性和適用性。本文抓取的電影數(shù)據(jù)來(lái)源于中國(guó)票房網(wǎng),中國(guó)票房網(wǎng)是電影票房統(tǒng)計(jì)官方網(wǎng)站,提供詳細(xì)的電影相關(guān)信息,保證了數(shù)據(jù)的權(quán)威性、準(zhǔn)確性和完整性。本文預(yù)測(cè)的目標(biāo)變量為電影票房,預(yù)測(cè)的因變量為電影票房的八個(gè)影響因素(詳見(jiàn)第3章)。

2.2數(shù)據(jù)處理

本文的數(shù)據(jù)預(yù)處理分三個(gè)部分:異常處理,如,對(duì)空數(shù)據(jù)通過(guò)其他途徑得到并進(jìn)行填充或者直接剔除;數(shù)據(jù)去重,對(duì)重復(fù)數(shù)據(jù)進(jìn)行刪除;字段處理,統(tǒng)一每個(gè)字段的格式和類型,僅保留有效字段。

3電影票房的重要影響因素

電影票房預(yù)測(cè)對(duì)于降低電影的投資風(fēng)險(xiǎn)至關(guān)重要。電影票房預(yù)測(cè)模型的好壞很大程度上取決于電影票房影響因素的選擇。電影自身的影響力決定了這部電影的質(zhì)量和口碑,而質(zhì)量和口碑影響著電影的后期票房。主創(chuàng)團(tuán)隊(duì)影響力影響的則是觀眾對(duì)電影的期待度,這會(huì)影響電影的前期票房?;诖?,本文主要從電影自身影響力和主創(chuàng)團(tuán)隊(duì)影響力這兩方面出發(fā),研究了類型、檔期、發(fā)行公司、國(guó)家地區(qū)、制式、導(dǎo)演影響力、主演影響力和同期競(jìng)爭(zhēng)力對(duì)電影票房的影響。

3.1類型

不同類型的電影有不同的受眾群體,不同的群體又具有不同的消費(fèi)水平。例如動(dòng)畫(huà)類電影,觀影人群大多為兒童,相對(duì)其他群體來(lái)說(shuō)人數(shù)較少,且消費(fèi)水平較低,因此會(huì)對(duì)票房產(chǎn)生一定影響。本文將電影的類型通過(guò)離散化分為12類,分別為愛(ài)情、災(zāi)難、藝術(shù)、恐怖、戰(zhàn)爭(zhēng)、記錄、動(dòng)畫(huà)、喜劇、科幻、奇幻、動(dòng)作、劇情,分析了類型對(duì)票房的影響。

3.2檔期

從某種程度上來(lái)說(shuō),檔期是電影的縱向市場(chǎng)。一年中的不同時(shí)段,人們的觀影需求和消費(fèi)能力有明顯差異,比如節(jié)假日通常會(huì)比非節(jié)假日的觀影需求要大得多,進(jìn)而影響票房。本文將數(shù)據(jù)進(jìn)行了離散化處理,將檔期分為5類,分別為五一檔(4.27-5.10)、暑期檔(7.1-9.1)、國(guó)慶檔(9.27-10.10)、賀歲檔(12.26-次年2.1)和其他。

3.3發(fā)行公司

好的電影發(fā)行公司一般具有專業(yè)的制作團(tuán)隊(duì),先進(jìn)的技術(shù)條件和雄厚的資本積累,是電影票房的潛在保障。本文對(duì)數(shù)據(jù)進(jìn)行了離散化,通過(guò)調(diào)研和總結(jié),將制片公司分為3類:好萊塢八大電影公司、中國(guó)十大電影公司和其他。其中,好萊塢八大電影發(fā)行公司包括:華納兄弟公司、米高梅電影公司、派拉蒙影業(yè)公司、哥倫比亞影業(yè)公司、環(huán)球影片公司、聯(lián)美電影公司、20世紀(jì)??怂闺娪肮?、迪士尼電影公司,而中國(guó)八大電影發(fā)行公司包括:中影CFGC(中國(guó)電影集團(tuán)公司)、光線傳媒(北京光線傳媒股份有限公司)、華誼兄弟(華誼兄弟傳媒股份有限公司)、博納影業(yè)BONA(博納影業(yè)集團(tuán)股份有限公司)、上影(上海電影(集團(tuán))有限公司)、萬(wàn)達(dá)影業(yè)(大連萬(wàn)達(dá)集團(tuán)股份有限公司)、樂(lè)視影業(yè)(樂(lè)視網(wǎng)信息技術(shù)(北京)股份有限公司)、寰亞(香港寰亞綜藝集團(tuán)有限公司)、安樂(lè)EDKO(安樂(lè)影片有限公司)、嘉映影業(yè)(北京嘉映文化傳媒有限公司)。

3.4國(guó)家地區(qū)

各個(gè)國(guó)家和地區(qū)的電影風(fēng)格各具特色,因此也會(huì)受到人們不同程度的喜愛(ài),所以國(guó)家地區(qū)也是要考慮的因素之一。本文通過(guò)對(duì)數(shù)據(jù)進(jìn)行離散化,結(jié)合不同國(guó)家和區(qū)域的電影出品特點(diǎn),將國(guó)家地區(qū)分為5類:中國(guó)大陸(中國(guó))、港臺(tái)(香港、臺(tái)灣)、歐美(美國(guó)、英國(guó)、法國(guó)、意大利)、日韓(日本、韓國(guó))和其他。3.5制式近年引入的電影制式,如3D、IMAX等,其具備的立體動(dòng)畫(huà)和巨型屏幕會(huì)比2D電影的代入感更強(qiáng),會(huì)帶給觀眾更好的觀影體驗(yàn),所以被不少觀眾青睞。通過(guò)分析抓取到的電影詳情數(shù)據(jù),發(fā)現(xiàn)很多電影有多種制式,如2D和3D并存。本文選取一部電影最先進(jìn)的制式(IMAX制式>3D制式>2D制式)作為離散化標(biāo)準(zhǔn),將電影制式離散化為四類:2D、3D、IMAX和其他。

3.6導(dǎo)演影響力

如果一名導(dǎo)演自身有很高的知名度,則通常他導(dǎo)演的電影也將被大眾所期待,對(duì)電影票房起著積極作用。本文將導(dǎo)演影響力作為影響電影票房的因素之一。具體地,某部電影的導(dǎo)演影響力可通過(guò)計(jì)算該電影的導(dǎo)演在此之前導(dǎo)過(guò)的兩部電影票房總和得到。通過(guò)分析2015~2017年三年來(lái)每部電影的導(dǎo)演影響力,本文將導(dǎo)演影響力離散化為5類:很低(<100)、較低(100-1000)、一般(1000-5000)、較高(5000-10000)和很高(>10000)。

3.7主演影響力

主演是電影的主角,是電影表現(xiàn)力和票房號(hào)召力不可或缺的一部分。如果參演人員本身具有表演實(shí)力和一定知名度且受人們喜愛(ài),則電影的受期待程度通常較高,對(duì)電影票房有著積極影響。本文將主演影響力作為影響電影票房的因素之一。具體地,某部電影的主演影響力可選取該電影排名前三的主演進(jìn)行分析,即分別計(jì)算每位主演在此之前作為排名前三的主演參與演出的前三部電影票房總和,最后將其求和作為該電影的主演影響力。通過(guò)分析計(jì)算出的結(jié)果,本文將主演影響力離散化為4類:很低(<1000)、較低(1000-80000)、較高(80000-300000)和很高(>300000)。

3.8同期競(jìng)爭(zhēng)力

因?yàn)橛^眾通常會(huì)選擇質(zhì)量好、話題度高且性價(jià)比高的電影,因此同期其他電影的上映情況會(huì)間接對(duì)該電影票房產(chǎn)生影響。本文將同期競(jìng)爭(zhēng)力作為影響電影票房的重要因素之一。本文通過(guò)計(jì)算某部電影上映前后一周(共兩周)的電影票房總和得到同期競(jìng)爭(zhēng)力,對(duì)其離散化后分為4類:很低(<50000)、較低(50000-120000)、較高(120000-200000)、很高(>200000)。

4實(shí)驗(yàn)與分析

本文采用IBMSPSSModeler對(duì)2015~2017三年的電影票房進(jìn)行分析:用C5.0決策樹(shù)[2,5,6]分析影響電影票房的因素,用Apriori算法[5,6]分析各影響因素之間存在的關(guān)聯(lián)規(guī)則。

4.1分類分析

為了降低電影投資的風(fēng)險(xiǎn),幫助投資者做出相關(guān)決策,本文對(duì)電影票房進(jìn)行了預(yù)測(cè)與分析。

4.1.1決策樹(shù)的構(gòu)建

本文采用C5.0決策樹(shù)對(duì)票房預(yù)測(cè)模型進(jìn)行構(gòu)建。C5.0決策樹(shù)是基于C4.5開(kāi)發(fā)的分類算法。由于國(guó)家地區(qū)和發(fā)行公司間存在關(guān)聯(lián)性,而貝葉斯分類算法需要各因素間相互獨(dú)立,因此并不適用于電影票房預(yù)測(cè)模型。此外,線性回歸和神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型適用于連續(xù)的因變量預(yù)測(cè),且不易理解和部署,因此C5.0決策樹(shù)算法更為適合電影票房的預(yù)測(cè)分析。決策樹(shù)是一種樹(shù)形的數(shù)據(jù)結(jié)構(gòu),其中每個(gè)非葉子節(jié)點(diǎn)表示一個(gè)屬性,每個(gè)葉子節(jié)點(diǎn)代表一種分類結(jié)果。C5.0決策樹(shù)算法[6]是目前最經(jīng)典的決策樹(shù)算法之一,根據(jù)能帶來(lái)最大信息增益的特征屬性來(lái)拆分樣本,經(jīng)過(guò)數(shù)次迭代,可生成決策樹(shù)或規(guī)則集以完成分類和預(yù)測(cè)。本文采用IBMSPSSModeler數(shù)據(jù)分析軟件,首先將類型、檔期、發(fā)行公司等八個(gè)電影票房的重要影響因素(詳見(jiàn)本文第3章)進(jìn)行離散化,作為決策樹(shù)的輸入變量,同時(shí)將票房通過(guò)離散化分為5類:非常低(<1000=、較低(1000-5000)、一般(5000-10000)、較高(10000-50000)和非常高(>50000)作為決策樹(shù)的目標(biāo)變量,采用C5.0算法建立了決策樹(shù)模型。

4.1.2實(shí)驗(yàn)結(jié)果與分析

該模型的準(zhǔn)確率為76.06%,通過(guò)分析實(shí)驗(yàn)結(jié)果可知,電影制式對(duì)票房的影響最大,預(yù)測(cè)變量重要性高達(dá)0.39。其次是主演影響力和國(guó)家地區(qū)。而同期競(jìng)爭(zhēng)力、發(fā)行公司是重要性最低的兩個(gè)因素。在此基礎(chǔ)上,本文將實(shí)驗(yàn)結(jié)果分析如下:(1)由于3D、IMAX等技術(shù)相對(duì)先進(jìn),制作成本高,因此票價(jià)比一般2D電影貴,導(dǎo)致票房普遍較高,這可能是制式影響票房的主要原因。其次,觀眾對(duì)3D、IMAX電影更有新鮮感,同時(shí)這些電影也會(huì)給觀眾帶來(lái)好的觀影體驗(yàn),觀影人數(shù)較多,所以票房較高。(2)除制式外,國(guó)家地區(qū)也是影響票房的關(guān)鍵因素之一,原因可能是大多在中國(guó)內(nèi)地能夠上映的國(guó)外電影,都已經(jīng)在該地區(qū)內(nèi)上映,并且取得了良好成績(jī),電影質(zhì)量、口碑也相對(duì)較好。因此,國(guó)外電影在中國(guó)內(nèi)地上映后能取得高票房也在情理之中。(3)發(fā)行公司是影響票房的因素中重要性最低的,這可能是因?yàn)槟壳皣?guó)內(nèi)制片公司仍然沒(méi)有形成“幾支獨(dú)秀”的局面,即國(guó)內(nèi)還沒(méi)有形成像美國(guó)好萊塢一樣占有絕對(duì)領(lǐng)先地位的制片公司或集團(tuán),因此發(fā)行公司對(duì)電影票房的影響相對(duì)較低。

4.2關(guān)聯(lián)分析

為進(jìn)一步梳理影響票房的重要因素之間的相關(guān)性,本文對(duì)類型、檔期、發(fā)行公司等八個(gè)影響因素進(jìn)行了關(guān)聯(lián)規(guī)則分析。

4.2.1關(guān)聯(lián)規(guī)則構(gòu)建

關(guān)聯(lián)規(guī)則[6]是形如的蘊(yùn)含式,其中X是關(guān)聯(lián)規(guī)則的條件,Y是關(guān)聯(lián)規(guī)則的結(jié)果。支持度和置信度是衡量關(guān)聯(lián)規(guī)則質(zhì)量的重要指標(biāo)。其中,支持度指的是X和Y同時(shí)出現(xiàn)的概率,置信度指的是X出現(xiàn)時(shí),Y出現(xiàn)的概率。通過(guò)設(shè)定最小支持度和最小置信度,可將高于這兩個(gè)閾值的關(guān)聯(lián)規(guī)則作為強(qiáng)關(guān)聯(lián)規(guī)則,進(jìn)而指導(dǎo)決策結(jié)果。在電影票房的分析中,很多因素之間具有很強(qiáng)的關(guān)聯(lián)性,研究其中的關(guān)聯(lián)規(guī)則對(duì)電影產(chǎn)業(yè)的發(fā)展能夠提供一定的幫助。本文采用IBMSPSSModeler數(shù)據(jù)分析軟件,通過(guò)Apriori算法[6]研究了類型、制式、國(guó)家地區(qū)、檔期、發(fā)行公司、同期競(jìng)爭(zhēng)力、主演影響力、導(dǎo)演影響力之間的關(guān)聯(lián)規(guī)則,設(shè)置最小條件支持度為20%,最小規(guī)則置信度為95%。

4.2.2實(shí)驗(yàn)結(jié)果與分析

通過(guò)關(guān)聯(lián)規(guī)則實(shí)驗(yàn),本文選擇了兩條最有意義的關(guān)聯(lián)規(guī)則如下:(1)當(dāng)某部電影的主演影響力低,在其他檔期上映,國(guó)家地區(qū)為中國(guó)大陸,并由其他發(fā)行公司發(fā)行時(shí),該電影的制式很大可能為2D(置信度98%,支持度21%)。原因可能是此類電影影響力和制作資本均不夠,沒(méi)有制作成更高級(jí)制式的條件。(2)當(dāng)電影類型為愛(ài)情時(shí),電影制式通常為2D(置信度97%,支持度20%)。原因可能是愛(ài)情片通常靠劇情吸引觀眾,通過(guò)考量各種綜合因素,將愛(ài)情片制作成2D性價(jià)比更高。

5討論

本文提出的C5.0決策樹(shù)模型的準(zhǔn)確率為76.06%,限制其正確率的原因有兩點(diǎn):本次采用的電影票房數(shù)據(jù)時(shí)間跨度較大,在不同時(shí)期下,人們的消費(fèi)水平不同,因此票房會(huì)產(chǎn)生普遍的差異,對(duì)分析得到的模型準(zhǔn)確度可能也會(huì)有較大影響。此外,對(duì)連續(xù)的數(shù)據(jù)的離散化可能也會(huì)影響實(shí)驗(yàn)結(jié)果。

6總結(jié)與展望

本文采用C5.0決策樹(shù)算法,基于中國(guó)票房網(wǎng)上的數(shù)據(jù),對(duì)2015~2017三年間的電影票房進(jìn)行了分類分析,選取了類型、檔期、發(fā)行公司、國(guó)家地區(qū)、制式、導(dǎo)演影響力、主演影響力、同期競(jìng)爭(zhēng)力八個(gè)因素,構(gòu)建了電影票房預(yù)測(cè)模型,得到76.06%的準(zhǔn)確率,效果良好。通過(guò)對(duì)各因素之間的關(guān)聯(lián)性進(jìn)行分析,本文還得到了一些關(guān)聯(lián)規(guī)則,如當(dāng)電影類型是愛(ài)情時(shí),制式通常為2D。然而,本文的票房預(yù)測(cè)模型的準(zhǔn)確率由于數(shù)據(jù)和離散化的限制仍有待提升,筆者將會(huì)把下一步的工作更多地聚焦于提高模型準(zhǔn)確率方面。一方面,筆者將研究離散化過(guò)程,同時(shí)增加票房影響因素,如網(wǎng)絡(luò)輿情數(shù)據(jù)等。同時(shí),筆者將探索其他預(yù)測(cè)模型,如線性回歸、神經(jīng)網(wǎng)絡(luò)等,研究更適合電影票房預(yù)測(cè)的模型。

參考文獻(xiàn)

[1]2017年中國(guó)電影票房559億元[EB/OL].2018.

[2]吳發(fā)翔,錢佳威,劉江帆.一種基于C5.0決策樹(shù)算法的票房預(yù)測(cè)研究[J].科技廣場(chǎng),2016(4):186~192.

[3]鄭堅(jiān),周尚波.基于神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測(cè)建模[J].計(jì)算機(jī)應(yīng)用,2014,34(3):742~748.

作者:席稼瑋 單位:陜西省西安市高新唐南中學(xué)