前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的統(tǒng)計學經驗法則主題范文,僅供參考,歡迎閱讀并收藏。
大數(shù)據(jù)技術的發(fā)展又離不開數(shù)據(jù)挖掘,那。。。
什么是數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
數(shù)據(jù)挖掘如此重要,如何進行數(shù)據(jù)挖掘呢?當然是知識!
知識將成為比數(shù)據(jù)更重要的資產
復旦大學計算機科學與技術學院教授肖仰華博士在他近期所作的《知識圖譜與認知智能》報告中指出:前幾年大數(shù)據(jù)時代到來的時候,大家都說“得數(shù)據(jù)者得天下”。去年,微軟研究院的沈向陽博士曾經說過“懂語言者得天下”。而我曾經論述過,機器要懂語言,背景知識不可或缺。因此,在這個意義下,將是“得知識者得天下”。如果說數(shù)據(jù)是石油,那么知識就好比是石油的萃取物。
那么問題來了?你需要哪些知識?
數(shù)據(jù)挖掘是個復雜的過程,它需要統(tǒng)計學、數(shù)據(jù)庫、機器學習、模式識別等多學科的交叉融合來實現(xiàn)。
數(shù)據(jù)挖掘過程中用到的算法也很多,下圖是對這些算法的一個總體梳理:
接下來我們就來說說這傳說中的十大經典算法:
決策樹(C4.5算法)
聚類(K-means算法)
關聯(lián)規(guī)則(Apriori算法)
隨機森林算法
邏輯回歸
SVM
樸素貝葉斯
K最近鄰算法
Adaboost 算法
神經網(wǎng)絡
篇幅有限,為了保證閱讀質量,本文只講解前三個。其余的算法講解會不定期更新的呦,想學習的小伙伴看過來???
十大經典算法圖解(一)
01
決策樹(C4.5算法)
決策樹(Decision Tree),又稱為判定樹,是數(shù)據(jù)挖掘技術中的一種重要的分類方法,它是一種以樹結構(包括二叉樹和多叉樹)形式來表達的預測分析模型。
根據(jù)一些特征( feature )進行分類,每個節(jié)點提一個問題,通過判斷,將數(shù)據(jù)分為若干類,再繼續(xù)提問。這些問題是根據(jù)已有數(shù)據(jù)學習出來的,再投入新數(shù)據(jù)的時候,就可以根據(jù)這棵樹上的問題,將數(shù)據(jù)劃分到合適的葉子上。
決策樹生長算法流程(以C4.5算法為例):
C4.5算法實例圖解:
兩周內的天氣及網(wǎng)球俱樂部顧客光顧情況
02
聚類(K-means算法)
什么是聚類?
什么是K-means?
K-means算法流程圖解:
Setp1:確定初始質心
Setp2:計算距離&劃分簇
Setp3:迭代計算中心點
Setp4:收斂
03
關聯(lián)規(guī)則(Apriori算法)
關聯(lián)規(guī)則是形如XY的蘊涵式,其中, X和Y分別稱為關聯(lián)規(guī)則的先導(antecedent或left-hand-side, LHS)和后繼(consequent或right-hand-side, RHS) 。其中,關聯(lián)規(guī)則XY,存在支持度和信任度。
關聯(lián)規(guī)則經典算法及優(yōu)缺點比較:
Apriori算法是種最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法。它的核心是基于兩階段頻集思想的遞推算法,該關聯(lián)規(guī)則在分類上屬于單維、單層、布爾關聯(lián)規(guī)則。
在Apriori算法中,尋找最大項目集(頻繁項集)的基本思想是:算法須要對數(shù)據(jù)集進行多步處理。
Apriori算法圖解:
1.產生頻繁項集
關鍵詞:logistic回歸 BP神經網(wǎng)絡 上市公司 信用風險
在經濟全球化的趨勢下,信用將成為主要的交易方式,金融危機的爆發(fā)更是顯示出信用風險管理和信用風險分類的重要性。從20世紀60年代至70年代的統(tǒng)計學方法,20世紀80年代的專家系統(tǒng)到90年代的神經網(wǎng)絡,各種信用風險評級方法層出不窮。在我國,信用風險的度量和管理較為落后,金融機構沒有完善有效的評級方法和體系,目前所應用的方法主要是粗略的定性方法,如綜合利用宏觀經濟與行業(yè)風險、所有權及治理結構、信用風險及其管理、市場風險及其管理、資金來源/流動性、盈利能力等進行“加權”加分,信用風險的度量模式顯得比較單一,所以對于信用風險分類方法是學術界和實務界必須解決的課題之一。
一、文獻綜述
(一)國外文獻Logistic模型最早是由Martin (1977)用來預測公司的破產及違約概率。他從1970年至1977年間大約5700家美聯(lián)儲成員銀行中界定出58家困境銀行,并從25個財務指標中選取總資產凈利潤率等8 個財務比率,用來預測公司的破產及違約概率,建立了Logistic回歸模型,根據(jù)銀行、投資者的風險偏好設定風險警界線,以此對分析對象進行風險定位和決策。同時還將Z-Score模型,ZETA模型和Logistic模型的預測能力進行了比較,結果發(fā)現(xiàn)Logistic回歸模型優(yōu)于Z- Score模型和ZETA模型。Madalla (1983) 則采用Logistic模型區(qū)別違約與非違約貸款申請人,其研究結果表明,當違約概率p>0.551時是風險貸款;當p
(二)國內文獻 在國內的研究文獻中,齊治平(2002)從我國滬、深兩交易所選取164 家上市公司,然后隨機分成兩組,運用線性判別模型、Logistic 回歸模型以及含有二次項和交叉項的Logistic 模型對數(shù)據(jù)樣本提前兩年進行預測。結果發(fā)現(xiàn),含有二次項和交叉項的Logistic模型對前一年數(shù)據(jù)的預測準確率最高。吳世農(2003)使用剖面分析、單變量分析、線性概率模型(LPM)、Fisher二類線性判定、Logistic模型等統(tǒng)計方法對財務困境公司進行預測研究,其中Logistic模型對前一年數(shù)據(jù)的預測準確率達到93.53%,F(xiàn)isher判別分析法和LPM的準確率都為89.93%。龐素琳(2003)利用多層感知器分別對我國2000年106家上市公司進行信用評級,信用評價準確率高達98.11%。本文即是從上市公司的財務指標入手,通過logistic回歸分析和BP神經網(wǎng)絡,構建衡量企業(yè)信用狀況的模型,并通過實證研究考察模型的適用性,對比兩者信用風險分類的準確度。
二、研究設計
(一)樣本選取和數(shù)據(jù)來源本研究選取滬深兩市A股市場上2005年至2007年三年中部分被進行特別處理的118家ST公司和126家非ST公司,數(shù)據(jù)主要來源于CSMAR深圳國泰安信息技術有限公司提供的財務指標數(shù)據(jù),將118家ST公司的財務數(shù)據(jù)和126家非ST公司的財務數(shù)據(jù)劃分為訓練樣本和測試樣本。樣本集選取如(表1)所示。
(二)變量選取本文采取的財務數(shù)據(jù)在參考了已有文獻以及考慮到實際數(shù)據(jù)可得性的基礎上,選取了能夠反映短期還款能力,長期還款能力,盈利能力和營運能力4方面共12個財務指標。指標變量名稱及自變量符號具體見表。因變量為0-1變量,信用級別高的設置為1,信用級別低的設置為0。在做logistic回歸的時候會進一步運用向后篩選法剔除方差貢獻率不大的指標變量。具體如(表2)所示。
(三)模型設定
(1)Logistic回歸模型:
(2)多層次前向神經網(wǎng)絡。本文所應用的是一種稱為前向網(wǎng)絡的特殊神經網(wǎng)絡結構。本研究應用Rumehhart于1986年提出的如下函數(shù):Ii=wijxj+?準,xi=fi=其中,Ii為神經元i的層輸入,xi為神經元的輸出,wij為神經元間的連接權,?準為神經元i的偏置。每一條連接弧都被賦予一定的數(shù)值來表示連接弧的連接強度,正的權值表示影響的增加,負的權值表示影響的減弱。在前向網(wǎng)絡中,神經元間前向連接,同層神經元互不連接,信息只能向著一個方向傳播。前向網(wǎng)絡的連接模式是用權值向量W來表示的。在網(wǎng)絡中,權值向量決定著網(wǎng)絡如何對環(huán)境中的任意輸入作出反應典型的學習算法是搜索權值以找到最適合給定樣本的權值。在本研究中應用的是多層前向網(wǎng)絡的BP算法,其主要作用是知識獲取和推理,采用有導師學習的訓練形式,提供輸入矢量集的同時提供輸出矢量集,通過反向傳播學習算法,調整網(wǎng)絡的連接權值,以使網(wǎng)絡輸出在最小均方差意義下,盡量向期望輸出接近,通過修改各層神經元的連接權值,使誤差減小,然后轉入正向傳播過程,反復循環(huán),直至誤差小于給定的值為止。本文建立的BP神經網(wǎng)絡圖(見圖1)。本文建立財務困境神經網(wǎng)絡預警模型主要考慮以下兩方面的問題:一是確定網(wǎng)絡結構;二是學習參數(shù)的調整。首先考慮網(wǎng)絡結構的確定。網(wǎng)絡結構主要包括連接方式、網(wǎng)絡層次數(shù)和各層結點數(shù)。網(wǎng)絡的連接方式代表了網(wǎng)絡的拓撲結構,Lippmann(1987)證明在一定條件下,一個三層的BP神經網(wǎng)絡可以用任意精度去逼近任意映射關系,而且經過實驗發(fā)現(xiàn),與一個隱層相比,用兩個隱層的網(wǎng)絡訓練并無助于提高預測的準確。因此在本研究中采用單隱層的BP網(wǎng)絡。各隱含層節(jié)點數(shù)的選擇并無確定的法則,只能結合實驗并根據(jù)一些經驗法則:隱層節(jié)點數(shù)不能是各層中節(jié)點數(shù)最少的,也不是最多的;較好的隱層節(jié)點數(shù)介于輸入節(jié)點和輸出節(jié)點數(shù)之和的50%~75%之間;隱層節(jié)點數(shù)的理論上限由其訓練樣本數(shù)據(jù)所限定。
三、實證結果分析
(一)logistic模型的參數(shù)估計及結果常規(guī)的線性判別模型計算得到的Z值只是個抽象的概念,無法從經濟學上進行解釋,Logistic回歸分析解決了這個問題,其前提假設符合經濟現(xiàn)實和金融數(shù)據(jù)的分布規(guī)律,殘差項小要求服從止態(tài)分布。本文運用SPSS自帶的Wald向后逐步選擇法篩選變量,提高模型的判別性能,從全變量模型開始,逐步提出對殘差平方和貢獻最小的變量,具體的回歸結果見(表2)。以2005年為例,根據(jù)SPSS計算結果中的參數(shù)表,估計Logistics模型的判別方程,(表3)反映了最大似然迭代記錄(顯示最后的迭代過程),(表4)反映了參數(shù)估計結果。步驟9是經過9步變量篩選后最后保留在模型中的變量。從各個系數(shù)的Wald值及伴隨概率p來看,最終選定的5個指標變量具有最高的解釋能力。綜上,2005年公司分類的logistic模型為:p=。從(表5)步驟1及步驟9的分類結果看出,剔除不顯著變量之后,分類準確率并未大幅下降,可以認為最終的模型能通過檢驗。(表6)顯示了最終的Logistic模型參數(shù)估計結果。(表7)顯示了模型分類準確率。
(二)BP神經網(wǎng)絡的參數(shù)估計及結果首先對輸入輸出樣本進行數(shù)據(jù)處理,消除影響預測結果的噪聲,神經網(wǎng)絡輸入的變量要求規(guī)范在[-1,1](若使用tanh函數(shù))或[0,1](若使用logistic函數(shù))之間。本文對輸入數(shù)據(jù)進行標準化處理,采用以下方法:X=。X為規(guī)范后的變量,x為每個變量的實際值,x1為每個變量的最小值,x2為每個變量的最大值。Matlab中相應的函數(shù)為[output_X,PS]=mapminmax(X,output_min,outpt_max)由于實際財務困境評價往往非常復雜,企業(yè)財務狀況的好壞與財務比率的關系常常是非線性的,而神經網(wǎng)絡作為一種非線形建模過程,并不依賴判別模型的假設,能找出輸入與輸出的內在聯(lián)系,因此本文決定嘗試使用神經網(wǎng)絡技術進行信用狀況的分類研究,分為訓練集和測試集兩組對神經網(wǎng)絡進行訓練,過程如下:第一,輸入層和輸出層神經元數(shù)目的確定。第一層為輸入層,采用判別分析得出的模型變量為輸入變量,共有12個結點,每個結點代表相應的財務比率。第三層為輸出層,用一個結點表示,訓練導師值為0代表信用級別“差”的公司,1代表信用級別“好”的公司。第二,隱含層數(shù)和隱結點個數(shù)的確定。本文選擇單隱層的前饋BP網(wǎng)絡;通過學習逐步增加隱神經元數(shù),訓練反復調整。最后定為10個隱結點。第三,用訓練集的數(shù)據(jù)訓練這個神經網(wǎng)絡,使不同的輸入向量得到相應的輸出值,當誤差降到一個指定的范圍內時,神經網(wǎng)絡所持有的那組權數(shù)值就是網(wǎng)絡通過自學習得到的權數(shù)值,即完成了神經網(wǎng)絡的自學習過程。第四,輸入待評價的樣本(本文直接在輸入矩陣中劃分為訓練),讓訓練好的神經網(wǎng)絡輸出企業(yè)財務狀況的標志(0或1),即實現(xiàn)神經網(wǎng)絡的模式分類。神經網(wǎng)絡的初始權重由Matlab隨機產生的。訓練算法采用專用于模式分類的trainscg方法,各種訓練參數(shù)見(表8)。由此看出,算法逐步收斂,最終達到誤差標準見(表9)。
(三)兩種模型比較分析 本文對Logistic和BP神經網(wǎng)絡分別對我國上市公司的信用狀況給予兩類模式的評級,最終發(fā)現(xiàn),Logistic和BP神經網(wǎng)絡在我國市場上的分類效果相當(見表10)。主流觀點認為,人工神經網(wǎng)絡具有良好的模式識別能力,可以克服統(tǒng)計等方法的限制,因為它具有良好的容錯能力,對數(shù)據(jù)的分布要求不嚴格,具備處理資料遺漏或是錯誤的能力。最為可貴的一點是人工神經網(wǎng)絡具有學習能力,可以隨時依據(jù)新準備的數(shù)據(jù)資料進行自我學習、訓練、調整其內部的儲存權重參數(shù)以應對多變的企業(yè)運作環(huán)境。但是本文得出的結果是:傳統(tǒng)的Logistic方法和神經網(wǎng)絡方法的分類效果相當?,F(xiàn)代人工智能方法并未表現(xiàn)出理論上的優(yōu)勢??赡艿脑蚴牵壕W(wǎng)絡不穩(wěn)定,訓練樣本的仿真準確率很高,但對測試樣本的仿真準確率會降低;解釋性差,網(wǎng)絡最終確定后,每個神經元的權值和閾值雖然已知,但不能很好地分析各個指標對結果的影響程度,對現(xiàn)實問題中的經營管理也就不能起到很好的借鑒作用;網(wǎng)絡的輸入個數(shù)與隱層節(jié)點個數(shù)的確定沒有理論指導,只能通過經驗確定。
四、結論
本文選取2005年至2007年部分被進行特別處理的118家ST公司和126家非ST公司,以其財務指標為樣本,進行Logistic回歸和BP神經網(wǎng)絡分類,對這兩種信用風險評判模型在中國市場做了實證研究。結果發(fā)現(xiàn):兩種模型均適用于中國上市公司兩模式分類(ST和非ST公司),而BP神經網(wǎng)絡在我國市場上并未體現(xiàn)其分類的優(yōu)勢,分類準確度和Logistic相當。即使如此,本文證實了Logistic和BP神經網(wǎng)絡模型對于我國上市公司的評級還是有效的,能夠為投資者的科學決策提供建設性的指導意見,使投資者理智地回避風險和獲取收益。同時,該判別模型也有利于準確評價一個企業(yè)的信用狀況,從而為銀行等放貸機構提供決策依據(jù)。
參考文獻:
[1]吳世農、盧賢義:《我國上市公司財務困境的預測模型研究》,《經濟研究》2001年第6期。
[2]齊治平、余妙志:《Logistic模型在上市公司財務狀況評價中的應用》,《東北財經大學學報》2002年第1期。
[3]龐素琳、王燕鳴、羅育中:《多層感知器信用評價模型及預警研究》,《數(shù)學實踐與認識》2003年第9期。
雖然我國目前還沒有對房地產保有環(huán)節(jié)進行普遍的稅收征管,但是在房地產存量交易的稅收核價環(huán)節(jié)以及金融機構的風險控制部門等都已經存在了房地產批量評估的需求。市場上出現(xiàn)了一些批量評估的系統(tǒng)或產品,在批量評估技術方面已經具有了一定的社會實踐基礎,就目前幾個主流的房地產批量評估技術做一簡要匯總和分析,希望有助于房地產批量評估技術的深入探討和研究。
關鍵詞:
房地產批量評估,標準價調整法,多元線性回歸模型,數(shù)據(jù)挖掘
根據(jù)房地產批量評估技術中人工參與程度的多少,現(xiàn)行批量評估技術方法可分為:以人工為主、以計算機技術為主和以人工與計算機技術相結合三類。本文將對此進行討論,對如何選用房地產批量評估技術方法進行研究。
1以人工為主的技術方法之標準價調整法
1.1標準價調整法的概念標準價調整法,作為市場比較法派生出來的一種方法,類似于城市動拆遷評估中的基準價格修正法和香港的指標估價法,但又有其自身的特點。標準價調整法可定義為:一種批量估價方法,在一定區(qū)域范圍內進行估價分區(qū),在每個估價分區(qū)內設定標準房地產并求其價值,利用房地產價格調整系數(shù)將標準房地產價格調整為各宗房地產的價值。標準價調整法適用于估價對象物業(yè)屬性和估價特性較為近似的物業(yè),尤其適用于小范圍且價格影響因素少的樓棟批量評估。
1.2標準價調整法在不同物業(yè)類型中的應用標準價調整法的實施涉及到:估價分區(qū)的劃分、標準房的設定、價格修正系數(shù)的設定以及標準房價格的評估。無論應用于哪種物業(yè)類型,這四個步驟必不可少,差異在于各步驟的具體實施方法不盡相同。在住宅物業(yè)的評估中,往往以小區(qū)作為估價分區(qū)的劃分,在一個小區(qū)內根據(jù)一定規(guī)則設定一個標準房,再由有經驗的估價師根據(jù)實地調研情況設置標準房與其他房屋之間的價格差異系數(shù)。最后仍由估價師定期對標準房進行估價,并通過已設定的系數(shù)求得所有物業(yè)的價格。在辦公物業(yè)的評估中,差異在于分區(qū)是以樓棟或項目來劃分,后續(xù)步驟和住宅一致。在集中型商業(yè)物業(yè)或工業(yè)物業(yè)中,都可以借鑒上述方法來進行操作。但在沿街零售型物業(yè)中,由于沿街零售性物業(yè)分布廣泛,沒有明顯的集中趨勢,并且價格影響因素的差異較大,導致標準價調整法的應用也與其他物業(yè)類型有較大不同,主要表現(xiàn)在估價分區(qū)的劃分和價格修正系數(shù)的設定這兩個環(huán)節(jié)。現(xiàn)有的技術方案一般采集兩級調整的方案。按商圈(或類似因素)將城市區(qū)域劃分成諸多估價分區(qū),在每個分區(qū)中設定一個標準商鋪,稱為區(qū)域基準商鋪。之后在分區(qū)內再進行一次估價分區(qū)的劃分,這一劃分以路段為分區(qū),在每個路段中設定一個標準商鋪,稱為路段基準商鋪。估價人員經過現(xiàn)場調研后,需設置兩級修正系數(shù),即區(qū)域基準商鋪與路段基準商鋪的價格調整系數(shù),以及路段基準商鋪與路段內其他商鋪的價格修正系數(shù)。最后經估價師定期對區(qū)域基準商鋪進行估價,并通過兩級系數(shù)的修正求得所有商鋪的價格。
1.3標準價調整法的優(yōu)點①在規(guī)模較小的城市中,可以實現(xiàn)絕大部分物業(yè)的批量評估需求,具有較強的實用性。②可以達到較高的批量評估覆蓋率。③估價準確性較好,并具有較好的質量可控性。④除建設初期投入的人員成本和時間成本較大,后續(xù)維護的成本適中。
1.4標準價調整法的缺點①由于人工作業(yè)的工作量太大,不適用大、中型城市。②對估價人員的經驗要求較高,尤其是系數(shù)設置與標準房的價格評估等環(huán)節(jié)對質量的要求很高。團隊運作時,需要具備較高的質量管理能力。③不同物業(yè)間的系數(shù)關系可能受到市場、規(guī)劃等因素的影響而改變,需要定期進行監(jiān)控和維護,有一定的難度或容易疏忽和遺漏。
2以人工為主的技術方法之多元線性回歸模型
2.1多元線性回歸模型簡述多元回歸分析是目前在國外批量評估中占主流的校準技術,包括線性回歸分析和非線性回歸分析。其基本原理是:在大量樣本的基礎上,通過對變量、誤差的假定,依靠最小二乘法來擬合因變量與自變量關系,從而建立數(shù)學模型。多元回歸是統(tǒng)計學方法,運用時要和經濟學理論結合,實踐中對多元回歸模型的應用是基于特征價格理論。國內關于運用特征價格理論來進行房地產價格批量評估也有較多的研究和學術論文,但絕大多數(shù)還處于理論研究階段。
2.2多元回歸分析的主要步驟多元回歸既可以用來預測售價,也可以用來預測租金,甚至可以用來統(tǒng)計其他中間參數(shù)。在步驟上不同類型的物業(yè)沒有明顯區(qū)別,只是在變量的選擇與量化上有所不同。為便于表述,下面以預測辦公物業(yè)價格為例來進行闡述。①選取樣本:為了訓練預測辦公物業(yè)價格的模型方程,在目標范圍內選取一定數(shù)量的樣本,調研其價格信息和基礎信息。這里的重點是樣本對總體的代表性以及樣本數(shù)據(jù)采集的準確性。②構建辦公物業(yè)價格影響因素體系:通過調研分析以及房產專家意見調查,歸納出可能影響辦公物業(yè)價格的特征變量,并進行賦值量化。③模型擬合:觀察、分析特征變量的變動規(guī)律,采用統(tǒng)計分析軟件進行分析,對模型和特征變量賦值不斷地嘗試和修正,找出合理的價格和各特征變量之間的定量關系。④模型檢驗:最終得到的模型是否成功,取決于經濟意義檢驗、統(tǒng)計檢驗、計量經濟學檢驗以及模型預測檢驗。其中統(tǒng)計檢驗包括了擬合優(yōu)度檢驗和顯著性檢驗;計量經濟學檢驗包括多重共線性檢驗及異方差檢驗等。但凡通過上述所有的檢驗,即可認為模型已成功建立。⑤模型應用:對辦公物業(yè)的特征變量進行賦值,代入最終的模型進行自動計算,即可評估辦公物業(yè)的價格。
2.3多元線性回歸模型的優(yōu)點①多元回歸方法所涉及的工作量主要在于特征變量的數(shù)量以及特征變量的賦值容易程度,受城市規(guī)模的影響較小,因此可以適用于大中型及以上城市。②多元回歸方法通過擬合因變量與自變量關系從而建立數(shù)學模型,這個過程與何種物業(yè)類型無關,因此理論上多元回歸方法適合各類型物業(yè)的批量評估建模。③通過“調整R方”和“標準誤差”兩項指標,基本可以判斷和掌握模型價格估計的準確度,并且可以對模型進行持續(xù)改進,從而保證批量評估的準確性。④在市場穩(wěn)定時期,由于自變量與因變量的關系也較為穩(wěn)定,因此模型更新維護的成本較低,從而價格更新的成本也較低。
2.4多元線性回歸模型的缺點①在不同區(qū)域或不同市場,價格的影響因素不盡相同,建立的回歸模型也不相同。因此對每個城市每個物業(yè)類型的市場需要分別建立回歸模型。②多元回歸的建模研究過程中,在理論假設、建模方法、數(shù)據(jù)采集等各環(huán)節(jié)中,需要綜合的知識、經驗和技能要求。除了房地產估價師所需具備的估價理論知識、實務經驗、調研及價格判斷能力外,還需要統(tǒng)計學、經濟學等多學科知識。對人員和團隊的綜合能力要求很高,而這往往是傳統(tǒng)估價機構所欠缺的。③對樣本數(shù)據(jù)的準確性要求較高。如果沒有準確的樣本數(shù)據(jù),建立科學的經濟學模型則為空中樓閣。而要獲得準確的樣本數(shù)據(jù),長久以來一直是一個難題,其中有人為的因素(如交易避稅),也有客觀的因素(如商業(yè)物業(yè)的交易活躍度低)。④在市場波動大的時候,原有模型可能失效或者預測能力大幅下降,而模型的迭代或維護周期較長,可能無法及時調整。
3以計算機技術為主的技術方法
房地產批量評估領域中以計算機技術為主的技術方法主要是基于大數(shù)據(jù)的數(shù)據(jù)挖掘。這一技術的應用最早開始于房地產互聯(lián)網(wǎng)企業(yè),如搜房、安居客等房地產房源網(wǎng)站,后來逐步被引入到房地產批量評估的技術或產品研發(fā)中來。
3.1數(shù)據(jù)挖掘的方法和原理首先,數(shù)據(jù)挖掘的前提需要有大量的數(shù)據(jù)可供挖掘。隨著互聯(lián)網(wǎng)在各行各業(yè)的不斷滲透,房地產中介行業(yè)中出現(xiàn)了大量房源網(wǎng)站,并逐步成為了房地產經紀人房源招攬客戶的主要渠道。一個房源網(wǎng)站中可以搜索的房源數(shù)量多達數(shù)十萬甚至上百萬條,并且每天都有數(shù)萬條以上的數(shù)據(jù)更新。這樣的網(wǎng)站有好幾家,為房地產的數(shù)據(jù)挖掘提供了可行的前提。其次,結構化的數(shù)據(jù)為數(shù)據(jù)的采集提供了便利。在房源網(wǎng)站中,房源已經按小區(qū)進行了分類,經紀人哪個小區(qū)的房源,則該房源將展現(xiàn)在該小區(qū)的搜索項下。至于面積、房型、價格、樓層以及裝修等參數(shù),也都以格式化的方式來展現(xiàn)。因此,利用互聯(lián)網(wǎng)爬蟲等抓取技術,可以方便的將這些網(wǎng)站的房源抓取下來,并建立房源案例數(shù)據(jù)庫。最后,是數(shù)據(jù)挖掘工作。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。根據(jù)上述定義和描述可以發(fā)現(xiàn),數(shù)據(jù)挖掘的核心是算法,而這個算法在不同的批量評估系數(shù)或產品中都不相同,算法的優(yōu)劣也決定了不同系統(tǒng)或產品的優(yōu)劣。
3.2數(shù)據(jù)挖掘方法的優(yōu)點①高效無疑是數(shù)據(jù)挖掘方法的最大優(yōu)點。一旦完成對算法的研究,價格估算的工作都可以交由計算機來完成。②對整體市場價格運行的反映具有較高的準確度。
3.3數(shù)據(jù)挖掘方法的缺點①對微觀市場價格運行的反映可能存在較大偏差。微觀市場中,例如一個住宅小區(qū),其掛牌房源的數(shù)量就很有限了,即使規(guī)模最大的小區(qū),也就是幾百的數(shù)量級。這樣大數(shù)據(jù)挖掘的數(shù)據(jù)數(shù)量前提已不滿足,從而影響了對微觀市場的價格估計。②批量評估的覆蓋面不完整?;ヂ?lián)網(wǎng)數(shù)據(jù)雖然總量巨大,但并非面面俱到。以住宅小區(qū)為例,一些體量較小的小區(qū),或者一些遠郊區(qū)域,可能無法在互聯(lián)網(wǎng)上被搜索到。因此,基于互聯(lián)網(wǎng)數(shù)據(jù)挖掘的批量評估勢必在覆蓋面上存在缺陷。
4以人工與計算機技術相結合的技術方法
房地產批量評估,尤其是涉稅的批量評估對評估系統(tǒng)的要求主要有:全面覆蓋所有物業(yè)、估價結果準確以及系統(tǒng)維護成本適中。根據(jù)前文對各方法的論述,單一方法很難實現(xiàn)上述要求。如標準價調整法若在大型或超大型城市中應用,將面臨很高的運營成本;多元回歸建模的更新維護周期較長,當市場出現(xiàn)快速波動時可能無法及時調整;基于大數(shù)據(jù)的數(shù)據(jù)挖掘在估價精度與覆蓋面上都有所欠缺??傊瑹o論從技術上論證還是從實施效果來看,多種方法的有效結合是較為理想的,也是房地產批量評估技術的發(fā)展趨勢。實踐中各方法的結合已有普遍應用,并且各有巧妙,方法不盡相同。下面就幾種簡單的組合方式進行討論。
4.1標準價調整法與大數(shù)據(jù)挖掘技術的組合大數(shù)據(jù)挖掘可以滿足一些活躍小區(qū)的價格估算,因為活躍小區(qū)的掛牌房源較多,能滿足算法所要求的數(shù)據(jù)量前提,而不活躍的小區(qū)則無法為算法提供足夠的“原材料”,因此不適用數(shù)據(jù)挖掘的方法。這時就可以運用標準價調整法來彌補。按照標準價調整法的原理,在不活躍小區(qū)的臨近或相似區(qū)域內設置一個標準房,經人工調研后設置標準房與不活躍小區(qū)價格的調整系數(shù)。這樣在算法得出活躍小區(qū)價格的同時,可以利用預先設置好的系數(shù)一并計算不活躍小區(qū)的價格。此外,在算法可以計算的活躍小區(qū)的價格中,也有可能存在價格偏差。這時也可以應用標準價調整法的思路,設置活躍小區(qū)間的價格調整系數(shù),來檢驗算法所得結果的合理性。這一組合的應用前提主要是看大數(shù)據(jù)挖掘的應用前提是否存在,即是否存在大量數(shù)據(jù)可供挖掘,因此適合房地產市場規(guī)模較大,“互聯(lián)網(wǎng)+”比較發(fā)達的城市和地區(qū)。此外,在結合了大數(shù)據(jù)挖掘技術后,標準價調整法可以應用到大中型及以上城市,克服了其原有的一大弊端。
4.2多元回歸模型與大數(shù)據(jù)挖掘技術的組合除了對人員的能力要求以及對樣本數(shù)據(jù)的質量要求較高以外,多元回歸模型最大的弱點在于迭代問題。市場不斷變化,模型不可能一成不變,當市場發(fā)生變化并導致變量之間的關系也發(fā)生改變時,原有模型的價格預計精度必然下降,此時必須對模型進行重新構建。問題在于市場價格變化未必會導致變量間的關系也發(fā)生變化(或變化很?。蛘弋斪兞块g關系發(fā)生變化時,人員主觀上可能無法及時發(fā)現(xiàn)。當主觀能夠感受到變量間的關系出現(xiàn)變化時,往往已經有了很大的變化。此時再進行模型的迭代就已近晚了,之前的價格估算可能已經出現(xiàn)了錯誤。大數(shù)據(jù)挖掘技術可以很好地彌補上述的缺陷。大數(shù)據(jù)挖掘不僅可以直接計算某些具體變量,任何數(shù)據(jù)內在的規(guī)律和關聯(lián)都可能應用大數(shù)據(jù)挖掘的方式進行探索和發(fā)現(xiàn),并且能對極為細小的數(shù)值波動進行反應。利用數(shù)據(jù)挖掘的這一特性,可以建立對變量的波動監(jiān)控,當波動超過一定的預設閥值即可啟動模型的迭代更新。這一組合的應用前提同樣取決于大數(shù)據(jù)挖掘的應用前提,除了城市規(guī)模等情況限制外,如商業(yè)物業(yè)、工業(yè)廠房等物業(yè)市場也不適用。
4.3標準價調整法與多元回歸模型的組合標準價調整法往往適用于特性相近的物業(yè),如在一個小區(qū)中設定一個標準房,再設定標準房與其他房屋的價格修正系數(shù)。在價格更新時,求取標準房價格后,即可得到小區(qū)內所有房屋的價格。但當城市規(guī)模很大時,也就是有很多小區(qū)時,必須要求取所有小區(qū)的標準房價格,如僅以人工來評估得出的話,成本非常高。此時在求取小區(qū)標準房價格方面,采用多元回歸模型的方法可以極大地減少人工和時間成本。由于標準價調整法和多元回歸模型都屬于以人工為主的技術方法,因此理論上的應用幾乎不受限制。在結合多元回歸模型后,標準價調整法也可擴展應用到大中及以上城市。從上述三個組合中可以看到,原單一技術的某些弊端可以被克服,整體技術方案的適用范圍和效果可獲得較大提升和改進。實際研究和應用中可能有更多種的技術組合,且并不限于本文論述的主流技術方法。多種技術組合應用是房地產批量評估技術探索和創(chuàng)新的主要方向。
5房地產批量評估技術的選用
無論是單一技術還是多種技術方法的結合應用,房地產批量評估技術的選用依據(jù)主要是數(shù)據(jù)狀況、結果的質量狀況以及運行成本。數(shù)據(jù)狀況主要指數(shù)據(jù)的數(shù)量和質量。就技術方案來說,側重點有所不同。例如在多元回歸模型中,對于樣本案例的參數(shù)質量要求是所有技術方案中最高的;而大數(shù)據(jù)挖掘技術則對數(shù)據(jù)的數(shù)量要求最高?,F(xiàn)實中不太會碰到數(shù)量又多質量又好的數(shù)據(jù)狀況,因此在技術選用時首先需要考慮是否可以穩(wěn)定獲得所需要的數(shù)據(jù)。至于結果的質量狀況和運行成本,很難設定一個標準線。只能根據(jù)不同的需求目的來設定質量目標,以及根據(jù)組織的投入產出效益來選擇可行的技術方案。以上海城市房地產估價有限公司開發(fā)的VISS系統(tǒng)的運行情況來看,其在住宅物業(yè)批量評估方案中采用了標準價調整法與大數(shù)據(jù)挖掘相結合的方法,使其系統(tǒng)的評估精度基本控制在正負6%的誤差范圍,極端誤差范圍為正負10%。對于上海12000多個住宅小區(qū),其價格更新周期為每月,其數(shù)據(jù)維護人員僅8-10人,每次價格更新的工作周期僅為兩周。在其新研發(fā)的辦公物業(yè)批量評估方案中,更是結合了標準價調整法、多元回歸模型以及大數(shù)據(jù)挖掘三種方法,使其系統(tǒng)的評估精度可以控制在正負10%的誤差范圍,極端誤差范圍為正負15%。對于上海3000多棟寫字樓物業(yè),可以實現(xiàn)3個月的價格更新周期,而數(shù)據(jù)維護人員僅3人。因此,在選用何種技術方案時,主要有四個評價因素。一是技術方案所需的數(shù)據(jù)是否可以穩(wěn)定獲得;二是批量評估的價格精度是否滿足目標需求;三是批量評估的物業(yè)覆蓋面是否完整;四是批量評估的運行維護成本企業(yè)(或組織)是否可以承受。以此為標準,運用多方法結合的思路進行技術的研發(fā)和創(chuàng)新才是房地產批量評估技術發(fā)展的正確道路。
6結語