公務員期刊網 論文中心 正文

云計算環(huán)境下數據挖掘技術分析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了云計算環(huán)境下數據挖掘技術分析范文,希望能給你帶來靈感和參考,敬請閱讀。

云計算環(huán)境下數據挖掘技術分析

摘要:隨著經濟社會不斷發(fā)展與進步,科技信息技術為了適應社會發(fā)展的需求,也在不斷地提高。云計算作為互聯網發(fā)展中的一項新興技術,漸漸成為了人們生活中不可或缺的一部分,并被廣泛運用于軍事領域、醫(yī)療領域與金融領域等。隨著計算機的不斷發(fā)展,基于云計算環(huán)境下的數據挖掘技術已經成為一項非常高效與實用的技術,它可以有效的解決傳統數據挖掘方式不適合解決海量數據的問題。本文通過對云計算環(huán)境下的數據挖掘技術的分析與探討,期望可以加深同行業(yè)工作者對數據挖掘技術的了解,為將來電子商務發(fā)展效率的提高,打下結實的基礎。

關鍵詞:數據挖掘,云計算,技術

隨著移動互聯網和物聯網的迅速發(fā)展,如今的社會正處于大數據時代。數據的海量增加,對數據挖掘系統帶來了極大的挑戰(zhàn)。而云計算的出現便能有效解決這一難題,它可以使分布在不同計算機的數據集中在統一的云端,這樣便有利于我們對數據的獲取與挖掘。云計算中可彈性變化的計算能力和海量存儲能力,更是為解決海量數據挖掘提供了有效的解決途徑。

一、數據挖掘的內涵

數據挖掘是我們通過大量數據集進行分類以識別趨勢和模式并建立關系的自動化過程。因為當今是一個大數據時代,我們需要從海量數據中提取和挖掘對我們有利的信息,從而來更好地為各種應用系統服務,如物聯網、社交媒體等。而數據挖掘,就能從海量數據的挖掘到所需的信息,從而為你提供比沒有使用這些工具的競爭對手更大的優(yōu)勢。

二、基于云計算環(huán)境下的數據挖掘技術分析

數據挖掘具有數據清理、數據變換、數據挖掘實施過程、模式評估與知識表示等8個步驟。這8個步驟,能幫我們更好地從海量數據中提取我們所需的有價值的信息。而在數據挖掘中,最重要的是數據收集處理與數據存儲工作。第一,數據收集處理。我們在進行數據收集與處理時,可以先用決策樹來判別是用戶訪問數據還是Web機器人訪問數據。然后再將海量數據進行過濾、轉換、清洗、整合,將其變成半結構化的XML文件進行保存。雖然現在流行用Map-Reduce模式來進行數據收集,但其開發(fā)工具還不夠完善[1]。在今后的數據挖掘技術發(fā)展與完善的過程中,我們可以將結合分形維數和其他技術的方法作為新的發(fā)展方向。不斷地強化數據收集處理功能,使其能更好地為各種應用系統服務。第二,數據的存儲工作。云計算系統中的分布式存儲策略,是運用最廣泛的數據存儲方式。它可以將同一個數據存儲為多個副本,這在一定程度上保證了數據的可靠性,而且還不是冗余復制。而且系統中,還存在心跳檢測、錯誤隔離等措施。雖然通過數據副本的存儲方式能夠有效的提高數據存儲安全性,但是數據的計算速度和移動速度都比較慢,且實際的工作效率也并不理想。因此,我們在進行數據遷移的時候,可以利用MASTER系統來完成計算數據遷移工作。我們可以通過尋找數據副本進行抵制,既可以進行遷移又可以完成既定工作,這樣不但使工作效果更加理想,而且實際工作效率也大幅度的提高。

三、云計算環(huán)境下數據挖掘技術的優(yōu)勢

利用云計算進行數據挖掘,具有以下的優(yōu)點:第一,云計算環(huán)境下的數據挖掘可以隱蔽底層,這樣使得我們的數據開發(fā)工作更加便利。用戶不用考慮計算分配、計算調度任務與數據劃分等問題,既能有效地提高工作效率,還便于我們操作;第二,云計算提高了大規(guī)模數據的處理能力和處理速度;第三,使得數據處理的成本降低,不再需要購買高性能的機器,從而有效提高了收益;第四,基于云計算的數據挖掘技術,可以使我們有效地從海量數據中挖掘出我們需要的信息,創(chuàng)造了良好的開發(fā)環(huán)境和應用環(huán)境,讓挖掘任務變得更加簡單。

四、云計算環(huán)境下數據挖掘技術面臨的問題與挑戰(zhàn)

目前,云計算還處于初級階段,發(fā)展還不夠成熟,也存在著一些問題與挑戰(zhàn),主要包括以下幾個方面:第一,軟件與服務的可信度不高。云計算要重視隱私安全問題,不斷提升云計算的隱私安全保護能力,才能讓用戶放心使用云計算;第二,存在太多的不確定性。如數據挖掘的方法及結果、挖掘結果的評價和數據挖掘任務的描述等;第三,算法的選擇問題。不同的問題要用合適的算法和策略來進行數據的處理,云計算數據挖掘技術在這一方面還有待加強。大數據挖掘技術應用的過程中,驗證技術的局限性也非常突出。在技術應用過程中,我們是通過特定分析方法及邏輯形式來發(fā)現知識[2]。在這一過程中,如果系統沒有能力交互證實已發(fā)現的知識,就容易造成發(fā)現的知識不具有普遍實用性。而那些事待挖掘的數據自身可能就是錯誤的,這樣便使得數據挖掘在有效性這方面受到一定的沖擊。而我們從海量數據中挖掘到的信息,它們所構成的預言模型并不會告訴我們:一個人為什么會做某一件事及采取某個行動。為了保障數據挖掘結構的價值,用戶就要對自身的數據進行一定的了解,這樣才能提高數據挖掘輸出結果的質量,才能更好地將挖掘到的數據為我們服務。綜上所述,本文通過對云計算環(huán)境下的數據挖掘技術的分析與探討,期望可以加深同行業(yè)工作者對數據挖掘技術的了解,為將來電子商務發(fā)展效率的提高,打下結實的基礎。隨著我國新興產業(yè)戰(zhàn)略地位不斷提升,云計算成為了國家新興產業(yè)發(fā)展的一項重點工程。我們需要不斷探索與發(fā)展云計算數據挖掘技術,才能更好的滿足用戶的需求。據相關研究表明,云計算技術下的數據挖掘平臺,相比于傳統的數據挖掘方式,其數據挖掘效率高于20%。由此可見,基于云計算環(huán)境下的數據挖掘技術,不僅能滿足用戶規(guī)模擴大、應用目標多樣等環(huán)境下的數據挖掘的應用需求,還能滿足當前系統的設計需求,有利于提高數據挖掘的效率,具有更加實用價值。

參考文獻:

[1]曾志華,李聰.云計算環(huán)境下頻繁出現異常數據挖掘方法研究[J].計算機仿真,2016,56(3):339-342.

[2]黃潮.云計算環(huán)境下的海量光纖通信故障數據挖掘算法研究[J].激光雜志,2017,38(1):96-100.

作者:李慧

相關熱門標簽