公務(wù)員期刊網(wǎng) 論文中心 正文

數(shù)據(jù)挖掘下的學(xué)生網(wǎng)絡(luò)行為分析管理

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘下的學(xué)生網(wǎng)絡(luò)行為分析管理范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。

數(shù)據(jù)挖掘下的學(xué)生網(wǎng)絡(luò)行為分析管理

摘要:隨著移動(dòng)互聯(lián)網(wǎng)和高校校園網(wǎng)的日趨完善,大學(xué)生已成為網(wǎng)絡(luò)社會(huì)最主要的社會(huì)群體之一。網(wǎng)絡(luò)已成為大學(xué)生校園生活和日常生活不可缺少的重要工具之一,對(duì)高校學(xué)生網(wǎng)絡(luò)行為進(jìn)行分析、管理和引導(dǎo)具有重要的作用和深遠(yuǎn)的意義。文章重點(diǎn)對(duì)網(wǎng)絡(luò)訪問數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)訪問數(shù)據(jù)清洗、網(wǎng)頁分類等核心環(huán)節(jié)進(jìn)行了闡述,并構(gòu)建了網(wǎng)絡(luò)行為分析與管理系統(tǒng),為高校網(wǎng)絡(luò)部門優(yōu)化校園網(wǎng)絡(luò)服務(wù)、保障網(wǎng)絡(luò)安全提供了參考。

關(guān)鍵詞:網(wǎng)絡(luò)行為分析;網(wǎng)絡(luò)行為管理;數(shù)據(jù)挖掘

隨著網(wǎng)絡(luò)的迅速普及,近年來我國網(wǎng)民數(shù)量不斷增長,2019年8月中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)了第44次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2019年6月,我國網(wǎng)民規(guī)模達(dá)8.54億,互聯(lián)網(wǎng)普及率達(dá)61.2%,手機(jī)網(wǎng)民規(guī)模達(dá)8.47億,網(wǎng)民使用手機(jī)上網(wǎng)的比例達(dá)99.1%,2019年上半年,我國網(wǎng)民的人均每周上網(wǎng)時(shí)長為27.9h[1]。隨著移動(dòng)互聯(lián)和高校校園網(wǎng)的日趨完善,大學(xué)生已成為網(wǎng)絡(luò)社會(huì)最主要的社會(huì)群體之一。由于具有較高的文化層次以及較強(qiáng)的新生事物接受能力,大學(xué)生掌握了很高的計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù),也因此主導(dǎo)著計(jì)算機(jī)網(wǎng)絡(luò)文化的潮流,網(wǎng)絡(luò)使用普及率、上網(wǎng)時(shí)間等都明顯高于其他群體。網(wǎng)絡(luò)已成為大學(xué)生校園生活和日常生活不可缺少的環(huán)節(jié)之一,對(duì)高校學(xué)生網(wǎng)絡(luò)行為進(jìn)行分析、管理和引導(dǎo)具有重要的作用和深遠(yuǎn)的意義。

1高校學(xué)生網(wǎng)絡(luò)行為分析與管理現(xiàn)狀

學(xué)生網(wǎng)絡(luò)行為分析與管理是指通過提取和監(jiān)控網(wǎng)絡(luò)流量,采集網(wǎng)絡(luò)用戶信息,包括用戶ID信息、所在區(qū)域、相關(guān)瀏覽數(shù)據(jù)和流量數(shù)據(jù),建立分析數(shù)據(jù)庫,識(shí)別學(xué)生訪問網(wǎng)站、網(wǎng)絡(luò)系統(tǒng)、數(shù)據(jù)庫、論壇等訪問行為,及時(shí)關(guān)注和掌握學(xué)生網(wǎng)絡(luò)行為狀態(tài),引導(dǎo)學(xué)生行為。同時(shí),通過關(guān)注網(wǎng)上異常行為,提高專有網(wǎng)絡(luò)的安全性。高校學(xué)生網(wǎng)絡(luò)行為數(shù)據(jù)挖掘主要包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析等步驟,數(shù)據(jù)采集是從高校各個(gè)專門網(wǎng)絡(luò)、APP、教學(xué)管理系統(tǒng)、圖書借閱系統(tǒng)、數(shù)據(jù)庫等教育環(huán)境中獲取學(xué)生訪問和使用數(shù)據(jù),并進(jìn)行存儲(chǔ);數(shù)據(jù)處理首先采用數(shù)據(jù)清理、數(shù)據(jù)變換等方法將采集的數(shù)據(jù)轉(zhuǎn)換成適合于數(shù)據(jù)挖掘的數(shù)據(jù)格式,然后運(yùn)用人工智能、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)等方法,從大量數(shù)據(jù)中挖掘和發(fā)現(xiàn)相關(guān)隱含信息;數(shù)據(jù)分析是指構(gòu)建相應(yīng)的評(píng)價(jià)指標(biāo)對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行評(píng)價(jià),為相關(guān)行為管理提供依據(jù)。2008年,美國、荷蘭等國家便先后成立了國際教育數(shù)據(jù)挖掘工作組,并召開了首屆教育數(shù)據(jù)挖掘國際學(xué)術(shù)會(huì)議。近年來,關(guān)于教育數(shù)據(jù)挖掘的研究不斷增多。2014年,電子科技大學(xué)成立教育大數(shù)據(jù)研究所;2015年,中國統(tǒng)計(jì)信息服務(wù)中心成立中國教育大數(shù)據(jù)研究院。吳青等[2]基于J48決策樹對(duì)高校學(xué)生網(wǎng)絡(luò)學(xué)習(xí)行為進(jìn)行了研究,構(gòu)建了相關(guān)學(xué)習(xí)模型。為了實(shí)現(xiàn)網(wǎng)絡(luò)學(xué)習(xí)的過程監(jiān)管,施佺等[3]使用關(guān)聯(lián)規(guī)則和聚類分析方法對(duì)學(xué)生的網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)進(jìn)行了研究,并構(gòu)建了數(shù)據(jù)挖掘模型。薛黎明等[4]將聚類算法用于用戶行為分析,以上網(wǎng)時(shí)長為指標(biāo)值,使用K-均值聚類與Kohonen神經(jīng)網(wǎng)絡(luò)聚類方法對(duì)上網(wǎng)記錄進(jìn)行聚類分析,獲得了較好的效果。馬煜[5]利用數(shù)據(jù)挖掘技術(shù)分析了校園網(wǎng)用戶的行為特點(diǎn),為網(wǎng)絡(luò)部門優(yōu)化校園網(wǎng)絡(luò)服務(wù)、保障網(wǎng)絡(luò)安全提供了參考。周航[6]基于大數(shù)據(jù)通過可視化校園網(wǎng)絡(luò)的用戶行為數(shù)據(jù),了解用戶的網(wǎng)絡(luò)行為,并為相關(guān)管理部門提供優(yōu)化依據(jù)。

2高校學(xué)生網(wǎng)絡(luò)行為分析與管理技術(shù)

本文借助某高校學(xué)生的網(wǎng)絡(luò)訪問記錄,通過網(wǎng)絡(luò)爬蟲、網(wǎng)頁分類、關(guān)鍵詞聚類、網(wǎng)絡(luò)行為可視化等手段,對(duì)采集的數(shù)據(jù)進(jìn)行處理,研究學(xué)生的興趣模型,采用關(guān)聯(lián)規(guī)則對(duì)學(xué)生瀏覽的網(wǎng)頁進(jìn)行分析與分類,從而揭示學(xué)生在此過程中所體現(xiàn)的網(wǎng)絡(luò)行為。

2.1網(wǎng)絡(luò)訪問數(shù)據(jù)預(yù)處理

學(xué)生網(wǎng)絡(luò)訪問日志主要來源于某高校信息化辦公室數(shù)據(jù)中心的服務(wù)器數(shù)據(jù),包括學(xué)生的基本信息以及訪問數(shù)據(jù),例如網(wǎng)址、下載文件、訪問數(shù)據(jù)庫、端口請(qǐng)求等。據(jù)此構(gòu)建了數(shù)據(jù)基本字段,格式如圖1所示。其中,NUM表示記錄編號(hào),USER_ID表示訪問學(xué)生的ID號(hào),USER_CRC表示學(xué)生的學(xué)號(hào),TIME1表示訪問開始時(shí)間,TIME2表示訪問結(jié)束時(shí)間,URL表示訪問鏈接,TYPE表示鏈接分類類別,TER表示訪問設(shè)備類型。

2.2網(wǎng)絡(luò)訪問數(shù)據(jù)清洗

為了去除訪問數(shù)據(jù)中的異常數(shù)據(jù)、彈窗、無效鏈接和其他無用數(shù)據(jù),在進(jìn)行數(shù)據(jù)挖掘之前,首先要對(duì)采集到的數(shù)據(jù)進(jìn)行清洗,保障數(shù)據(jù)的質(zhì)量和有效性。本文中需要過濾的無效或者無用數(shù)據(jù)包括訪問的圖片、下載的壓縮包、彈出的窗口、廣告等噪聲信息,這些信息會(huì)影響后續(xù)的網(wǎng)絡(luò)數(shù)據(jù)建模,因此必須提前進(jìn)行處理,針對(duì)常用的數(shù)據(jù)異常類型,處理方式如下:(1)缺失值類異常數(shù)據(jù),如果缺失率較低,且數(shù)據(jù)重要程度不高,可根據(jù)數(shù)據(jù)分布情況進(jìn)行填充,例如均值、中位數(shù)等;如果缺失率較高,且數(shù)據(jù)重要程度不高,可以直接刪除;如果缺失率較高,且數(shù)據(jù)重要程度較高,本文采用熱平臺(tái)插補(bǔ)法進(jìn)行處理,即在非缺失數(shù)據(jù)集中,找到與缺失值類似的匹配數(shù)據(jù),利用非缺失數(shù)據(jù)集中的數(shù)據(jù)對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)[7]。(2)異常值類異常數(shù)據(jù),是指明顯偏離正常范圍的數(shù)值,可通過箱線圖或者統(tǒng)計(jì)分析進(jìn)行區(qū)分,通過數(shù)據(jù)的統(tǒng)計(jì)特性,去尋找不合理的值。本文采用基于正態(tài)分布的離群點(diǎn)檢測(cè)方法進(jìn)行判斷,在準(zhǔn)則下,異常值是測(cè)定值中與平均值偏差超過3倍標(biāo)準(zhǔn)差的值,對(duì)于正態(tài)分布而言,屬于極小概率事件。對(duì)于不服從正態(tài)分布的數(shù)據(jù),本文采用超過原理平均值3倍的方式來判斷。(3)重復(fù)值類異常數(shù)據(jù),首先將所有數(shù)據(jù)按照一定的規(guī)則進(jìn)行排序,然后通過比較相鄰數(shù)據(jù)集的相關(guān)性來判斷是否屬于異常數(shù)據(jù),可用duplicated函數(shù)實(shí)現(xiàn)此過程。(4)噪音類異常數(shù)據(jù),是檢測(cè)數(shù)據(jù)的隨機(jī)誤差或者方差,不同于離群點(diǎn)數(shù)據(jù)。對(duì)于噪音,可采用回歸法進(jìn)行處理,即用一個(gè)函數(shù)擬合來光滑數(shù)據(jù),只要找到適合數(shù)據(jù)的擬合函數(shù),就能消除噪音對(duì)數(shù)據(jù)的影響。

2.3網(wǎng)頁分類

根據(jù)學(xué)生訪問習(xí)慣,本文將學(xué)生訪問網(wǎng)頁分為新聞、藝術(shù)、影音、郵箱、游戲、寵物、購物、科技、論壇、美食、汽車、體育、文學(xué)、教育、考試、交通、旅游等,同時(shí)用相應(yīng)的訓(xùn)練樣本對(duì)其進(jìn)行訓(xùn)練。分類流程如圖2所示。

3高校學(xué)生網(wǎng)絡(luò)行為分析與管理系統(tǒng)構(gòu)建

從實(shí)際需求出發(fā),設(shè)計(jì)了高校學(xué)生網(wǎng)絡(luò)行為分析與管理系統(tǒng),系統(tǒng)根據(jù)學(xué)生訪問日志,通過對(duì)網(wǎng)頁進(jìn)行分類,借助Echarts對(duì)結(jié)果進(jìn)行可視化展示,主要實(shí)現(xiàn)了數(shù)據(jù)上傳、數(shù)據(jù)讀取、網(wǎng)頁分類、結(jié)果可視化等功能。其系統(tǒng)功能結(jié)構(gòu)如圖3所示。

4結(jié)語

本文在深入分析高校學(xué)生網(wǎng)絡(luò)行為分析與管理研究現(xiàn)狀的基礎(chǔ)上,對(duì)網(wǎng)絡(luò)行為分析與管理技術(shù)進(jìn)行了闡述,包括網(wǎng)絡(luò)訪問數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)訪問數(shù)據(jù)清洗、網(wǎng)頁分類等核心環(huán)節(jié),并根據(jù)實(shí)際需要構(gòu)建了網(wǎng)絡(luò)行為分析與管理系統(tǒng),提出了系列解決方案,為高校網(wǎng)絡(luò)部門優(yōu)化校園網(wǎng)絡(luò)服務(wù)、保障網(wǎng)絡(luò)安全提供了參考。

[參考文獻(xiàn)]

[1]中國互聯(lián)網(wǎng)信息中心.第44次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[EB/OL].

[2]吳青,羅儒國.基于網(wǎng)絡(luò)學(xué)習(xí)行為的學(xué)習(xí)風(fēng)格挖掘[J].現(xiàn)代遠(yuǎn)距離教育,2014(1):54-62.

[3]施佺,錢源,孫玲.基于教育數(shù)據(jù)挖掘的網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管研究[J].現(xiàn)代教育技術(shù),2016(6):87-93.

[4]薛黎明,欒維新.聚類算法在高校網(wǎng)絡(luò)用戶行為分析中的應(yīng)用[J].現(xiàn)代電子技術(shù),2016(7):29-32.

[5]馬煜.基于數(shù)據(jù)挖掘?qū)π@網(wǎng)用戶網(wǎng)絡(luò)行為的分析[J].科技創(chuàng)新與應(yīng)用,2016(34):79.

[6]周航.基于大數(shù)據(jù)的高校網(wǎng)絡(luò)用戶行為的數(shù)據(jù)可視化設(shè)計(jì)分析[J].中國包裝,2019(7):33-35.

[7]翟學(xué)新.高校學(xué)生網(wǎng)絡(luò)行為與興趣關(guān)聯(lián)分析[D].綿陽:西南科技大學(xué),2018.

作者:姜彬峰 單位:吉林鐵道職業(yè)技術(shù)學(xué)院