香蕉免费一区二区三区,黑人一区二区三区无码视频

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了爬蟲網(wǎng)絡(luò)安全問題探討分析范文，希望能給你帶來靈感和參考，敬請閱讀。

爬蟲網(wǎng)絡(luò)安全問題探討分析

摘要：隨著新一代網(wǎng)絡(luò)信息技術(shù)的應(yīng)用和服務(wù)越來越多，網(wǎng)絡(luò)信息安全事件頻繁爆發(fā)，網(wǎng)絡(luò)攻擊、病毒入侵、信息泄密等事件層出不窮。目前，大部分小型網(wǎng)站對于網(wǎng)絡(luò)安全重視不足，網(wǎng)絡(luò)安全風(fēng)險意識比較薄弱，易引發(fā)一系列問題。通過一個簡單的網(wǎng)絡(luò)爬蟲案例測試某小型網(wǎng)站的安全性，通過網(wǎng)絡(luò)爬蟲技術(shù)分析、查找網(wǎng)絡(luò)安全問題的原因，并就防范網(wǎng)絡(luò)爬蟲提出了一系列安全策略，提高網(wǎng)絡(luò)風(fēng)險意識。

關(guān)鍵詞：網(wǎng)絡(luò)爬蟲；網(wǎng)絡(luò)安全；安全策略

1關(guān)于網(wǎng)絡(luò)爬蟲概念與“爬取”過程

網(wǎng)絡(luò)爬蟲（WebSpider）又稱“網(wǎng)絡(luò)蜘蛛”，它能模擬正常用戶的一些行為，按照一定的規(guī)則自動抓取網(wǎng)絡(luò)中的各種信息。搜索引擎也是網(wǎng)絡(luò)爬蟲的一種，但是不影響網(wǎng)站的正常運行，也沒有任何惡意行為。而一些惡意的網(wǎng)絡(luò)爬蟲常常通過短時間內(nèi)大量訪問等手段來消耗網(wǎng)絡(luò)資源，使網(wǎng)站的正常運轉(zhuǎn)出現(xiàn)問題，導(dǎo)致服務(wù)器崩潰等。大部分爬蟲程序通過預(yù)先設(shè)定一個隊列存放URL，在進(jìn)行網(wǎng)頁爬取時，先從某一個或若干個URL開始，記錄該URL，再從該網(wǎng)頁上查找鏈接的其他URL放入隊列，不斷地從當(dāng)前頁面查找新的URL，如此循環(huán)往復(fù)，直到滿足設(shè)定的停止條件。

2網(wǎng)絡(luò)爬蟲爬取某網(wǎng)站的案例與簡單分析

2.1預(yù)判某網(wǎng)站安全技術(shù)措施

現(xiàn)在很多網(wǎng)站在一定程度上做了一些安全防護(hù)，但是由于成本以及技術(shù)原因等，大部分小型網(wǎng)站的網(wǎng)絡(luò)安全策略比較薄弱，以一個爬蟲案例來測試一下某網(wǎng)站網(wǎng)絡(luò)安全問題。首先找到一個某詩詞網(wǎng)站上的內(nèi)容，查看PC網(wǎng)站請求地址，https://xxx.cn/mingju/xx.aspx?p=2&t=&c=發(fā)現(xiàn)不同的頁面只是p=xx不同，xx=當(dāng)前頁面值，當(dāng)p<=30時，頁面顯示正常，但是當(dāng)翻頁超過30頁時，系統(tǒng)返回了錯誤頁面，提示“因服務(wù)器開支對本站造成巨大壓力，請下載客戶端進(jìn)行訪問”。說明系統(tǒng)還是針對大量數(shù)據(jù)做了一些安全策略性的限制，當(dāng)請求超過30頁時提示使用手機APP來訪問。于是嘗試從APP上找破解方法，通過抓包工具PacketCapture成功找到了數(shù)據(jù)請求接口。

2.2進(jìn)行爬蟲源碼編寫

2.3爬蟲源碼運行結(jié)果與安全分析

運行程序，包括朝代、作者、詩詞名稱、內(nèi)容等都成功抓取，將結(jié)果保存成Excel文件。文件內(nèi)容示例：桃李春風(fēng)一杯酒，江湖夜雨十年燈。<--->黃庭堅《寄黃幾復(fù)》一生大笑能幾回，斗酒相逢須醉倒。<--->岑參《涼州館中與諸判官夜集》在本案例中，網(wǎng)站只做了客戶端的攔截，翻頁超過30頁就提示錯誤頁面，但是對于服務(wù)端接口沒有做流量訪問控制、身份（如Ip、瀏覽器特征）驗證，所以當(dāng)通過抓包拿到請求接口后可以隨意請求獲得想要的數(shù)據(jù)。對于隱私性不強的網(wǎng)站可能并沒有特別重要的信息泄露，但對于涉及個人隱私等安全信息的網(wǎng)站，如果能隨意抓取數(shù)據(jù)，將會有很大的安全隱患。用不同的方式又測試了其他幾個網(wǎng)站，發(fā)現(xiàn)大部分網(wǎng)站雖然都做了一些網(wǎng)絡(luò)安全防護(hù)，但都做的比較簡單，對于信息安全的保護(hù)遠(yuǎn)遠(yuǎn)不夠。

3基于爬蟲的網(wǎng)絡(luò)安全風(fēng)險及防范

3.1網(wǎng)絡(luò)安全風(fēng)險

網(wǎng)絡(luò)安全做的不到位會有很多風(fēng)險，例如，某個網(wǎng)站上有一個10MB的文件，使用爬蟲抓取該文件1000次，就會使網(wǎng)站產(chǎn)生大量出站流量，可能會使服務(wù)器癱瘓無法正常訪問。惡意爬蟲入侵的幾種方式：（1）通過測試網(wǎng)站或后門調(diào)試程序入侵。目前，大多數(shù)基于網(wǎng)頁服務(wù)的系統(tǒng)都附帶了測試頁面及調(diào)試用后門程序等，有些可以通過這些頁面或程序不經(jīng)過正常的認(rèn)證直接訪問服務(wù)器端的敏感數(shù)據(jù)，一旦這些敏感數(shù)據(jù)被有心人利用，可能會成為進(jìn)行網(wǎng)絡(luò)分析與攻擊的源頭，出現(xiàn)各種安全問題。（2）通過管理接口入侵。為了方便管理，很多網(wǎng)絡(luò)平臺及系統(tǒng)都提供了基于網(wǎng)頁的管理接口，允許管理員對其進(jìn)行遠(yuǎn)程管理與控制。網(wǎng)絡(luò)惡意爬蟲程序通過搜索管理員登錄頁面獲得URL，而進(jìn)行一系列的網(wǎng)絡(luò)爬取或攻擊，網(wǎng)絡(luò)安全得不到保護(hù)。（3）通過網(wǎng)頁直接搜索入侵。惡意網(wǎng)絡(luò)爬蟲程序直接通過互聯(lián)網(wǎng)搜索用戶的個人資料，例如用戶的姓名、電話、微信號、身份證號等個人隱私，惡意用戶獲取后有可能實施攻擊或詐騙。惡意網(wǎng)絡(luò)爬蟲極易對網(wǎng)絡(luò)造成攻擊，所以必須采取一定的手段來限制網(wǎng)絡(luò)爬蟲的訪問權(quán)限，一方面開放需要搜索引擎收錄的頁面，同時又對一些敏感頁面進(jìn)行保護(hù)。

3.2限制網(wǎng)絡(luò)爬蟲的基本技巧

3.2.1對于程序本身的反爬策略大部分的爬蟲程序是對網(wǎng)站頁面的源文件進(jìn)行爬取，如爬取靜態(tài)頁面的html代碼，對于動態(tài)的很難爬取。了解了爬蟲的原理，可以通過仿寫html，讓網(wǎng)站程序本身穿上“防爬外衣”進(jìn)行偽裝。比如可以用其他技術(shù)去模仿寫html，這樣爬蟲就很難抓取到信息。類似這樣的技術(shù)還很多，就不一一舉例。

3.2.2對于數(shù)據(jù)包字段的反爬策略HTTP請求中的UserAgent字段能夠識別客戶使用的瀏覽器、引擎、操作系統(tǒng)、設(shè)備信息等。而爬蟲的UserAgent字段有它自己的特征，如百度搜索引擎爬蟲會有類似Baiduspider的字符串，Mozilla/5.0(compati-ble;Baiduspider/2.0;+www.baidu.com/search/spider.html))。通過對UserAgent特定字符的限制可以阻止此類爬蟲對網(wǎng)站的過度抓取。

3.2.3對于用戶行為的反爬策略爬蟲畢竟是機器人，和人的行為再像也會有區(qū)別。普通用戶很少會短時間內(nèi)多次訪問同一頁面或者同一賬戶短時間內(nèi)多次進(jìn)行相同操作，這種行為基本可以判定為爬蟲。一般通過網(wǎng)站分析軟件可以過濾出爬蟲的IP和訪問頻率等，針對這種情況，可以采取適當(dāng)?shù)拇胧┫拗凭W(wǎng)絡(luò)爬蟲的訪問權(quán)限，例如可采用限制IP或訪問頻率的方式來阻止此類爬蟲，從而進(jìn)行用戶行為的隱私保護(hù)，以保持網(wǎng)站的安全運行。

4結(jié)語

隨著全球信息化步伐的加快，安全問題刻不容緩，不僅涉及個人利益、企業(yè)生存、金融風(fēng)險等問題，還直接關(guān)系到社會穩(wěn)定和等諸多方面，了解網(wǎng)絡(luò)面臨的各種威脅，防范和消除這些威脅，已經(jīng)成為網(wǎng)絡(luò)發(fā)展中最重要的事情之一。

參考文獻(xiàn)

[1]吳翰清.白帽子講Web安全.北京:電子工業(yè)出版社,2012.

[2]孫衛(wèi)琴.Tomcat與JavaWeb開發(fā)技術(shù)詳解.北京:電子工業(yè)出版社,2009.

[3]劉馳,胡柏青,謝一.大數(shù)據(jù)治理與安全：從理論到開源實踐.北京:機械工業(yè)出版社,2009.

作者：畢艷華高曉艷張揚單位：衡水市信息產(chǎn)業(yè)中心

爬蟲網(wǎng)絡(luò)安全問題探討分析

相關(guān)文章閱讀