前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的生物信息學(xué)的概念主題范文,僅供參考,歡迎閱讀并收藏。
一、正視學(xué)生的學(xué)習(xí)錯(cuò)誤,是新課改以人為本理念的體現(xiàn)
我們知道,課堂是學(xué)生學(xué)習(xí)中犯錯(cuò)誤的地方,課堂教學(xué)也應(yīng)該大膽暴露學(xué)生的學(xué)習(xí)錯(cuò)誤。每一個(gè)學(xué)生都是有思想、有情感、有需求、有尊嚴(yán)的生命個(gè)體,他們都有個(gè)性,而且存在個(gè)性差異。學(xué)生的學(xué)習(xí)是一個(gè)自主的認(rèn)知建構(gòu)過程,是從不懂到懂,從不會(huì)到會(huì),從無到有的完善過程。由于學(xué)生的客觀差異性,學(xué)生的學(xué)習(xí)有快有慢,有好有差,有對有錯(cuò)。可以說,學(xué)生在學(xué)習(xí)上犯錯(cuò)誤是正常的。在新一輪課程改革的進(jìn)程中,老師不斷要有課程意識(shí)、學(xué)生意識(shí)、資源意識(shí)等,其中資源意識(shí)涵蓋很多內(nèi)容,學(xué)生是資源,學(xué)生的學(xué)習(xí)狀況也是資源。老師面對學(xué)生時(shí)不僅要有成功學(xué)生的范例,有學(xué)生正確學(xué)習(xí)的資源,也要正視學(xué)生的學(xué)習(xí)錯(cuò)誤這一資源,剖析并用好學(xué)習(xí)錯(cuò)誤這一資源。應(yīng)當(dāng)說,正視學(xué)生的學(xué)習(xí)錯(cuò)誤,是對學(xué)生人格的尊重;正視學(xué)生的學(xué)習(xí)錯(cuò)誤,是堅(jiān)持新課改核心理念“一切為了學(xué)生的發(fā)展”的具體體現(xiàn)。同時(shí),正視學(xué)生的學(xué)習(xí)錯(cuò)誤,也有利于教師反思教學(xué)。面對學(xué)生的學(xué)習(xí)錯(cuò)誤,首先老師要捫心自問自己的教學(xué)哪里出了紕漏,反思自己的教學(xué)行為是不是有教材沒吃透,教法不符合學(xué)法,因材施教方面有哪些不足,教學(xué)機(jī)智欠佳,預(yù)設(shè)教學(xué)與生成教學(xué)在哪里沒融合好等。然后,老師及時(shí)調(diào)整自己的教學(xué)行為來更好地服務(wù)學(xué)生的學(xué)習(xí)行為。
二、正視學(xué)生的學(xué)習(xí)錯(cuò)誤,有利于學(xué)生改善學(xué)習(xí)和成長
學(xué)生面對學(xué)習(xí)錯(cuò)誤,老師指導(dǎo)學(xué)生認(rèn)識(shí)到錯(cuò)誤的說法、做法可以用來啟發(fā)其他同學(xué)和自己想到正確的說法、做法,找到正確的方法、路徑來解決問題,從中讓學(xué)生明白在學(xué)習(xí)上犯錯(cuò)誤是自然的、正常的事,錯(cuò)誤中暗示著正確。學(xué)生面對學(xué)習(xí)錯(cuò)誤,老師或同學(xué)應(yīng)該幫助他分析錯(cuò)誤的原因,并讓學(xué)生自己學(xué)會(huì)回顧產(chǎn)生錯(cuò)誤的歷程,找到錯(cuò)誤的原因,分析是認(rèn)知基礎(chǔ)差,還是學(xué)習(xí)能力弱,是思維定勢所致,還是學(xué)習(xí)品質(zhì)、學(xué)習(xí)習(xí)慣諸因素所致,找到癥結(jié)才好下藥改正。學(xué)生面對學(xué)習(xí)錯(cuò)誤,老師要讓其明確改正學(xué)習(xí)上的錯(cuò)誤是每位學(xué)生應(yīng)盡的學(xué)習(xí)責(zé)任,做到隨時(shí)有了學(xué)習(xí)上的錯(cuò)誤就能及時(shí)改正,明白每改正一次錯(cuò)誤就是一個(gè)進(jìn)步。這樣學(xué)生在學(xué)習(xí)過程中才能減少學(xué)習(xí)錯(cuò)誤,提高解題正確率,使學(xué)生從錯(cuò)誤中想到正確所在,從失敗走向成功。
學(xué)習(xí)是一個(gè)不斷解決問題的過程,也是不斷改正學(xué)習(xí)錯(cuò)誤的過程。老師不歧視犯了學(xué)習(xí)錯(cuò)誤的學(xué)生,反而正視學(xué)生的學(xué)習(xí)錯(cuò)誤,把學(xué)習(xí)錯(cuò)誤當(dāng)作一種資源,經(jīng)常匯集學(xué)生的學(xué)習(xí)錯(cuò)誤例子,有利于因材施教,優(yōu)化教學(xué)。同時(shí),老師應(yīng)該充分利用這些學(xué)習(xí)錯(cuò)誤,對學(xué)生因勢利導(dǎo),讓學(xué)生正視學(xué)習(xí)錯(cuò)誤,多鼓勵(lì)學(xué)生,使學(xué)生站在另一角度看待學(xué)習(xí)錯(cuò)誤,從錯(cuò)誤中有意義地學(xué)習(xí),正如一些高考狀元介紹學(xué)習(xí)心得時(shí),特地指出他們自己重視分析錯(cuò)題,甚至把錯(cuò)題匯編成冊,經(jīng)常反思,不斷突破,高效學(xué)習(xí)。正視學(xué)生的學(xué)習(xí)錯(cuò)誤,可以幫助學(xué)生樹立學(xué)習(xí)的信心,培養(yǎng)學(xué)習(xí)責(zé)任,不斷減少錯(cuò)誤,學(xué)會(huì)正確學(xué)習(xí),從而使學(xué)生得到自主、和諧、全面、持續(xù)發(fā)展。
三、正視學(xué)生的學(xué)習(xí)錯(cuò)誤,教師要擁有一顆寬容的心
我們知道,每個(gè)學(xué)生都有自己的生活背景、家庭環(huán)境、特定的生活與社會(huì)文化氛圍,這就導(dǎo)致了不同的學(xué)生有著不同的經(jīng)歷,不同的思維方式、不同的興趣愛好、不同的發(fā)展?jié)撃?。就我所任教的?shù)學(xué)學(xué)科而言,教學(xué)實(shí)踐證明不同學(xué)生之間的差異是永遠(yuǎn)存在的,在數(shù)學(xué)方面往往更為明顯。因此,在學(xué)習(xí)同一數(shù)學(xué)內(nèi)容時(shí),學(xué)生既有在復(fù)雜處出錯(cuò)的可能,也有在簡單處出錯(cuò)的可能,既有一次出錯(cuò)的可能,也有多次出錯(cuò)的可能。一個(gè)學(xué)生在此可能出錯(cuò),另一個(gè)學(xué)生可能在此不出錯(cuò);多數(shù)人在此可能出錯(cuò),少數(shù)人可能在此不出錯(cuò)。要允許不同的學(xué)生用不同的速度,不同的方式學(xué)習(xí)數(shù)學(xué),允許不同的學(xué)生在數(shù)學(xué)方面得到不同的發(fā)展,新課程要求最大限度地滿足每一個(gè)學(xué)生的潛能,其中很重要的一點(diǎn)就是要特別關(guān)注數(shù)學(xué)學(xué)習(xí)上能力不足或暫時(shí)有困難的學(xué)生。所以,要實(shí)現(xiàn)這一點(diǎn)教師就要寬容學(xué)生的錯(cuò)誤。
關(guān)鍵詞:生物信息學(xué);實(shí)踐教學(xué);教學(xué)模式
中圖分類號 G642.0 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號 1007-7731(2017)06-0179-03
Innovative Teaching Pattern of Bioinformatics
Zhu Liucun et al.
(School of Life Sciences,Shanghai University,Shanghai 200444,China)
Abstract:As a newly-developing interdiscipline,bioinformatics has received incessant attention on the research of teaching models.Traditional teaching methods focus on the pattern of direct instruction and demonstration from the lecturer which students were used to learning in China.However,this straight teaching pattern usually lacks of capacity of arousing students' interest in learning,let alone achieves the aim of making them complete their work with the knowledge they learned in class.Recently,case-based learning,problem-based learning and program-based learning are known as successfully innovative teaching models.In this paper,by combining these three models and considering the background of students and characteristic of bioinformatics,we propose a new teaching pattern to be geared to the needs of the undergraduates learning bioinformatics.We look forward to the innovation and development this teaching pattern may achieve so as to enhance the students' capacity of independent study and thinking.
Key words:Bioinformatics;Practice teaching;Teaching pattern
1 前言
生物信息學(xué)是生命科學(xué)的重要前沿交叉學(xué)科之一,綜合計(jì)算機(jī)科學(xué)、數(shù)學(xué)、生物學(xué)等學(xué)科的技術(shù)和方法,以計(jì)算機(jī)為主要的工具,對生物原始數(shù)據(jù)進(jìn)行研究、存檔、分析和處理,以闡明其具有的生物學(xué)意義[1,2]。隨著人類基因組計(jì)劃的成功完成,測序技術(shù)的不斷發(fā)展,越來越多的生物基因序列數(shù)據(jù)被載入到數(shù)據(jù)庫中。而大數(shù)據(jù)時(shí)代的到來要求我們能大規(guī)模的分析處理這些數(shù)據(jù),因此生物信息學(xué)進(jìn)入高速發(fā)展的黃金期。
目前生物信息學(xué)在許多高校本科生物專業(yè)中開設(shè),目的是讓學(xué)生掌握生物信息學(xué)的相關(guān)技術(shù)及分析數(shù)據(jù)能力,并具有查找、跟蹤生物信息學(xué)前沿性技術(shù)的能力。然而,在與學(xué)生的交流過程中,筆者發(fā)現(xiàn)幾個(gè)普遍存在的問題:有的學(xué)生反映,聽完課很快就忘了;有的學(xué)生感覺很多概念太難懂;而更為關(guān)鍵的是,很多學(xué)生學(xué)完這門課之后,仍然不知道遇到具體的問題應(yīng)當(dāng)如何去做,甚至根本想不到用生物信息學(xué)課上學(xué)到的方法去解決他們的實(shí)際問題。究其原因,主要是由于國內(nèi)的生物信息學(xué)教學(xué)基本以教師講授為主,缺少與學(xué)科本身交叉前沿性特點(diǎn)相結(jié)合的教學(xué)方法[3],導(dǎo)致學(xué)生學(xué)習(xí)積極性不高,變成簡單的重復(fù)老師的實(shí)驗(yàn)操作,失去獨(dú)立思考的能力,這就違背了開設(shè)這門課的初衷。為此,本文就目前流行的3種創(chuàng)新教學(xué)模式的特點(diǎn)進(jìn)行分析,結(jié)合生物信息學(xué)特點(diǎn),歸納出一套適合本科生物信息學(xué)教學(xué)的方法。
2 幾種創(chuàng)新教學(xué)模式介紹
2.1 案例式教學(xué)法 案例式教學(xué)法(Case-Based Learning)是指教師根據(jù)教學(xué)內(nèi)容設(shè)計(jì)案例,利用案例材料指導(dǎo)學(xué)生參與教學(xué)活動(dòng),充分發(fā)揮學(xué)生主導(dǎo)地位的方法[3,4]。不同于傳統(tǒng)教學(xué)灌輸?shù)姆绞?,案例式教學(xué)更加注重學(xué)生能力的培養(yǎng),不直接提供解決問題的標(biāo)準(zhǔn)答案,而是通過結(jié)合具體案例討論得到解決問題的方法。
2.2 問題式教學(xué)法 問題式教學(xué)法(Problem-Based Learning)是以問題為導(dǎo)向的開放式教學(xué)模式[5],主張讓學(xué)生自主學(xué)習(xí)去解決問題,培養(yǎng)學(xué)生的學(xué)習(xí)主動(dòng)性,加深學(xué)生對理論知識(shí)的理解和應(yīng)用。其特點(diǎn)是將教材的知識(shí)點(diǎn)以問題的形式呈現(xiàn)在學(xué)生的面前,讓學(xué)生在探索解決問題的過程中展開探索,教師和學(xué)生一起協(xié)作尋找解決問題的方法,從而掌握課本中的知識(shí)。在研究活動(dòng)中,學(xué)生可以充分利用身邊的資源,比如圖書館的文獻(xiàn)檢索系統(tǒng)、網(wǎng)絡(luò)學(xué)習(xí)軟件以及多媒w等多種形式進(jìn)行自主學(xué)習(xí)。問題式教學(xué)模式營造了一種輕松快樂的學(xué)習(xí)氛圍,提高了學(xué)生相互合作的團(tuán)隊(duì)意識(shí),為以后步入社會(huì)工作打下堅(jiān)實(shí)的基礎(chǔ)。比如,在BLAST軟件使用教學(xué)中,可以先給學(xué)生提出如何對兩條DNA序列進(jìn)行比對的問題,讓他們通過自學(xué)與相互討論的方式掌握BLAST的使用方法并將2條DNA序列利用BLAST進(jìn)行比對并對比對結(jié)果加以闡述。
2.3 項(xiàng)目式教學(xué)法 項(xiàng)目式教學(xué)法(Program-Based Learning)是以項(xiàng)目為主線,在老師的指導(dǎo)下,將一個(gè)相對獨(dú)立的項(xiàng)目交由學(xué)生處理,包括對信息的收集、方案的設(shè)計(jì)、項(xiàng)目的實(shí)施及最終評價(jià)[6]。學(xué)生通過對該項(xiàng)目的進(jìn)行,了解并把握整個(gè)程及每一個(gè)環(huán)節(jié)中的基本要求,以此來培養(yǎng)學(xué)生獨(dú)立分析解決問題的能力,讓學(xué)生提高自己的動(dòng)手能力、組織協(xié)作能力和綜合概括的能力,拓展學(xué)生思考問題的深度和廣度。這種教學(xué)法應(yīng)用非常廣泛,尤其是在職業(yè)教育中。
3 應(yīng)用于生物信息W課程的創(chuàng)新教學(xué)模式
那么采取哪種教學(xué)方式才能夠讓學(xué)生順利掌握知識(shí)點(diǎn),并且能應(yīng)用到實(shí)際當(dāng)中去呢?一般的生物學(xué)課程,只要在理論課后加入實(shí)踐課的內(nèi)容,就可以解決這個(gè)問題,例如細(xì)胞生物學(xué),只要再加入細(xì)胞生物學(xué)實(shí)驗(yàn),那么學(xué)生對這門課的理解就會(huì)加深很多,對這門課的應(yīng)用也會(huì)有一定的了解。然而筆者在實(shí)際的教學(xué)過程中卻發(fā)現(xiàn),這樣的方式并不適合生物信息學(xué)這門課程,這是由于多數(shù)學(xué)生在上機(jī)實(shí)踐之后,仍然不是太理解課上講的一些概念,也不知道如何將這些方法運(yùn)用到實(shí)際中。造成這種情況的原因主要有兩點(diǎn),一個(gè)是生物信息學(xué)這門課程所要求的數(shù)學(xué)和計(jì)算機(jī)方面基礎(chǔ),絕大多數(shù)學(xué)生物的學(xué)生都比較薄弱,甚至有部分同學(xué)在計(jì)算機(jī)編程方面是零基礎(chǔ)。這使得他們在理論課上,對一些概念只是強(qiáng)行記住,并沒有真正理解。而在上機(jī)實(shí)踐環(huán)節(jié)中,他們又只是走馬觀花地將整個(gè)流程給過了一遍,并不知道這些操作是用來做什么的。另一個(gè)原因則是生物信息學(xué)與其他生物學(xué)的課程之間有脫節(jié),這使得生物信息學(xué)的知識(shí)點(diǎn)很難融入到學(xué)生的現(xiàn)有知識(shí)體系當(dāng)中去,這樣就導(dǎo)致了學(xué)生不知道這些知識(shí)點(diǎn)的用途。因此,必須在激發(fā)學(xué)生學(xué)習(xí)興趣的基礎(chǔ)上,深入剖析生物信息學(xué)的基本概念,并且結(jié)合生物學(xué)中的實(shí)際問題,引導(dǎo)學(xué)生對其進(jìn)行解決,才能讓學(xué)生真正掌握這門課。而傳統(tǒng)的老師講、學(xué)生聽的授課方式顯然是不能滿足這一要求的。
案例式教學(xué)法起源于美國哈佛商學(xué)院,最早應(yīng)用于商業(yè)管理課程。其重點(diǎn)在于對一些熱門且有爭議的問題進(jìn)行反復(fù)討論,加深學(xué)生對知識(shí)點(diǎn)的理解。而生物信息學(xué)課程的內(nèi)容大多比較確定,比較前沿有爭議的話題又離日常生活較遠(yuǎn),極少出現(xiàn)熱門話題。因此,筆者認(rèn)為案例式教學(xué)法目前可以偶爾用作課堂教學(xué)穿插,不適合全面應(yīng)用于本科生物信息學(xué)課程。
問題式教學(xué)模式與項(xiàng)目式教學(xué)模式在本質(zhì)上是相同的,均是以學(xué)生為主體,讓學(xué)生帶著問題或者有明確的目標(biāo)的去主動(dòng)利用身邊資源查找相關(guān)知識(shí)解決問題完成目標(biāo),使學(xué)生在探索過程不僅掌握了知識(shí),同時(shí)萌生自主學(xué)習(xí)的動(dòng)機(jī)和欲望,提高了自主學(xué)習(xí)能力。兩種教學(xué)模式的區(qū)別在于問題式教學(xué)法是將書本中的知識(shí)點(diǎn)凝練為問題再分析問題并解決問題,而項(xiàng)目式教學(xué)法則是根據(jù)老師提出的項(xiàng)目要求,以收集信息、設(shè)計(jì)方案、實(shí)施項(xiàng)目、最終評價(jià)為線索進(jìn)行教學(xué)。問題式教學(xué)提出的問題與書本知識(shí)更為接近且較為零散,學(xué)生在針對問題進(jìn)行分析和解決的過程中,容易對教學(xué)內(nèi)容缺乏整體認(rèn)識(shí),即難以將知識(shí)點(diǎn)連成線,也很難結(jié)合實(shí)際問題。而項(xiàng)目式教學(xué)法是目前最適合提高學(xué)生能力的教學(xué)方法。然而在實(shí)際教學(xué)過程中,筆者發(fā)現(xiàn)大多數(shù)學(xué)生對項(xiàng)目式教學(xué)并不適應(yīng),很多學(xué)生在理解項(xiàng)目時(shí)就遇到了困難,在項(xiàng)目設(shè)計(jì)時(shí)感到無從下手。
因此,筆者在對兩種教學(xué)方法進(jìn)行研究歸納之后,將問題式教學(xué)法與項(xiàng)目式教學(xué)法相結(jié)合,總結(jié)出一套適合本科生物信息學(xué)教學(xué)的方法。具體為:首先教師根據(jù)課程安排制定一個(gè)可擴(kuò)展的課題,明確課題要求,并根據(jù)課題內(nèi)容將知識(shí)點(diǎn)拆分,以問題形式展現(xiàn)給學(xué)生,教師先就這些問題講一些例子,學(xué)生查找資料。在此基礎(chǔ)上,學(xué)生既對課題內(nèi)容有整體認(rèn)識(shí),又在分析、解決一系列小問題時(shí)學(xué)習(xí)到知識(shí)點(diǎn)、收集了項(xiàng)目信息。隨后通過參與定期分組討論,與老師進(jìn)行溝通的方式,學(xué)生最終可以擬定項(xiàng)目的方案并付諸實(shí)施。這種教學(xué)模式讓學(xué)生了解實(shí)際工作的流程,培養(yǎng)基本的工作能力。在與教師的交流討論中收獲更多的專業(yè)知識(shí),與同學(xué)之間的合作交流中查漏補(bǔ)缺,完善自己的不足,達(dá)到相互提高的作用。例如,在教學(xué)中,教師可以設(shè)計(jì)一個(gè)題為“構(gòu)建一個(gè)可以預(yù)測乳腺癌患者生存時(shí)間的基因模型”的項(xiàng)目,并將項(xiàng)目拆解為:如何查找潛在包含乳腺癌患者信息的數(shù)據(jù)庫?如何篩選與生存時(shí)間相關(guān)的基因?如何構(gòu)建模型?如何評價(jià)模型的好壞四個(gè)問題?同時(shí),為了讓學(xué)生在實(shí)踐中更好下手,可以依次為各個(gè)問題舉例加以說明。如查找數(shù)據(jù)庫環(huán)節(jié),可以列舉NCBI中的GEO數(shù)據(jù)庫與美國政府發(fā)起的癌癥和腫瘤基因圖譜計(jì)劃涉及的TCGA數(shù)據(jù)庫兩個(gè)例子,讓學(xué)生先從這兩個(gè)數(shù)據(jù)庫獲取相關(guān)的數(shù)據(jù),對數(shù)據(jù)本身有所認(rèn)識(shí),再利用校園網(wǎng)資源查找更多的數(shù)據(jù)庫。在此過程中,學(xué)生全程參與項(xiàng)目實(shí)現(xiàn)的各個(gè)流程,不僅學(xué)會(huì)了自主查找資料與學(xué)習(xí),還提高了同學(xué)間的優(yōu)勢互補(bǔ)與團(tuán)隊(duì)協(xié)作的能力,提高學(xué)生學(xué)習(xí)的積極性,獲得獨(dú)立思考的能力。
參考文獻(xiàn)
[1]龔樂君,楊榮根.淺談?dòng)?jì)算機(jī)交叉學(xué)科――生物信息學(xué)教學(xué)中的探討[J].新教育時(shí)代電子雜志(教師版),2014(19):123-124.
[2]徐培杰.生物信息學(xué)研究現(xiàn)狀[J].科技信息,2013(10):268-269.
[3]劉念.案例教學(xué)法在《生物信息學(xué)》本科教學(xué)中的應(yīng)用[J].考試周刊,2016(78):152,191.
[4]張俊河,董衛(wèi)華,王芳,等.案例教學(xué)法在醫(yī)學(xué)生物化學(xué)教學(xué)中的應(yīng)用[J].山西醫(yī)科大學(xué)學(xué)報(bào)(基礎(chǔ)醫(yī)學(xué)教育版),2010(02):139-142.
一、整合生物信息學(xué)的研究領(lǐng)域
盡管目前一般意義上的生物信息學(xué)還局限在分子生物學(xué)層次,但廣義上的生物信息學(xué)是可以研究生物學(xué)的任何方面的。生命現(xiàn)象是在信息控制下不同層次上的物質(zhì)、能量與信息的交換,不同層次是指核酸、蛋白質(zhì)、細(xì)胞、器官、個(gè)體、群體和生態(tài)系統(tǒng)等。這些層次的系統(tǒng)生物學(xué)研究將成為后基因組時(shí)代的生物信息學(xué)研究和應(yīng)用的對象。隨著在完整基因組、功能基因組、生物大分子相互作用及基因調(diào)控網(wǎng)絡(luò)等方面大量數(shù)據(jù)的積累和基本研究規(guī)律的深入,生命科學(xué)正處在用統(tǒng)一的理論框架和先進(jìn)的實(shí)驗(yàn)方法來探討數(shù)據(jù)間的復(fù)雜關(guān)系,向定量生命科學(xué)發(fā)展的重要階段。采用物理、數(shù)學(xué)、化學(xué)、力學(xué)、生物等學(xué)科的方法從多層次、多水平、多途徑開展交叉綜合研究,在分子水平上揭示生物信息及其傳遞的機(jī)理與過程,描述和解釋生命活動(dòng)規(guī)律,已成生命科學(xué)中的前沿科學(xué)問題(摘自:國家“十一五”生命科學(xué)發(fā)展規(guī)劃),為整合生物信息學(xué)的發(fā)展提供了數(shù)據(jù)資源和技術(shù)支撐。
當(dāng)前,由各種Omics組學(xué)技術(shù),如基因組學(xué)(DNA測序),轉(zhuǎn)錄組學(xué)(基因表達(dá)系列分析、基因芯片),蛋白質(zhì)組學(xué)(質(zhì)譜、二維凝膠電泳、蛋白質(zhì)芯片、X光衍射、核磁共振),代謝組學(xué)(核磁共振、X光衍射、毛細(xì)管電泳)等技術(shù),積累了大量的實(shí)驗(yàn)數(shù)據(jù)。約有800多個(gè)公共數(shù)據(jù)庫系統(tǒng)和許多分析工具可利用通過互聯(lián)網(wǎng)來解決各種各樣的生物任務(wù)。生物數(shù)據(jù)的計(jì)算分析基本上依賴于計(jì)算機(jī)科學(xué)的方法和概念,最終由生物學(xué)家來系統(tǒng)解決具體的生物問題。我們面臨的挑戰(zhàn)是如何從這些組學(xué)數(shù)據(jù)中,利用已有的生物信息學(xué)的技術(shù)手段,在新的系統(tǒng)層次、多水平、多途徑來了解生命過程。整合生物信息學(xué)便承擔(dān)了這一任務(wù)。
圖1簡單描述了生物信息學(xué)、系統(tǒng)生物學(xué)與信息學(xué)、生物學(xué)以及基因組計(jì)劃各個(gè)研究領(lǐng)域的相關(guān)性??梢钥闯龌蚪M計(jì)劃將生物學(xué)與信息學(xué)前所未有地結(jié)合到了一起,而生物信息學(xué)的興起是與人類基因組的測序計(jì)劃分不開的,生物信息學(xué)自始至終提供了所需的技術(shù)與方法,系統(tǒng)生物學(xué)強(qiáng)調(diào)了生物信息學(xué)的生物反應(yīng)模型和機(jī)理研究,也是多學(xué)科高度交叉,促使理論生物學(xué)、生物信息學(xué)、計(jì)算生物學(xué)與生物學(xué)走得更近,也使我們研究基因型到表型的過程機(jī)理更加接近。虛線范圍代表整合生物信息學(xué)的研究領(lǐng)域,它包括了基因組計(jì)劃的序列、結(jié)構(gòu)、功能、應(yīng)用的整合,也涵蓋了生物信息學(xué)、系統(tǒng)生物學(xué)技術(shù)與方法的有機(jī)整合。
整合生物信息學(xué)的最大特點(diǎn)就是整合,不僅整合了生物信息學(xué)的研究方法和技術(shù),也是在更大的層次上整合生命科學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、物理學(xué)、化學(xué)、醫(yī)學(xué),以及工程學(xué)等各學(xué)科。其生物數(shù)據(jù)整合從微觀到宏觀,應(yīng)用領(lǐng)域整合涉及工、農(nóng)、林、漁、牧、醫(yī)、藥。本文將就整合生物信息學(xué)的生物數(shù)據(jù)整合、學(xué)科技術(shù)整合及其他方面進(jìn)行初步的介紹和探討。
二、生物數(shù)據(jù)挖掘與整合
生物系統(tǒng)的不同性質(zhì)的組分?jǐn)?shù)據(jù),從基因到細(xì)胞、到組織、到個(gè)體的各個(gè)層次。大量組分?jǐn)?shù)據(jù)的收集來自實(shí)驗(yàn)室(濕數(shù)據(jù))和公共數(shù)據(jù)資源(干數(shù)據(jù))。但這些數(shù)據(jù)存在很多不利于處理分析的因素,如數(shù)據(jù)的類型差異,數(shù)據(jù)庫中存在大量數(shù)據(jù)冗余以及數(shù)據(jù)錯(cuò)誤;存儲(chǔ)信息的數(shù)據(jù)結(jié)構(gòu)也存在很大的差異,包括文本文件、關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫等;缺乏統(tǒng)一的數(shù)據(jù)描述標(biāo)準(zhǔn),信息查詢方面大相徑庭;許多數(shù)據(jù)信息是描述性的信息,而不是結(jié)構(gòu)化的信息標(biāo)示。如何快速地在這些大量的包括錯(cuò)誤數(shù)據(jù)的數(shù)據(jù)量中獲取正確數(shù)據(jù)模式和關(guān)系是數(shù)據(jù)挖掘與整合的主要任務(wù)。
數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)的一個(gè)過程,其他各個(gè)環(huán)節(jié),如數(shù)據(jù)庫的選擇和取樣,數(shù)據(jù)的預(yù)處理和去冗余,錯(cuò)誤和沖突,數(shù)據(jù)形式的轉(zhuǎn)換,挖掘數(shù)據(jù)的評估和評估的可視化等。數(shù)據(jù)挖掘的過程主要是從數(shù)據(jù)中提取模式,即模式識(shí)別。如DNA序列的特征核苷堿基,蛋白質(zhì)的功能域及相應(yīng)蛋白質(zhì)的三維結(jié)構(gòu)的自動(dòng)化分類等。從信息處理的角度來說,模式識(shí)別可以被看作是根據(jù)一分類標(biāo)準(zhǔn)對外來數(shù)據(jù)進(jìn)行篩選的數(shù)據(jù)簡化過程。其主要步驟是:特征選擇,度量,處理,特征提取,分類和標(biāo)識(shí)。現(xiàn)有的數(shù)據(jù)挖掘技術(shù)常用的有:聚類、概念描述、連接分析、關(guān)聯(lián)分析、偏差檢測和預(yù)測模型等。生物信息學(xué)中用得比較多的數(shù)據(jù)挖掘的技術(shù)方法有:機(jī)器學(xué)習(xí),文本挖掘,網(wǎng)絡(luò)挖掘等。
機(jī)器學(xué)習(xí)通常用于數(shù)據(jù)挖掘中有關(guān)模式匹配和模式發(fā)現(xiàn)。機(jī)器學(xué)習(xí)包含了一系列用于統(tǒng)計(jì)、生物模擬、適應(yīng)控制理論、心理學(xué)和人工智能的方法。應(yīng)用于生物信息學(xué)中的機(jī)器學(xué)習(xí)技術(shù)有歸納邏輯程序,遺傳算法,神經(jīng)網(wǎng)絡(luò),統(tǒng)計(jì)方法,貝葉斯方法,決策樹和隱馬爾可夫模型等。值得一提的是,大多數(shù)數(shù)據(jù)挖掘產(chǎn)品使用的算法都是在計(jì)算機(jī)科學(xué)或統(tǒng)計(jì)數(shù)學(xué)雜志上發(fā)表過的成熟算法,所不同的是算法的實(shí)現(xiàn)和對性能的優(yōu)化。當(dāng)然也有一些人采用的是自己研發(fā)的未公開的算法,效果可能也不錯(cuò)。
大量的生物學(xué)數(shù)據(jù)是以結(jié)構(gòu)化的形式存在于數(shù)據(jù)庫中的,例如基因序列、基因微陣列實(shí)驗(yàn)數(shù)據(jù)和分子三維結(jié)構(gòu)數(shù)據(jù)等,而大量的生物學(xué)數(shù)據(jù)更是以非結(jié)構(gòu)化的形式被記載在各種文本中,其中大量文獻(xiàn)以電子出版物形式存在,如PubMed Central中收集了大量的生物醫(yī)學(xué)文獻(xiàn)摘要。
文本挖掘就是利用數(shù)據(jù)挖掘技術(shù)在大量的文本集合中發(fā)現(xiàn)隱含的知識(shí)的過程。其任務(wù)包括在大量文本中進(jìn)行信息抽取、語詞識(shí)別、發(fā)現(xiàn)知識(shí)間的關(guān)聯(lián)等,以及利用文本挖掘技術(shù)提高數(shù)據(jù)分析的效率。近年來,文本挖掘技術(shù)在生物學(xué)領(lǐng)域中的應(yīng)用多是通過挖掘文本發(fā)現(xiàn)生物學(xué)規(guī)律,例如基因、蛋白及其相互作用,進(jìn)而對大型生物學(xué)數(shù)據(jù)庫進(jìn)行自動(dòng)注釋。但是要自動(dòng)地從大量非結(jié)構(gòu)性的文本中提取知識(shí),并非易事。目前較為有效的方法是利用自然語言處理技術(shù)NLP,該技術(shù)包括一系列計(jì)算方法,從簡單的關(guān)鍵詞提取到語義學(xué)分析。最簡單的NLP系統(tǒng)工作通過確定的關(guān)鍵詞來解析和識(shí)別文檔。標(biāo)注后的文檔內(nèi)容將被拷貝到本地?cái)?shù)據(jù)庫以備分析。復(fù)雜些的NLP系統(tǒng)則利用統(tǒng)計(jì)方法來識(shí)別不僅僅相關(guān)的關(guān)鍵詞,以及它們在文本中的分布情況,從而可以進(jìn)行上下文的推斷。其結(jié)果是獲得相關(guān)文檔簇,可以推斷特定文本內(nèi)容的特定主題。最先進(jìn)的NLP系統(tǒng)是可以進(jìn)行語義分析的,主要是通過分析句子中的字、詞和句段及其相關(guān)性來斷定其含義。
生物信息學(xué)離不開Internet網(wǎng)絡(luò),大量的生物學(xué)數(shù)據(jù)都儲(chǔ)存到了網(wǎng)絡(luò)的各個(gè)角落。網(wǎng)絡(luò)挖掘指使用數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。網(wǎng)絡(luò)挖掘研究覆蓋了多個(gè)研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。根據(jù)對網(wǎng)絡(luò)數(shù)據(jù)的感興趣程度不同,網(wǎng)絡(luò)挖掘一般還可以分為三類:網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)結(jié)構(gòu)挖掘、網(wǎng)絡(luò)用法挖掘。網(wǎng)絡(luò)內(nèi)容挖掘指從網(wǎng)絡(luò)內(nèi)容/數(shù)據(jù)/文檔中發(fā)現(xiàn)有用信息,網(wǎng)絡(luò)內(nèi)容挖掘的對象包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數(shù)據(jù)。網(wǎng)絡(luò)結(jié)構(gòu)挖掘的對象是網(wǎng)絡(luò)本身的超連接,即對網(wǎng)絡(luò)文檔的結(jié)構(gòu)進(jìn)行挖掘,發(fā)現(xiàn)他們之間連接情況的有用信息(文檔之間的包含、引用或者從屬關(guān)系)。在網(wǎng)絡(luò)結(jié)構(gòu)挖掘領(lǐng)域最著名的算法是HITS算法和PageRank算法(如Google搜索引擎)。網(wǎng)絡(luò)用法挖掘通過挖掘相關(guān)的網(wǎng)絡(luò)日志記錄,來發(fā)現(xiàn)用戶訪問網(wǎng)絡(luò)頁面的模式,通過分析日志記錄中的規(guī)律。通常來講,經(jīng)典的數(shù)據(jù)挖掘算法都可以直接用到網(wǎng)絡(luò)用法挖掘上來,但為了提高挖掘質(zhì)量,研究人員在擴(kuò)展算法上進(jìn)行了努力,包括復(fù)合關(guān)聯(lián)規(guī)則算法、改進(jìn)的序列發(fā)現(xiàn)算法等。
網(wǎng)絡(luò)數(shù)據(jù)挖掘比單個(gè)數(shù)據(jù)倉庫的挖掘要復(fù)雜得多,是一項(xiàng)復(fù)雜的技術(shù),一個(gè)難以解決的問題。而XML的出現(xiàn)為解決網(wǎng)絡(luò)數(shù)據(jù)挖掘的難題帶來了機(jī)會(huì)。由于XML能夠使不同來源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起,因而使搜索多個(gè)異質(zhì)數(shù)據(jù)庫成為可能,從而為解決網(wǎng)絡(luò)數(shù)據(jù)挖掘難題帶來了希望。隨著XML作為在網(wǎng)絡(luò)上交換數(shù)據(jù)的一種標(biāo)準(zhǔn)方式,目前主要的生物信息學(xué)數(shù)據(jù)庫都已經(jīng)提供了支持XML的技術(shù),面向網(wǎng)絡(luò)的數(shù)據(jù)挖掘?qū)?huì)變得非常輕松。如使用XQuery 標(biāo)準(zhǔn)查詢工具,完全可以將 Internet看作是一個(gè)大型的分布式XML數(shù)據(jù)庫進(jìn)行數(shù)據(jù)瀏覽獲取、結(jié)構(gòu)化操作等。
此外,數(shù)據(jù)挖掘還要考慮到的問題有:實(shí)時(shí)數(shù)據(jù)挖掘、人為因素的參與、硬件設(shè)施的支持、數(shù)據(jù)庫的誤差問題等。
一般的數(shù)據(jù)(庫)整合的方法有:聯(lián)合數(shù)據(jù)庫系統(tǒng)(如ISYS和DiscoveryLink), 多數(shù)據(jù)庫系統(tǒng)(如TAMBIS)和數(shù)據(jù)倉庫(如SRS和Entrez)。這些方法因?yàn)樵谡系某潭?,?shí)體化,查詢語言,應(yīng)用程序接口標(biāo)準(zhǔn)及其支持的數(shù)據(jù)輸出格式等方面存在各自的特性而各有優(yōu)缺點(diǎn)。同時(shí),指數(shù)增長的生物數(shù)據(jù)和日益進(jìn)步的信息技術(shù)給數(shù)據(jù)庫的整合也帶來了新的思路和解決方案。如傳統(tǒng)的數(shù)據(jù)庫主要是提供長期的實(shí)驗(yàn)數(shù)據(jù)存儲(chǔ)和簡便的數(shù)據(jù)訪問,重在數(shù)據(jù)管理,而系統(tǒng)生物學(xué)的數(shù)據(jù)庫則同時(shí)對這些實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析,提供預(yù)測信息模型。數(shù)據(jù)庫的整合也將更趨向數(shù)據(jù)資源廣、異質(zhì)程度高、多種數(shù)據(jù)格式、多途徑驗(yàn)證(如本體學(xué)Ontology的功能對照)、多種挖掘技術(shù)、高度智能化等。
三、生命科學(xué)與生物信息學(xué)技術(shù)的整合
生物信息學(xué)的研究當(dāng)前還主要集中在分子水平,如基因組學(xué)/蛋白質(zhì)組學(xué)的分析,在亞細(xì)胞、細(xì)胞、生物組織、器官、生物體及生態(tài)上的研究才剛剛開始。從事這些新領(lǐng)域的研究,理解從基因型到表型的生命機(jī)理,整合生物信息學(xué)將起到關(guān)鍵性的作用。整合生物信息學(xué)將從系統(tǒng)的層次多角度地利用已有的生物、信息技術(shù)來研究生命現(xiàn)象。另外,由其發(fā)展出的新方法、新技術(shù),其應(yīng)用潛力也是巨大的。圖2顯示了生命科學(xué)與生物信息學(xué)技術(shù)的整合關(guān)系。
目前生命科學(xué)技術(shù)如基因測序、QTL定位、基因芯片、蛋白質(zhì)芯片、凝膠電泳、蛋白雙雜交、核磁共振、質(zhì)譜等實(shí)驗(yàn)技術(shù),可以從多方面,多角度來分析研究某一生命現(xiàn)象,從而針對單一的實(shí)驗(yàn)可能就產(chǎn)生大量的不同層次的生物數(shù)據(jù)。對于每個(gè)技術(shù)的數(shù)據(jù)分析,都有了大量的生物信息學(xué)技術(shù),如序列分析、motif尋找、基因預(yù)測、基因注解、RNA分析、基因芯片的數(shù)據(jù)分析、基因表達(dá)分析、基因調(diào)控網(wǎng)絡(luò)分析、蛋白質(zhì)表達(dá)分析、蛋白質(zhì)結(jié)構(gòu)預(yù)測和分子模擬、比較基因組學(xué)研究、分子進(jìn)化和系統(tǒng)發(fā)育分析、生物學(xué)系統(tǒng)建模、群體遺傳學(xué)分析等。整合生物信息學(xué)就是以整合的理論方法,通過整合生物數(shù)據(jù),整合信息技術(shù)來推動(dòng)生命科學(xué)干實(shí)驗(yàn)室與濕實(shí)驗(yàn)室的組合研究。其實(shí)踐應(yīng)用涉及到生物數(shù)據(jù)庫的整合、功能基因的發(fā)現(xiàn)、單核苷酸多態(tài)性/單體型的了解、代謝疾病的機(jī)理研究、藥物設(shè)計(jì)與對接、軟件工具以及其他應(yīng)用。
在整合過程中,還應(yīng)該注意以下幾方面內(nèi)容:整合數(shù)據(jù)和文本數(shù)據(jù)挖掘方法,數(shù)據(jù)倉庫的設(shè)計(jì)管理,生物數(shù)據(jù)庫的錯(cuò)誤與矛盾,生物本體學(xué)及其質(zhì)量控制,整合模型和模擬框架,生物技術(shù)的計(jì)算設(shè)施,生物信息學(xué)技術(shù)流程優(yōu)化管理,以及工程應(yīng)用所涉及的范圍。
四、學(xué)科、人才的整合
整合生物信息學(xué)也是學(xué)科、教育、人才的整合。對于綜合性高等院校,計(jì)算機(jī)科學(xué)/信息學(xué)、生物學(xué)等學(xué)科為生物信息學(xué)的發(fā)展提供了學(xué)科基礎(chǔ)和保障。如何充分利用高校雄厚的學(xué)科資源,合理搭建生物信息學(xué)專業(yè)結(jié)構(gòu),培養(yǎng)一流的生物信息學(xué)人才,是我們的任務(wù)和目標(biāo)。
計(jì)算機(jī)科學(xué)/信息學(xué)是利用傳統(tǒng)的計(jì)算機(jī)科學(xué),數(shù)學(xué),物理學(xué)等計(jì)算、數(shù)學(xué)方法,如數(shù)據(jù)庫、數(shù)據(jù)發(fā)掘、人工智能、算法、圖形計(jì)算、軟件工程、平行計(jì)算、網(wǎng)絡(luò)技術(shù)進(jìn)行數(shù)據(jù)分析處理,模擬預(yù)測等。生物信息學(xué)的快速發(fā)展給計(jì)算機(jī)科學(xué)也帶來了巨大的挑戰(zhàn)和機(jī)遇,如高通量的數(shù)據(jù)處理、儲(chǔ)存、檢索、查詢,高效率的算法研究,人工智能的全新應(yīng)用,復(fù)雜系統(tǒng)的有效模擬和預(yù)測。整合生物信息學(xué)的課程設(shè)計(jì)可以提供以下課程:Windows/Unix/Linux操作系統(tǒng)、C++/Perl/Java程序設(shè)計(jì)、數(shù)據(jù)庫技術(shù)、網(wǎng)絡(luò)技術(shù)、網(wǎng)絡(luò)編程、SQL、XML相關(guān)技術(shù)、數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)、可視化技術(shù)、軟件工程、計(jì)算機(jī)與網(wǎng)絡(luò)安全、計(jì)算機(jī)硬件、嵌入式系統(tǒng)、控制論、計(jì)算智能,微積幾何、概率論、數(shù)理統(tǒng)計(jì)、線性代數(shù)、離散數(shù)學(xué)、組合數(shù)學(xué)、計(jì)算方法、隨機(jī)過程、常微分方程、模擬和仿真、非線性分析等等。
生物學(xué)是研究生命現(xiàn)象、過程及其規(guī)律的科學(xué),主要包括植物學(xué)等十幾個(gè)一級分支學(xué)科。整合生物信息學(xué)的課程設(shè)計(jì)可以提供以下課程:普通生物學(xué)、生物化學(xué)、分子生物學(xué)、細(xì)胞生物學(xué)、遺傳學(xué)、分子生物學(xué)、發(fā)育生物學(xué)、病毒學(xué)、免疫學(xué)、流行病學(xué)、保護(hù)生物學(xué)、生態(tài)學(xué)、進(jìn)化生物學(xué)、神經(jīng)生物學(xué)、基礎(chǔ)醫(yī)學(xué)、生物物理學(xué)、細(xì)胞工程、基因工程、分子動(dòng)力學(xué)、生物儀器分析及技術(shù)、植物學(xué)、動(dòng)物學(xué)、微生物學(xué)及其他生物科學(xué)、生物技術(shù)專業(yè)的技能課程。
作為獨(dú)立學(xué)科的生物信息學(xué),其基本的新算法,新技術(shù),新模型,新應(yīng)用的研究是根本。課程涉及到生物信息學(xué)基礎(chǔ)、生物學(xué)數(shù)據(jù)庫、生物序列與基因組分析、生物統(tǒng)計(jì)學(xué)、生物芯片數(shù)據(jù)分析、蛋白質(zhì)組學(xué)分析、系統(tǒng)生物學(xué)、生物數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)、計(jì)算生物學(xué)、藥物設(shè)計(jì)、生物網(wǎng)絡(luò)分析等。另外,整合生物信息學(xué)的工程應(yīng)用,也需要了解以下學(xué)科,如生物工程、生物技術(shù)、醫(yī)學(xué)影像、信號處理、生化反應(yīng)控制、生物醫(yī)學(xué)工程、數(shù)學(xué)模型、試驗(yàn)設(shè)計(jì)、農(nóng)業(yè)系統(tǒng)與生產(chǎn)等。
此外,整合生物信息學(xué)的人才培養(yǎng)具有很大的國際競爭壓力,培養(yǎng)優(yōu)秀的專業(yè)人才,必須使其具備優(yōu)良的生物信息科學(xué)素養(yǎng),具有國際視野,知識(shí)能力、科研創(chuàng)新潛力俱佳的現(xiàn)代化一流人才。所以要始終緊跟最新的學(xué)術(shù)動(dòng)態(tài)和發(fā)展方向,整合學(xué)科優(yōu)勢和強(qiáng)化師資力量,促進(jìn)國際交流。
五、總結(jié)及展望
二十一世紀(jì)是生命科學(xué)的世紀(jì),也是生物信息學(xué)快速不斷整合發(fā)展的時(shí)代,整合生物學(xué)的研究和應(yīng)用將對人類正確認(rèn)識(shí)生命規(guī)律并合理利用產(chǎn)生巨大的作用。比如進(jìn)行虛擬細(xì)胞的研究,整合生物信息學(xué)提供了從基因序列,蛋白結(jié)構(gòu)到代謝功能各方面的生物數(shù)據(jù),也提供了從序列分析,蛋白質(zhì)拓?fù)涞较到y(tǒng)生物學(xué)建模等方面的信息技術(shù),從多層次、多水平、多途徑進(jìn)行科學(xué)研究。
整合生物信息學(xué)是基于現(xiàn)有生物信息學(xué)的計(jì)算技術(shù)框架對生命科學(xué)領(lǐng)域的新一輪更系統(tǒng)全面的研究。它依賴于生物學(xué),計(jì)算機(jī)學(xué),生物信息學(xué)/系統(tǒng)生物學(xué)的研究成果(包括新數(shù)據(jù)、新理論、新技術(shù)和新方法等),但同時(shí)也給這些學(xué)科提供了更廣闊的研究和應(yīng)用空間,并推動(dòng)整個(gè)人類科學(xué)的進(jìn)程。
我國的生物信息學(xué)教育在近幾年已經(jīng)有了長足的進(jìn)步和發(fā)展。未來整合生物信息學(xué)人才的培養(yǎng)還需要加強(qiáng)各學(xué)科有效交叉,尤其是計(jì)算機(jī)科學(xué),要更緊密地與生命科學(xué)結(jié)合起來,共同發(fā)展,讓我們的生命科學(xué)、計(jì)算機(jī)科學(xué)和生物信息學(xué)的教育和科研走得更高更前沿。
作者簡介:
關(guān)鍵詞:個(gè)性化習(xí)題;生物信息學(xué);QQ群
中圖分類號:G811.4 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-9324(2016)48-0171-02
生物信息學(xué)是生物學(xué)、計(jì)算機(jī)科學(xué)和信息技術(shù)等支持的,包括存儲(chǔ)、組織和生物數(shù)據(jù)檢索的一個(gè)現(xiàn)代交叉學(xué)科。隨著分子生物學(xué)和信息技術(shù)的不斷突破,各種生物數(shù)據(jù)的獲得變得非常容易,但是如何對這些數(shù)據(jù)進(jìn)行組織、分析和處理,并從中發(fā)掘出能用于解決生物科學(xué)問題的信息,成為目前生命科學(xué)的難點(diǎn)和熱點(diǎn)。生物信息學(xué)因此應(yīng)運(yùn)而生,其本身不僅是研究現(xiàn)代生物學(xué),也是研究其對工業(yè)、醫(yī)療等重要領(lǐng)域影響的一門實(shí)踐性學(xué)科(Bloom,2001)。
一般認(rèn)為,生物信息學(xué)主要滲透到統(tǒng)計(jì)數(shù)學(xué)、計(jì)算機(jī)和生命科學(xué),尤其是生命科學(xué)的組學(xué)領(lǐng)域(郭麗等,2014),因此在教學(xué)中,生物信息學(xué)的教學(xué)內(nèi)容往往因?qū)W生背景不同而會(huì)有不同的側(cè)重。這就需要教師根據(jù)學(xué)生的背景及知識(shí)結(jié)構(gòu)的需求來合理安排教學(xué)。本文根據(jù)近年來對生物信息學(xué)教學(xué)的經(jīng)驗(yàn),從教學(xué)方法、個(gè)性化練習(xí)題對學(xué)生上機(jī)的促進(jìn)及QQ群投票功能在教學(xué)中的應(yīng)用等方面進(jìn)行了總結(jié),對如何能夠提高生命科學(xué)學(xué)院的學(xué)生學(xué)習(xí)此門課程的興趣進(jìn)行了探討。
一、現(xiàn)代教學(xué)方法的利與弊
隨著計(jì)算機(jī)科技的不斷進(jìn)步,教學(xué)已經(jīng)從傳統(tǒng)的板書模式進(jìn)入到現(xiàn)代多媒體教學(xué)模式中。多媒體技術(shù)應(yīng)用的初衷是提高學(xué)生的參與度,滿足教學(xué)手段更民主、多元化及個(gè)性化的教學(xué)目標(biāo),其優(yōu)點(diǎn)為表現(xiàn)力豐富,可以通過動(dòng)畫、視頻、圖像、音頻等效果將抽象難懂的問題直觀化。其次,節(jié)省了大量的板書時(shí)間,同時(shí)教師可將教學(xué)的重點(diǎn)、難點(diǎn)鏈接,以益于學(xué)生直觀地了解并進(jìn)行思維拓展(張林,2011)。多媒體最明顯的一個(gè)特點(diǎn)就是教學(xué)容量加大,但正是這些優(yōu)勢也伴隨相應(yīng)的問題:(1)重形式而忽視教學(xué)內(nèi)容。很多學(xué)校在進(jìn)行教學(xué)管理及評價(jià)時(shí),過分關(guān)注多媒體課件的形式以及學(xué)生的感受,導(dǎo)致有些教師過分注重多媒體的表現(xiàn)形式而忽視了教學(xué)的主要內(nèi)容。(2)教學(xué)容量和學(xué)生的吸收量之間反差較大。由于教學(xué)內(nèi)容和容量的增大,教師并沒有根據(jù)授課對象的具體情況合理安排和講授學(xué)科內(nèi)容,而被動(dòng)的成了多媒體的播放員和解說員??傊嗝襟w教學(xué)利大于弊,因而成為教學(xué)改革和發(fā)展的必然產(chǎn)物,雖有缺點(diǎn),但不能因噎廢食,需通過其他方法來克服弊端才能達(dá)到完美的教學(xué)效果。
二、個(gè)性化習(xí)題是學(xué)生實(shí)踐提高的強(qiáng)力推動(dòng)器
生物信息學(xué)是一門實(shí)踐性非常強(qiáng)的學(xué)科,為了加強(qiáng)學(xué)生的實(shí)踐能力,教師要綜合應(yīng)用啟發(fā)式、運(yùn)用式及討論式等多種教學(xué)方法來激發(fā)學(xué)生的興趣。筆者在課堂實(shí)踐中,充分發(fā)揮個(gè)性化習(xí)題的作用,將教師的科研滲入到課堂,注重理論與實(shí)踐相結(jié)合,努力提高學(xué)生解決實(shí)際問題的綜合能力。比如,在講授第五章內(nèi)容電子克隆部分,此章節(jié)目的是通過一段表達(dá)序列標(biāo)簽(EST),綜合應(yīng)用Blast、序列比對、步查法等方法查找各種數(shù)據(jù)庫,通過軟件的應(yīng)用進(jìn)行拼接、預(yù)測、去除內(nèi)含子等方法,最終獲得可能的全長cDNA序列并加以注釋。在以往的教學(xué)練習(xí)中,全班同學(xué)的任務(wù)一樣,難以知道學(xué)生是否真正掌握所教授的內(nèi)容,為此,筆者將學(xué)生分組,每組自行通過閱讀文獻(xiàn)獲得一條其感興趣的EST序列,或者利用他們的畢業(yè)論文中涉及的EST序列去進(jìn)行電子克隆練習(xí),通過這種個(gè)性化習(xí)題的隨堂練習(xí),能顯著強(qiáng)化學(xué)生的計(jì)算機(jī)應(yīng)用能力和實(shí)踐能力,同時(shí)也能提高學(xué)生在教學(xué)中的積極性、主動(dòng)性和創(chuàng)新性。
三、發(fā)揮QQ群的投票功能在教學(xué)練習(xí)中的作用
生物信息學(xué)是一門交叉學(xué)科,對于非生物信息學(xué)專業(yè)的生命學(xué)院的學(xué)生而言,雖然教學(xué)大綱只要求學(xué)生掌握一些基本軟件的原理及數(shù)據(jù)庫的熟練使用。但是,這需要學(xué)生具有扎實(shí)的生物化學(xué)、遺傳學(xué)、細(xì)胞學(xué)及分子生物學(xué)的基礎(chǔ)知識(shí)。比如,在講授第三章“核酸序列的分析”時(shí),會(huì)要求學(xué)生利用已知的EST序列去Blast查找與之有同源性的基因組序列,進(jìn)行序列比對,預(yù)測并利用Bioedit軟件找出此基因的啟動(dòng)子、終止子和剪接點(diǎn)。這首先要求學(xué)生必須明確這些分子生物學(xué)的概念,否則在有限的生物信息學(xué)課堂上,會(huì)變成分子生物學(xué)或遺傳學(xué)的復(fù)習(xí)課。而課外QQ群就起到了非常重要的交流促進(jìn)作用。筆者在將QQ群的功能應(yīng)用到課外教學(xué)輔助平臺(tái)的基礎(chǔ)上,充分發(fā)掘QQ群的投票及評論功能為教學(xué)所用,例如教授第三章前,將課件放到QQ群的文件中,讓學(xué)生去預(yù)習(xí)。為激發(fā)學(xué)生預(yù)習(xí)的主動(dòng)性,要求學(xué)生在評論中列出對本章的主要知識(shí)點(diǎn)或難點(diǎn),并對課件中涉及的名詞進(jìn)行解釋。為進(jìn)一步加強(qiáng)理解,對投票功能進(jìn)行設(shè)置,相應(yīng)的對投票選項(xiàng)1、2、3、4分別設(shè)置成A、B、C、D,這樣教師可根據(jù)需要將知識(shí)點(diǎn)轉(zhuǎn)化成練習(xí)題,以加強(qiáng)學(xué)生的學(xué)習(xí)。同時(shí),也可鼓勵(lì)學(xué)生將一些新的感興趣的話題或問題置于QQ群。總之,QQ群的投票功能可以成為教師與學(xué)生課下交流的一扇窗口,成為生物信息學(xué)的一種及時(shí)且重要的學(xué)習(xí)工具。
四、建議與展望
生物信息學(xué)是一門新興學(xué)科,但我國無論是在對學(xué)科的重視還是發(fā)展程度上,與國外都存在一定的差距。在美國,計(jì)算生物學(xué)國際協(xié)會(huì)教育委員會(huì)一直致力于將生物信息學(xué)整合到高中生物教材中,學(xué)生在高中即接觸生物信息學(xué),而且高校對高中生物信息學(xué)的教學(xué)提供相應(yīng)的培訓(xùn)課程和網(wǎng)上資源,生物信息學(xué)和其他分子生物學(xué)、植物學(xué)等一樣較早的深入到學(xué)生的知識(shí)體系中。而我國由于該學(xué)科產(chǎn)生的歷史較短,課程的開設(shè)集中在“985”、“211”重點(diǎn)院校的生物信息學(xué)專業(yè),盡管近十年來,各大高校也意識(shí)到此學(xué)科的重要性,且課程也在逐步在開設(shè),但由于學(xué)時(shí)短,很多教學(xué)僅限于學(xué)生掌握基本的數(shù)據(jù)庫的查詢。為使生物信息學(xué)能在普通院校的生命科學(xué)學(xué)院能很好的開展,各個(gè)高校應(yīng)建立合適的課程教學(xué)內(nèi)容。雖然近年“生物信息學(xué)”課程在各高校紛紛開設(shè),但由于生物信息學(xué)是一門發(fā)展中的學(xué)科,它的理論及內(nèi)容尚在不斷完善與更新中(郭麗等,2014)。因此,對于教材的選擇,不能只追逐信息量充足、內(nèi)容新穎、知識(shí)選材前瞻性好的教材(楊娥等,2014)。作為普通院校的非生物信息學(xué)專業(yè)的本科生,想在較短的時(shí)間內(nèi)(36課時(shí))很好掌握如此大信息量的知識(shí)較為困難(劉宏生等,2010)。因此,需要依據(jù)學(xué)生基礎(chǔ)及院校的人才培養(yǎng)目標(biāo)和現(xiàn)今生物信息學(xué)發(fā)展的現(xiàn)狀建立合理的課程內(nèi)容體系。另外,由于缺乏合適的專業(yè)人才,生物專業(yè)的生物信息學(xué)的師資力量薄弱,無法建成高水平的教學(xué)隊(duì)伍。因此,加大生物信息學(xué)教師的培養(yǎng)力度,建成一支專業(yè)的、年齡和知識(shí)結(jié)構(gòu)合理的師資隊(duì)伍,是提高本科院校生物信息學(xué)教學(xué)的關(guān)鍵問題之一。
參考文獻(xiàn):
[1]Bloom,M. Biology in silico:The bioinformatics revolution[J]. The American Biology Teacher,2001,63(6):397-403.
[2]郭麗,趙楊,婁冬華,等.生物信息學(xué)實(shí)踐課教學(xué)改革探索[J].南京醫(yī)科大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2014,(2):165-167.
[3]張林,柴惠.現(xiàn)代教學(xué)手段在生物信息學(xué)教學(xué)中的應(yīng)用[J].新課程研究,2011,(219):156-157.
21世紀(jì)是生命科學(xué)的時(shí)代,也是信息時(shí)代。隨著分子生物學(xué)、測序技術(shù)以及人類基因組計(jì)劃的深入展開,各種生物醫(yī)學(xué)數(shù)據(jù)已達(dá)到海量級別。在后基因組時(shí)代,一方面是巨量的數(shù)據(jù),另一方面是我們在醫(yī)學(xué)、藥物、農(nóng)業(yè)和環(huán)保等方面對新知識(shí)的渴求,這些新知識(shí)將幫助人們改善其生存環(huán)境和提高生活質(zhì)量。這就構(gòu)成了一個(gè)極大的矛盾。如何從海量生物醫(yī)學(xué)數(shù)據(jù)中獲取新的知識(shí)呢?1956年,在美國田納西州蓋特林堡召開的首次“生物學(xué)中的信息理論研討會(huì)”上學(xué)者們提出了生物信息學(xué)的概念。1987年,林華安博士正式為這一領(lǐng)域定下生物信息學(xué)( Bioinformatics)這個(gè)稱謂,一門新興學(xué)科——生物信息學(xué)應(yīng)運(yùn)而生。
一生物信息學(xué)的學(xué)科特點(diǎn)
生物信息學(xué)是用數(shù)理和信息科學(xué)的觀點(diǎn)、理論和方法去研究生命現(xiàn)象、組織和分析呈現(xiàn)指數(shù)增長的生物醫(yī)學(xué)數(shù)據(jù)的一門學(xué)科。它主要包括兩重含義:一是對海量數(shù)據(jù)的收集、整理與服務(wù),即管理好這些數(shù)據(jù);二是從中發(fā)現(xiàn)新的規(guī)律,即利用好這些數(shù)據(jù)。生物信息學(xué)的實(shí)質(zhì)就是利用計(jì)算機(jī)科學(xué)和網(wǎng)絡(luò)技術(shù)來解決生物學(xué)問題。它的出現(xiàn)極大地推動(dòng)了分子生物學(xué)等相關(guān)學(xué)科的發(fā)展。它不僅是一門新學(xué)科,更是一種重要的研究開發(fā)工具。生物信息學(xué)幾乎是今后所有生物(醫(yī)藥)研究開發(fā)所必需的工具。
生物信息學(xué)與其他的生物醫(yī)學(xué)學(xué)科相比,有很大的不同,主要有以下三大特點(diǎn):
第一,以生物醫(yī)學(xué)數(shù)據(jù)庫為基礎(chǔ),數(shù)據(jù)極其龐大復(fù)雜。隨著組學(xué)時(shí)代的來臨與深入,生物醫(yī)學(xué)數(shù)據(jù)正呈現(xiàn)指數(shù)級別的增長。根據(jù)權(quán)威的《Nucleic Acids Research》統(tǒng)計(jì),截止2014年,全球共有約2100個(gè)主要的生物醫(yī)學(xué)數(shù)據(jù)庫,涵蓋了生物醫(yī)學(xué)研究的諸多領(lǐng)域。從研究層次上看,包括核酸、蛋白質(zhì)、結(jié)構(gòu)、基因組、蛋白質(zhì)組、人類基因和疾病、細(xì)胞器官、免疫學(xué)等14類數(shù)據(jù)庫。從研究種類上說,包括動(dòng)物、植物、真菌、原核生物、病毒等30余萬種生物。僅登錄在美國GenBank數(shù)據(jù)庫中的核酸序列就超過1億條,DNA序列總量超過1000億堿基對;在UniProt中,共收錄蛋白質(zhì)序列約1000萬條;在PDB中,共收錄蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)超過8萬個(gè)。
第二,生物信息的操作分析主要以計(jì)算機(jī)為工具,在互聯(lián)網(wǎng)環(huán)境中運(yùn)行,通過網(wǎng)絡(luò)強(qiáng)大的搜索功能完成數(shù)據(jù)收集、儲(chǔ)存、管理與提供。
第三,生物信息學(xué)是一門生物醫(yī)學(xué)、數(shù)學(xué)、信息科學(xué)以及計(jì)算機(jī)科學(xué)等諸多學(xué)科綜合交叉的前沿產(chǎn)物,與其他學(xué)科相比,綜合交叉性強(qiáng)、難度大、發(fā)展時(shí)間短、還在不斷完善與更新中。因而目前還沒有成熟的生物信息學(xué)教學(xué)模式,各高校,尤其是醫(yī)學(xué)院校,尚處于摸索探討的階段。 二生物信息學(xué)現(xiàn)有教學(xué)模式的不足之處 目前,國內(nèi)的生物信息學(xué)教學(xué)基本沿用以“教師講授為主”的傳統(tǒng)教學(xué)模式。以課堂為中心、以理論教學(xué)為主,進(jìn)行“滿堂灌”式教育,“照本宣讀”的方式也比較常見。缺乏與生物信息學(xué)交叉前沿性特點(diǎn)相適應(yīng)的新型教學(xué)模式。同時(shí),實(shí)驗(yàn)教學(xué)方式比較單一,常以驗(yàn)證性為目的,有些甚至成為了“文獻(xiàn)檢索”課程,缺乏和專業(yè)相適應(yīng)的綜合性、設(shè)計(jì)性實(shí)驗(yàn),結(jié)果出現(xiàn)了理論和實(shí)踐相脫節(jié)的現(xiàn)象。 三關(guān)于PBL應(yīng)用于生物信息學(xué)教學(xué)的探索 1PBL教學(xué)法的優(yōu)勢 “基于問題的學(xué)習(xí)(Problem based leaming)”,簡稱PBL,是美國廣泛采用的一種探究性、任務(wù)驅(qū)動(dòng)式學(xué)習(xí)模式。此方法與傳統(tǒng)以學(xué)科為基礎(chǔ)的教學(xué)法有很大的不同,強(qiáng)調(diào)以學(xué)生的主動(dòng)學(xué)習(xí)為主,而不是傳統(tǒng)教學(xué)中強(qiáng)調(diào)的以教師講授為主,比如將學(xué)習(xí)與更大的任務(wù)或問題掛鉤、使學(xué)習(xí)者投入于問題中、設(shè)計(jì)真實(shí)性任務(wù)、鼓勵(lì)自主探究、激發(fā)和支持學(xué)習(xí)者的高水平思維、鼓勵(lì)爭論、鼓勵(lì)對學(xué)習(xí)內(nèi)容和過程的反思等。在醫(yī)學(xué)教育中,PBL教學(xué)強(qiáng)調(diào)以設(shè)置問題的方式為學(xué)生創(chuàng)造一種特定的疾病發(fā)生的情境和診治的氛圍,通過學(xué)生的相互協(xié)作來共同解決實(shí)際問題,最終實(shí)現(xiàn)培養(yǎng)學(xué)生獨(dú)立處理和解決實(shí)際問題的能力的目標(biāo)。這種教學(xué)模式很好地解決了理論與實(shí)際脫節(jié)的矛盾。
2 PBL教學(xué)法在生物信息學(xué)教學(xué)中的實(shí)際應(yīng)用
(1)分組。根據(jù)能力和興趣分組,選擇能力互補(bǔ)且有共同興趣的學(xué)生組成不同學(xué)習(xí)小組,一般以3—4人為一組,對于總體能力特別強(qiáng)的小組可以適當(dāng)減少人數(shù)。
(2)提出教學(xué)目標(biāo),布置真實(shí)性任務(wù)。首先,布置基礎(chǔ)性教學(xué)任務(wù),這類教學(xué)任務(wù)的目的是為了鞏固學(xué)生的基礎(chǔ)知識(shí),培養(yǎng)學(xué)生的基礎(chǔ)能力。例如,該類任務(wù)可由四個(gè)子科目組成:“生物醫(yī)學(xué)數(shù)據(jù)庫識(shí)別與理解”、“通過Entrez和SRS系統(tǒng)進(jìn)行生物醫(yī)學(xué)數(shù)據(jù)的檢索利用”、“blast序列比對”、“clustalw多序列比對”。這是必選任務(wù),每個(gè)個(gè)組都必須完成,為下一步實(shí)行探究性任務(wù)打下基礎(chǔ)。
然后,根據(jù)不同小組的興趣和特點(diǎn),分配不同的探究性任務(wù)。例如,“新基因的發(fā)現(xiàn)與鑒定”、“某某疾病基因的分析與鑒定”等。這類問題并無現(xiàn)成答案,學(xué)生必須自己查閱資料、進(jìn)行歸納分析、確定實(shí)驗(yàn)步驟、完成任務(wù)。例如,對于“新基因的發(fā)現(xiàn)與鑒定”這項(xiàng)任務(wù),最終可由如下步驟組成:①利用EST數(shù)據(jù)庫獲得基因重疊群;②新基因的拼接獲得;③所得基因的性質(zhì)分析;④啟動(dòng)子分析;⑤編碼區(qū)分析;⑥新基因的人工翻譯;⑦所得蛋白質(zhì)的功能分析。這些步驟和每一步的實(shí)現(xiàn)方法都將由學(xué)生在已有的知識(shí)基礎(chǔ)上,通過查找文獻(xiàn)、互相討論、探索獲得,最終完成該項(xiàng)任務(wù),寫出任務(wù)報(bào)告。
(3)定期討論。定期安排學(xué)生集中討論。每次討論主要完成兩方面工作:一是對任務(wù)進(jìn)展進(jìn)行報(bào)告,二是對所遇到的問題進(jìn)行互相交流。教師全程參與,對疑難問題作出提示和建議。
(4)成果匯報(bào)。任務(wù)完成后,進(jìn)行集中匯報(bào)。讓學(xué)生對任務(wù)期間所做工作、獲得的結(jié)果進(jìn)行匯報(bào)。
(5)教師評價(jià)、反饋。由指導(dǎo)教師對任務(wù)完成過程及結(jié)果進(jìn)行點(diǎn)評,對學(xué)生掌握知識(shí)的程度及學(xué)生的科研、應(yīng)用能力進(jìn)行評價(jià),并提出進(jìn)一步的提高方向。
(6)延伸階段。鑒于生物信息學(xué)都是在臨近畢業(yè)時(shí)進(jìn)行教學(xué),對于有興趣的學(xué)生,可以將探究性任務(wù)擴(kuò)展成畢業(yè)設(shè)計(jì),進(jìn)行模塊化分流教學(xué)。
3在生物信息學(xué)中運(yùn)用PBL教學(xué)法的優(yōu)勢
(1)生物信息學(xué)的學(xué)習(xí)是一個(gè)運(yùn)用生物醫(yī)學(xué)、數(shù)學(xué)、信息科學(xué)以及計(jì)算機(jī)科學(xué)等諸多學(xué)科知識(shí)進(jìn)行分析、判斷、推理、綜合的實(shí)踐過程,PBL教學(xué)法的應(yīng)用可充分調(diào)動(dòng)和發(fā)揮學(xué)生的主觀能動(dòng)性,著重培養(yǎng)學(xué)生解決實(shí)際問題的綜合分析、判斷及實(shí)踐動(dòng)手能力。
(2)在保證教學(xué)質(zhì)量的前提下,可明顯減少傳統(tǒng)的灌輸式教學(xué)工作和學(xué)習(xí)的負(fù)擔(dān),同時(shí)能讓學(xué)生在短時(shí)間內(nèi)熟悉多種生物醫(yī)學(xué)數(shù)據(jù)庫、掌握多種生物信息軟件的使用方法、了解生物信息手段在生物醫(yī)學(xué)中的各種應(yīng)用。
(3)在相互合作的過程中,學(xué)生不僅學(xué)到了獲取知識(shí)的方式,更重要的是提高了學(xué)生的興趣、交流意識(shí)和團(tuán)隊(duì)責(zé)任感等科研必備素質(zhì)和能力。
(4)在完成真實(shí)性任務(wù)的過程中,可讓學(xué)生熟悉完成科研工作的方法步驟,培養(yǎng)學(xué)生完成科研任務(wù)的能力。
【關(guān)鍵詞】生物技術(shù);計(jì)算機(jī);應(yīng)用
【中圖分類號】Q50 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號】1672-5158(2013)01―0046-01
進(jìn)入二十一世紀(jì)以來,由于研究的深入,對知識(shí)的進(jìn)一步認(rèn)識(shí)和了解,許多學(xué)科之間都有了一些交叉,尤其是一些新興學(xué)科之間的相互交叉,廣泛滲透更是對科學(xué)的發(fā)展起了很大的促進(jìn)作用,人們進(jìn)一步提升對自然界的認(rèn)識(shí),對人類本身也有了進(jìn)一步的了解。隨著科學(xué)技術(shù)的不斷發(fā)展,尤其是計(jì)算機(jī)技術(shù)的飛速發(fā)展,計(jì)算機(jī)在其中的應(yīng)用范圍也日益擴(kuò)大,計(jì)算機(jī)和藥學(xué)兩者互相影響、互相滲透、互相結(jié)合,密不可分。
1、生物技術(shù)與信息技術(shù)的關(guān)系
信息技術(shù)和生物技術(shù)都是高新技術(shù),二者在新經(jīng)濟(jì)中并非此消彼長的關(guān)系,而是相輔相成,共同推進(jìn)21世紀(jì)經(jīng)濟(jì)的快速發(fā)展。信息技術(shù)為生物技術(shù)的發(fā)展提供強(qiáng)有力的計(jì)算工具。在現(xiàn)代生物技術(shù)發(fā)展過程中,計(jì)算機(jī)與高性能的計(jì)算技術(shù)發(fā)揮了巨大的推動(dòng)作用。如今,人們越來越清醒地認(rèn)識(shí)到,超級計(jì)算機(jī)在創(chuàng)造新品種的藥物、治愈疾病以及最終使我們能夠修復(fù)人類基因缺陷等方面是至關(guān)重要的,高性能計(jì)算可以為人類作出更大的貢獻(xiàn)。生物技術(shù)推動(dòng)超級計(jì)算機(jī)產(chǎn)業(yè)的發(fā)展。隨著人類基因組計(jì)劃各項(xiàng)任務(wù)的完成,有關(guān)核酸、蛋白質(zhì)的序列和結(jié)構(gòu)數(shù)據(jù)呈指數(shù)增長。面對如此巨大而復(fù)雜的數(shù)據(jù),只有運(yùn)用計(jì)算機(jī)進(jìn)行數(shù)據(jù)管理、控制誤差、加速分析過程,使得人類最終能夠從中受益。然而要完成這些過程,并非一般的計(jì)算機(jī)力所能及,而需要具有超級計(jì)算能力的計(jì)算機(jī)。因此,生物技術(shù)的發(fā)展將對信息技術(shù)提出更高的需求,從而推動(dòng)信息產(chǎn)業(yè)的發(fā)展。生物技術(shù)將從根本上突破計(jì)算機(jī)的物理極限。運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)的各種工具,來闡明和理解大量基因組研究獲得數(shù)據(jù)中所包含的生物學(xué)意義,生物學(xué)和信息學(xué)交叉、結(jié)合,從而形成了一個(gè)新的學(xué)科。生物信息學(xué)或信息生物學(xué),它的進(jìn)步所帶來的效益是不可估量的。
2、計(jì)算機(jī)在生物技術(shù)中的應(yīng)用分析
生物醫(yī)學(xué)工程運(yùn)用現(xiàn)代自然科學(xué)和技術(shù)科學(xué)的原理和方法,從工程學(xué)的角度研究人體的結(jié)構(gòu)、功能及其相互關(guān)系以及其他生命現(xiàn)象。其目的是解決醫(yī)學(xué)問題,即研究和開發(fā)為防病、治病以及人體功能輔助等醫(yī)學(xué)應(yīng)用的裝置和系統(tǒng)。用技術(shù)科學(xué)的概念和方法來解釋和描述人體各層次的成份、結(jié)構(gòu)和功能,以及人體各種正常生理功能和病理狀態(tài)之問的差異,這些內(nèi)容形成了這個(gè)學(xué)科的基礎(chǔ)部分。而防病、診斷、治療及功能輔助的具體技術(shù)和設(shè)備則形成這個(gè)學(xué)科的應(yīng)用部分。
2.1 計(jì)算機(jī)技術(shù)在生物信息學(xué)中的應(yīng)用
生物信息學(xué)在今后的無論是生物醫(yī)藥科研還是開發(fā)中都具有廣泛而關(guān)鍵的應(yīng)用價(jià)值;而且,由于生物信息學(xué)是生物科學(xué)與計(jì)算科學(xué)、物理學(xué)、化學(xué)和計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)等密切結(jié)合的交叉性學(xué)科,使其具有非常強(qiáng)的專業(yè)性,這就使得專業(yè)的生物醫(yī)藥科研或開發(fā)機(jī)構(gòu)自身難以勝任它們所必需的生物信息學(xué)業(yè)務(wù),殘酷的市場競爭及其所帶來的市場高度專業(yè)化分工的趨勢,使得專業(yè)的生物醫(yī)藥開發(fā)機(jī)構(gòu)不可能在自身內(nèi)部解決對生物信息學(xué)服務(wù)的迫切需求,學(xué)術(shù)界內(nèi)的生物醫(yī)藥科研機(jī)構(gòu)也是如此,而這種需求,僅靠那些高度分支化和學(xué)術(shù)化的分散的生物信息學(xué)科研機(jī)構(gòu)是遠(yuǎn)遠(yuǎn)不能滿足的。可見,在生命科學(xué)的新世紀(jì),生物信息學(xué)綜合服務(wù)將是一個(gè)非常重要的也是一個(gè)極具挑戰(zhàn)性的領(lǐng)域。
2.2 計(jì)算機(jī)在微生物學(xué)中細(xì)菌生化反應(yīng)上的應(yīng)用
細(xì)菌學(xué)的計(jì)量檢驗(yàn)是醫(yī)學(xué)檢驗(yàn)現(xiàn)代化的種重要手段。此檢驗(yàn)技術(shù)是通過收集已確證的統(tǒng)計(jì)資料,并將系列生化反應(yīng)試驗(yàn)的反應(yīng)結(jié)果數(shù)值化,按照一定的數(shù)學(xué)模型進(jìn)行多元分析,利計(jì)算機(jī)的運(yùn)算速度和記憶能力,檢驗(yàn)標(biāo)本作出規(guī)范化的定量鑒定。實(shí)現(xiàn)這一計(jì)量鑒定,我采用了計(jì)算機(jī)輔助編碼撿索系統(tǒng)(CAIS)菌科細(xì)菌系列生化反應(yīng)機(jī)輔檢索程序(CAE-15)、(eAE-I)輸入微機(jī)。通過各項(xiàng)生化反應(yīng)結(jié)果及增補(bǔ)試驗(yàn)結(jié)果所得的編碼數(shù)經(jīng)過人工查詢,從計(jì)算機(jī)編程的“縮碼檢索手冊”中直接查找指定編碼的細(xì)菌概率分布和相應(yīng)的補(bǔ)充試驗(yàn)。計(jì)算機(jī)在微生物中的應(yīng)用,不僅節(jié)約了時(shí)間和人力,而且鑒定結(jié)果準(zhǔn)確可靠,避免主觀誤。
2.3 計(jì)算機(jī)在破譯遺傳密碼和管理基因數(shù)據(jù)方面的應(yīng)用
計(jì)算機(jī)在破譯遺傳密碼和管理基因數(shù)據(jù)方面的潛力,在加利福尼亞大學(xué)圣迭分校的生物化學(xué)教授杜利特爾及其同事的工作中得以體現(xiàn)。他們在年進(jìn)行的工作中只通過分析計(jì)算機(jī)打印輸出的數(shù)據(jù)就獲得了一個(gè)重要的生物學(xué)發(fā)現(xiàn)。杜利特爾教授的研究小組比較了兩個(gè)由計(jì)算機(jī)打印輸出的蛋白質(zhì)序列,發(fā)現(xiàn)一種與癌癥發(fā)生有關(guān)的序列和一種與細(xì)胞生長有關(guān)的序列完全一樣,揭示出癌基因引起了細(xì)胞的不正常生長。這一發(fā)現(xiàn)在沒有進(jìn)行過任何一實(shí)驗(yàn)的情況下就獲得了。
2.4 計(jì)算機(jī)在創(chuàng)造生物的虛擬環(huán)境方面的應(yīng)用
計(jì)算機(jī)還正被用于創(chuàng)造一個(gè)虛擬的生物環(huán)境,以便對復(fù)雜的生物網(wǎng)絡(luò)和生態(tài)系統(tǒng)進(jìn)行模擬。這種虛擬環(huán)境創(chuàng)造不同的情境,幫助研究人員產(chǎn)生新的假說,并在實(shí)驗(yàn)室里被用于檢測新的農(nóng)業(yè)和制藥產(chǎn)品以及醫(yī)學(xué)活體實(shí)驗(yàn)。在虛擬世界里,生物學(xué)家敲敲鍵盤就可以產(chǎn)生新的合成分,而在實(shí)驗(yàn)室經(jīng)常需要幾年時(shí)間才可能合成一個(gè)真正的分子。有了三維的計(jì)算機(jī)模型,研究人員可以在屏幕上將各種基因和分子進(jìn)行組合,然后觀察它們的相互作用情況。年,賓夕法尼亞州立大學(xué)和位于加利福尼亞拉霍亞的斯克里普斯臨床研究所的研究人員,通過使用最先進(jìn)的計(jì)算機(jī)首次設(shè)計(jì)了一種極有價(jià)值的合成分子。這種被命名為的化合物是在計(jì)算機(jī)屏幕上構(gòu)想出來的,幾家生物技術(shù)實(shí)驗(yàn)室正在進(jìn)行該化合物的批量生產(chǎn)。科學(xué)家們打算通過使用新的信息時(shí)代的計(jì)算技術(shù)造出多種多樣的新分子。
2.5 計(jì)算機(jī)在生物醫(yī)學(xué)工程中的具體應(yīng)用
生物醫(yī)學(xué)工程運(yùn)用現(xiàn)代自然科學(xué)和技術(shù)科學(xué)的原理和方法,從工程學(xué)的角度研究人體的結(jié)構(gòu)、功能及其相互關(guān)系以及其他生命現(xiàn)象。其目的是解決醫(yī)學(xué)問題,即研究和開發(fā)為防病、治病以及人體功能輔助等醫(yī)學(xué)應(yīng)用的裝置和系統(tǒng)。用技術(shù)科學(xué)的概念和方法來解釋和描述人體各層次的成份、結(jié)構(gòu)和功能,以及人體各種正常生理功能和病理狀態(tài)之間的差異,這些內(nèi)容形成了這個(gè)學(xué)科的基礎(chǔ)部分。而防病、診斷、治療及功能輔助的具體技術(shù)和設(shè)備則形成這個(gè)學(xué)科的應(yīng)用部分。
3、發(fā)展前景
計(jì)算機(jī)在生物醫(yī)學(xué)工程中應(yīng)用的例子還很多,并且發(fā)揮著越來越重要的作用,同時(shí)對計(jì)算機(jī)技術(shù)水平的要求也越來越高。比如在生物醫(yī)學(xué)信號處理方面,普通的計(jì)算機(jī)已經(jīng)很難勝任實(shí)時(shí)處理的能力,使人們轉(zhuǎn)向研究處理速度更快的專門處理器件DSP芯片。在人工智能方面,往往還需要功耗更低、存儲(chǔ)更大的微計(jì)算機(jī)。因此,生物醫(yī)學(xué)工程在利用計(jì)算機(jī)的同時(shí)也促進(jìn)了計(jì)算機(jī)的發(fā)展。二十一世紀(jì)是生物技術(shù)的世紀(jì),信息生物學(xué)是自然科學(xué)中發(fā)展最迅速、最具活力和生氣的領(lǐng)域,并且為人類帶來了很大的便利與貢獻(xiàn)。不難看出,生物計(jì)算機(jī)研制成功以后,又會(huì)帶來一次革命,它將會(huì)給人類帶來更多的福祉,世人將以期盼的心情等待它的出現(xiàn)。隨著科技的發(fā)展,隨著生物技術(shù)的發(fā)展,它將越來越離不開計(jì)算機(jī)。不但如此,計(jì)算機(jī)和生物技術(shù)更越來越緊密結(jié)合。將更快地促進(jìn)兩者的發(fā)展。
參考文獻(xiàn)
[1]張宜,湯韌.計(jì)算機(jī)單機(jī)及局域網(wǎng)在藥學(xué)領(lǐng)域應(yīng)用發(fā)展回顧及現(xiàn)狀[J].武漢總醫(yī)院雜志,2005,13(4):12
【關(guān)鍵詞】計(jì)算機(jī)應(yīng)用;人工智能;生物信息學(xué);數(shù)據(jù)挖掘技術(shù)
【中圖分類號】TP391
【文獻(xiàn)標(biāo)識(shí)碼】A
【文章編號】1672—5158(2012)10-0078-01
一、生物信息數(shù)據(jù)庫的現(xiàn)狀及問題
在生物信息學(xué)的發(fā)展過程中,逐步建立起了大量基于網(wǎng)絡(luò)的生物數(shù)據(jù)庫,而且開發(fā)了眾多檢索工具,從而實(shí)現(xiàn)了生物信息數(shù)據(jù)的智能處理和綜合分析。生物信息數(shù)據(jù)在具有增長迅猛、更新及時(shí)、種類繁多等特點(diǎn)的同時(shí),更表現(xiàn)出高度的復(fù)雜性、多樣性和不一致性。
隨著生物信息數(shù)據(jù)量的激增以及數(shù)據(jù)處理能力的復(fù)雜程度不斷提高,現(xiàn)有的生物信息數(shù)據(jù)庫已經(jīng)逐漸暴露出許多問題。三大核酸數(shù)據(jù)庫依靠傳統(tǒng)方式交換數(shù)據(jù),無法及時(shí)反應(yīng)出其他專用生物信息數(shù)據(jù)庫的變化情況以及非核酸類數(shù)據(jù)信息。網(wǎng)上所提供的大部分?jǐn)?shù)據(jù)分析工具采用面向問題的搜索方法,搜索效率隨著問題規(guī)模的擴(kuò)大而降低,并且無法智能地對數(shù)據(jù)中存在的未知知識(shí)進(jìn)行發(fā)掘。為此,在后基因組時(shí)代,需要將數(shù)據(jù)倉庫思想及智能數(shù)據(jù)挖掘技術(shù)運(yùn)用到生物信息學(xué)領(lǐng)域中。
二、基于生物信息數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)
(一) 生物信息數(shù)據(jù)庫中的算法工具
在生物信息學(xué)中,基因比對是最常用和最經(jīng)典的研究手段。在核酸序列或蛋白質(zhì)序列之間進(jìn)行兩兩比對,比較兩個(gè)序列之間的相似區(qū)域和保守性位點(diǎn),尋找二者的相似形、同源性,進(jìn)而探尋可能的分子進(jìn)化關(guān)系,揭示序列中蘊(yùn)涵的結(jié)構(gòu)、功能等信息。數(shù)據(jù)挖掘主要存在以下幾種經(jīng)典分析模式:關(guān)聯(lián)模式分析、序列模式分析、分類分析、聚類分析,其中關(guān)聯(lián)模式分析應(yīng)用最為廣泛。
(二) OLAP和數(shù)據(jù)挖掘技術(shù)
傳統(tǒng)的針對數(shù)據(jù)庫的開發(fā)工具多為聯(lián)機(jī)事物處理模式,它主要是面向具體的查詢和統(tǒng)計(jì),有著較為具體的應(yīng)用目的。然而隨著越來越多數(shù)據(jù)庫的出現(xiàn),數(shù)據(jù)量的迅猛增長,OLTP在數(shù)據(jù)資源的充分利用、為用戶提供有效支持和幫助等方面,則顯得力不從心。因此,基于數(shù)據(jù)倉庫的聯(lián)機(jī)分析處理以及數(shù)據(jù)挖掘引起了日益廣泛的關(guān)注和應(yīng)用。OLAP是一種自上而下、不斷深入的分析工具。用戶提出問題或假設(shè),OLAP則負(fù)責(zé)從上而下深入地提取出關(guān)于該問題的詳細(xì)信息,并以可視化的方式呈現(xiàn)給用戶。DM是一種決策支持過程和挖掘性工具,它主要基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地對原始數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式,做出歸納性和預(yù)測性的推理。
(三) 基于生物信息數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)
實(shí)現(xiàn)數(shù)據(jù)挖掘的前提條件是必須具有海量數(shù)據(jù),而這恰恰是數(shù)據(jù)倉庫的基本特點(diǎn)之一,二者緊密結(jié)合可以有效解決大量應(yīng)用中出現(xiàn)的問題。在生物信息學(xué)領(lǐng)域,使用數(shù)據(jù)挖掘技術(shù)可以大幅提高研究人員的工作效率,改變原有的預(yù)測法;數(shù)據(jù)挖掘算法還可以結(jié)合生物信息專業(yè)領(lǐng)域的公式算法,根據(jù)研究人員的設(shè)想,對數(shù)據(jù)進(jìn)行全面高效的分析。
基于數(shù)據(jù)挖掘等技術(shù)發(fā)展起來的智能決策技術(shù)具備了在生物信息學(xué)領(lǐng)域中大展身手的天賦,特別是基于海量數(shù)據(jù)的數(shù)據(jù)挖掘和開采技術(shù)更具有廣泛的需求和應(yīng)用背景。另一方面,目前生物信息學(xué)的研究方法和發(fā)展情況,已經(jīng)形成了較為完善的智能決策系統(tǒng),成為數(shù)據(jù)倉庫和數(shù)據(jù)開采較為成功的應(yīng)用案例。另外,現(xiàn)有各種生物信息應(yīng)用分析軟件從一定程度上講,已經(jīng)反映并且實(shí)現(xiàn)了數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的思想和技術(shù)。
三、實(shí)現(xiàn)生物信息異地多源數(shù)據(jù)庫的綜合利用
(一) 建立基于Web的生物信息數(shù)據(jù)倉庫
基于現(xiàn)有的生物信息數(shù)據(jù)庫,運(yùn)用數(shù)據(jù)倉庫思想,利用OLAP和數(shù)據(jù)挖掘技術(shù),建立生物信息數(shù)據(jù)倉庫,是一種不需要大幅增加硬件設(shè)備以及物理裝置的前提下,實(shí)現(xiàn)基于Web平臺(tái)的生物信息集成與處理平臺(tái)的可行方案。設(shè)計(jì)一個(gè)基于Web的生物信息數(shù)據(jù)倉庫,其主要結(jié)構(gòu)由五部分組成:外部數(shù)據(jù)源;基于Web的數(shù)據(jù)調(diào)度、傳輸;數(shù)據(jù)的變形整合;元數(shù)據(jù)規(guī)則、元數(shù)據(jù)管理;基于Web的綜合管理平臺(tái)。
DWBW以DDBJ/EMBI/GeneBank作為主要數(shù)據(jù)源,同時(shí)以其他主要的生物信息數(shù)據(jù)庫作為整個(gè)數(shù)據(jù)倉庫的基本數(shù)據(jù)源。通過分析數(shù)據(jù)庫結(jié)構(gòu)和數(shù)據(jù)結(jié)構(gòu)類型,建立DWBW的元數(shù)據(jù)規(guī)則。這樣,基于上述各種數(shù)據(jù)庫就可以建立起一個(gè)基于Web的虛擬數(shù)據(jù)倉庫,由于不存在一個(gè)物理上位于某地的存儲(chǔ)中心來保存這些數(shù)據(jù),用戶面對的只是基于網(wǎng)絡(luò)的分布式虛擬的數(shù)據(jù)倉庫。其模型、算法的運(yùn)行由專用的分析工具服務(wù)器來完成,而對于數(shù)據(jù)的調(diào)用和整理都是在源數(shù)據(jù)庫上進(jìn)行的,根據(jù)不同用戶提交問題的不同,具體分析過程則由分配服務(wù)器交給服務(wù)器去完成分析,只是最終將結(jié)果返回請求分類服務(wù)器,顯示給用戶。
DWBW將通過統(tǒng)一的基于Web的頁面與用戶進(jìn)行交互,在后臺(tái)則主要由請求分類服務(wù)器、Web服務(wù)器及專用分析工具服務(wù)器共同完成對問題的提交和分析,實(shí)現(xiàn)對數(shù)據(jù)倉庫元數(shù)據(jù)規(guī)則的理解,然后根據(jù)分類的結(jié)果,與相關(guān)分析工具進(jìn)行匹配,將問題提交到相應(yīng)的分析工具服務(wù)器進(jìn)行處理。處理完成后返回給請求分類服務(wù)器,進(jìn)而返回給提交問題的用戶。
(二) DWBW的關(guān)鍵技術(shù)
生物信息學(xué)元數(shù)據(jù)的抽取。數(shù)據(jù)的整理和抽取,是開發(fā)所有數(shù)據(jù)倉庫時(shí)所遇到的最難解決也是最具挑戰(zhàn)性的問題之一。將不同時(shí)期生成的大量歷史數(shù)據(jù)中的數(shù)據(jù)結(jié)構(gòu)、字段的定義以及對象之間的關(guān)系等一系列的描述信息整理出來,并制定一套通用可行的規(guī)范,本身就是一個(gè)工作量巨大、難度極高的問題。因此,數(shù)據(jù)倉庫元數(shù)據(jù)的抽取整理,成為建立DWBW的關(guān)鍵問題。數(shù)據(jù)抽取、清洗、轉(zhuǎn)換和裝載過程與一般數(shù)據(jù)倉庫建立過程中的數(shù)據(jù)整理不完全相同,其數(shù)據(jù)具有規(guī)范性強(qiáng),存儲(chǔ)結(jié)構(gòu)相對簡單,轉(zhuǎn)換、裝載容易等特點(diǎn)。
虛擬生物信息數(shù)據(jù)倉庫的建立。虛擬生物信息數(shù)據(jù)倉庫實(shí)現(xiàn)對生物信息平臺(tái)相關(guān)數(shù)據(jù)的組織和集成,并且將不同主題的數(shù)據(jù)對象分別存儲(chǔ)到各個(gè)數(shù)據(jù)集市中,同時(shí)還將建立起部分有價(jià)值數(shù)據(jù)的在線OLAP數(shù)據(jù)庫。虛擬數(shù)據(jù)倉庫采用中間件充當(dāng)數(shù)據(jù)中心,提供信息的訪問接口,對存貯在不同數(shù)據(jù)源的生物信息數(shù)據(jù)進(jìn)行存取操作。由于虛擬生物信息數(shù)據(jù)倉庫一般不是針對實(shí)時(shí)數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì),所以對于時(shí)間效率的要求不如一般查詢統(tǒng)計(jì)那么高,這就確保了開發(fā)處于不同物理位置數(shù)據(jù)源的虛擬DWBW具有可行性。同時(shí),對于一般性的查詢比對等基本操作,不會(huì)影響其工作效率和準(zhǔn)確性。
基于Web面向用戶的綜合平臺(tái)的開發(fā)設(shè)計(jì)。此平臺(tái)主要提供一個(gè)用戶操作的平臺(tái),除了集成基因比對、功能預(yù)測、序列分析、基因提交等傳統(tǒng)的操作以外,還允許用戶對虛擬數(shù)據(jù)倉庫中的數(shù)據(jù)運(yùn)用數(shù)據(jù)挖掘技術(shù),提供更多的分析支持工具。
本書共有38章:1.G.N.Ramachandran的學(xué)術(shù)遺產(chǎn)與印度結(jié)構(gòu)生物學(xué)的發(fā)展;2.膠原三螺旋結(jié)構(gòu)研究綜述;3.Ramachandran先生豐厚的學(xué)術(shù)遺產(chǎn);4.“相圖”擴(kuò)充:更多數(shù)據(jù)、更多維度、更多用途;5.拉氏圖和蛋白質(zhì)結(jié)構(gòu)驗(yàn)證;6.拉氏圖的非參數(shù)統(tǒng)計(jì)分析;7.拉氏圖封閉區(qū)的非甘氨酸殘基及其鄰位偏好性;8.蛋白質(zhì)相似結(jié)構(gòu)的二面角變異性分析;9.α碳原子示蹤與扭矩角分析α螺旋幾何量:一個(gè)比較;10.拉氏圖不同區(qū)域?qū)Φ鞍踪|(zhì)中氨基酸殘基的傾向性;11.多肽構(gòu)象粗晶分析的立體化學(xué);12.多蛋白組裝:靶向蛋白-蛋白相互作用以調(diào)控細(xì)胞生化活性;13.蛋白-蛋白復(fù)合物結(jié)構(gòu)的預(yù)測;14.抗體特異性研究的新范式:種系抗體識(shí)別的結(jié)構(gòu)生物學(xué);15.蛋白質(zhì)組,蛋白折疊盒自關(guān)聯(lián):NMR技術(shù)最新進(jìn)展;16.用計(jì)算方法研究蛋白質(zhì)復(fù)合物識(shí)別機(jī)制;17.蛋白質(zhì)三級結(jié)構(gòu)的普遍性:一些新概念;18 冷休克結(jié)構(gòu)域――單鏈RNA結(jié)合和重塑與分子模塊的多變性;19.DNA蛋白質(zhì)復(fù)合物中的DNA螺旋轉(zhuǎn)換;20.D氨基酸:產(chǎn)生、立體化學(xué)和翻譯機(jī)制規(guī)避;21.多肽設(shè)計(jì)中用構(gòu)象性限制殘基誘發(fā)折疊結(jié)構(gòu);22.環(huán)β-氨基酸作為構(gòu)象限制劑;23.蛋白質(zhì)二硫鍵分析與設(shè)計(jì);24.強(qiáng)扭曲和卷曲β-發(fā)卡結(jié)構(gòu)及其在蛋白質(zhì)折疊中的作用;25.負(fù)責(zé)結(jié)構(gòu)域交換的蛋白質(zhì)鉸鏈區(qū)的鑒定和構(gòu)象分析;26.內(nèi)生性異常蛋白:結(jié)構(gòu)-功能范式的重讀;27.內(nèi)生性異常蛋白:調(diào)控與疾??;28.T細(xì)胞賴氨酸激酶ZAP-70調(diào)控的結(jié)構(gòu)基礎(chǔ);29.模擬蛋白功能調(diào)控的構(gòu)象動(dòng)力學(xué)控制;30.σ因子-抗σ因子復(fù)合物的構(gòu)象特征;31.Ⅱ型 5-磷酸吡哆醛依賴的酶:結(jié)構(gòu)、底物識(shí)別與催化;32.分子內(nèi)同構(gòu)多肽鍵:菌毛和細(xì)胞表面粘附中新的翻譯后修飾;33.結(jié)構(gòu)生物信息學(xué)解析次生代謝物的生物合成密碼;34.加速化分子動(dòng)力學(xué):生物分子模擬的效應(yīng)提高取樣法;35.E.coli膽色素原去氨基酶四聚體化時(shí)的結(jié)構(gòu)動(dòng)態(tài);36.抗凋亡MCL1和A1蛋白憎水溝的可塑性;37.用不規(guī)則維度法研究蛋白質(zhì)結(jié)構(gòu)的有效性;38.MOLS技術(shù)檢測甲硫氨酸-腦啡肽景觀結(jié)構(gòu)的內(nèi)生性。
作者M(jìn)anju Bansal是位于班加羅爾的印度科學(xué)理工學(xué)院的教授,N Srinivasan是此校的副教授。Manju Bansal研究領(lǐng)域是核酸結(jié)構(gòu)、原核和真核生物啟動(dòng)子結(jié)構(gòu),DNA結(jié)構(gòu)穩(wěn)定性,DNA構(gòu)象柔性,DNA配體結(jié)合動(dòng)力學(xué),蛋白質(zhì)二級結(jié)構(gòu)。N Srinivasan的研究主要用計(jì)算方法研究蛋白質(zhì)結(jié)構(gòu)、功能及相互作用,細(xì)胞信號傳導(dǎo)和生物通路。
本書適合結(jié)構(gòu)生物學(xué)、計(jì)算生物學(xué)、分子生物學(xué)和生物化學(xué)、生物信息學(xué)、藥物化學(xué)領(lǐng)域的專家、學(xué)者和研究生閱讀。
關(guān)鍵詞:生物學(xué);信息;支持向量機(jī)
中圖分類號:R392
在免疫學(xué)[1]中認(rèn)為,表位才是抗原刺激機(jī)體免疫系統(tǒng)產(chǎn)生特異性免疫應(yīng)答的真正部位。B細(xì)胞表位預(yù)測是表位預(yù)測的一個(gè)重要組成部分,大多數(shù)的研究是針對線性B細(xì)胞表位預(yù)測,通過組合抗原蛋白物理化學(xué)性質(zhì)、結(jié)構(gòu)性質(zhì)、統(tǒng)計(jì)顯著性度量等特征屬性進(jìn)行表位預(yù)測,并取得一定的研究成果。
1 抗原表位[6]的大小與相應(yīng)抗體的抗原結(jié)合部位相適合
一般情況下,一個(gè)多肽表位含5~6個(gè)氨基酸殘基;一個(gè)多糖表位含5~7個(gè)單糖;一個(gè)核酸半抗原的表位含6~8個(gè)核苷酸。一個(gè)抗原表位的特異性由組成它的所有殘基共同決定,但其中有些殘基在與抗體結(jié)合時(shí)比其它殘基起更大作用,這些殘基被稱為免疫顯性基團(tuán)。免疫應(yīng)答過程中,T細(xì)胞的TCR和B細(xì)胞的BCR所識(shí)別的表位具有不同特點(diǎn),分別被稱為T細(xì)胞表位和B細(xì)胞表位。
2 基于SVM的線性B細(xì)胞表位預(yù)測采用貝葉斯特征提取方法[2]
B細(xì)胞表位的抗原-抗體之間的相互作用機(jī)制,在疾病的預(yù)防和診治中發(fā)揮了極大的推動(dòng)作用。實(shí)驗(yàn)方法通常是費(fèi)力和耗時(shí)的,在硅片方法進(jìn)行預(yù)測這些免疫原性的區(qū)域是關(guān)鍵的。這樣的努力,已經(jīng)顯著以高阻礙可變性的抗原表位序列的長度和組成,使得初治建模方法難以適用。結(jié)果:分析了兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集,發(fā)現(xiàn)線性B細(xì)胞表位具有鮮明的殘基保守性和特定位置的殘留物傾向性這可能被利用在硅片表位識(shí)別中。開發(fā)了一種支持向量機(jī)(SVM)預(yù)測模型,采用貝葉斯特征提取預(yù)測多種不同的長度的線性B細(xì)胞表位。最好的SVM分類器實(shí)現(xiàn)了準(zhǔn)確度為74.50%和AROC為0.84在一個(gè)獨(dú)立的測試集中,并證明優(yōu)于現(xiàn)有的線性B細(xì)胞表位預(yù)測算法。
3 UniProt[3]
全球蛋白質(zhì)資源(Universal Protein Resource,UniProt)這個(gè)數(shù)據(jù)庫是全球有關(guān)蛋白質(zhì)方面信息最全面的資源庫,是蛋白質(zhì)序列以及功能信息的集中資源,且其具有最小的冗余。UniProt是對PIR、TrEMBL以及SwissProt的信息進(jìn)行組合而構(gòu)成的。UniProt提供了完全分類的、有豐富且準(zhǔn)確注釋信息的基于知識(shí)的蛋白質(zhì)序列信息,且有廣泛的交叉引用以及多種查詢界向。出于方便序列查詢,UniProt同樣提供了多個(gè)非冗余序列數(shù)據(jù)庫。
UniProt由三部分內(nèi)容組成,分別是UniProtKB、UniRef和UniParc,每個(gè)部分偏向于不同的用途。
3.1 UniProtKB(the UniProt knowledgebase)是基于知識(shí)的UniProt,通常也簡稱為UniProt[7],它匯聚了蛋白質(zhì)的主要信息,包括蛋白質(zhì)功能、分類以及交叉引用。UniProtKB包含兩個(gè)部分:一部分是人工注釋的記錄,這部分注釋信息是來自于文獻(xiàn)信息和在專家監(jiān)督下進(jìn)行計(jì)算機(jī)分析而得到的(記為UniProt,SwissProt);另外一部分是直接利用計(jì)算機(jī)程序獲得的記錄信息。
3.2 UniRef即UniProt非冗余參考數(shù)據(jù)庫,它把緊密相關(guān)的序列信息進(jìn)行組合并記錄到一個(gè)記錄條目中去,這樣一來便于加速序列搜索。前面提到的UniProtKB中的數(shù)據(jù)是嚴(yán)格根據(jù)某一物種的可靠而又穩(wěn)定的序列信息資料而得到的,而UniRef100則是將UniProtKB中不同物種的序列信息進(jìn)行交叉合并處理后的條目,它包含了UniProtKB中的所有記錄信息。UniRefl00還包含了UniParc的記錄,UniParc中的序列被認(rèn)為是過度表達(dá)的以及不包含在一些已知數(shù)據(jù)庫中的序列信息,比如說DDBJ/EMBI,/GenBank中的全基因組短槍法數(shù)據(jù)(WGS)編碼蛋白的翻譯產(chǎn)物,Ensembl中從不同生物體內(nèi)翻譯得到的蛋白質(zhì)以及國際蛋白質(zhì)索引(International Protein index,IPI)數(shù)據(jù)。
3.3 UniParc即UniProt檔案庫(UniProt Archive),它廣泛存儲(chǔ)所有公開發(fā)表過的蛋白質(zhì)序列,只包含唯一的標(biāo)識(shí)符和序列。大多數(shù)蛋白質(zhì)序列數(shù)據(jù)是從DDBJ/EMBL/Geni3ank中的核酸序列翻譯過來的,而大量由蛋白質(zhì)測序?qū)嶒?yàn)直接得到的初級蛋白質(zhì)序列數(shù)據(jù)又直接上傳到其他資源庫中去。
4 機(jī)器學(xué)習(xí)方法簡介
4.1 決策樹。實(shí)際上是將空間用超平面進(jìn)行劃分的一種方法,每次分割的時(shí)候,都將當(dāng)前的空間一分為二,這樣使得每一個(gè)葉子節(jié)點(diǎn)都是在空間中的一個(gè)不相交的區(qū)域,在進(jìn)行決策的時(shí)候,會(huì)根據(jù)輸入樣本每一維特征值,一步一步往下,最后使得樣本落入N個(gè)區(qū)域中的一個(gè)(假設(shè)有N個(gè)葉子節(jié)點(diǎn))。
4.2 隨機(jī)森林。用隨機(jī)的方式建立一個(gè)森林,森林里面有很多的決策樹組成,隨機(jī)森林的每一棵決策樹之間是沒有關(guān)聯(lián)的。在得到森林之后,當(dāng)有一個(gè)新的輸入樣本進(jìn)入的時(shí)候,就讓森林中的每一棵決策樹分別進(jìn)行一下判斷,看看這個(gè)樣本應(yīng)該屬于哪一類(對于分類算法),然后看看哪一類被選擇最多,就預(yù)測這個(gè)樣本為哪一類。每一棵決策樹就是一個(gè)精通于某一個(gè)窄領(lǐng)域的專家,這樣在隨機(jī)森林中就有了很多個(gè)精通不同領(lǐng)域的專家,對一個(gè)新的問題(新的輸入數(shù)據(jù)),可以用不同的角度去看待它,最終由各個(gè)專家,投票得到結(jié)果。
4.3 支持向量機(jī)。一種有堅(jiān)實(shí)數(shù)學(xué)理論基礎(chǔ)的小樣本學(xué)習(xí)方法,支持向量機(jī)被廣泛應(yīng)用在統(tǒng)計(jì)分類和回歸分析領(lǐng)域中,最終的決策函數(shù)只由少數(shù)的支持向量所確定,而不是樣本空間的維數(shù),避免了訓(xùn)練樣本數(shù)量對分類速度的影響。但是經(jīng)典的支持向量機(jī)給出的只是二類分類問題的解決方法,而在實(shí)際應(yīng)用中,這種情況非常好,大多數(shù)都是多分類問題。
4.4 隱馬爾可夫。我們知道,馬爾可夫模型中每個(gè)狀態(tài)對應(yīng)一個(gè)可觀察的輸出符號,它們的關(guān)系是一一對應(yīng)的,但是很多實(shí)際問題往往是復(fù)雜的,每個(gè)狀態(tài)可觀察到多個(gè)觀察符號之一。因此,這時(shí)的馬爾可夫模型的可觀察的輸出符號序列是狀態(tài)的一個(gè)函數(shù),也就是說該模型是由兩個(gè)隨機(jī)序列組成,一條是隱藏起來的狀態(tài)序列,簡稱為隱狀態(tài)序列,另一條是由該隱狀態(tài)序列產(chǎn)生的可觀察的輸出符號序列。HMM在20世紀(jì)60年代末70年代初提出,是一種典型的統(tǒng)計(jì)方法,是一種用參數(shù)表示的、用于描述隨機(jī)過程統(tǒng)計(jì)特征的概率模型。1970年左右,Baum等人建立起HMM的理論基礎(chǔ)。Rabiner詳細(xì)地對HMM做出了介紹,才使得各國的學(xué)者漸漸了解并熟悉該模型,進(jìn)而成為了公認(rèn)的研究熱點(diǎn)。
5 線性B細(xì)胞表位的應(yīng)用
5.1 豬帶絳蟲六鉤蚴 TSO45-4B 抗原 FnⅢ結(jié)構(gòu)域相應(yīng)的線性 B 細(xì)胞表位肽免疫原性研究[4]。其目的是觀察載體蛋白偶聯(lián)的TSO45-4B抗原FnⅢ結(jié)構(gòu)域相應(yīng)的線性B細(xì)胞表位肽誘導(dǎo)的體液免疫反應(yīng)。方法:人工合成TSO45-4B抗原FnⅢ結(jié)構(gòu)域2條預(yù)測表位肽,偶聯(lián)鑰孔血藍(lán)蛋白免疫小鼠,采用 ELISA 法檢測小鼠血清中預(yù)測表位肽特異性抗體滴度。結(jié)果:免疫小鼠血清中檢測到1條預(yù)測表位肽特異性抗體,其效價(jià)達(dá)到1∶1280。結(jié)論:設(shè)計(jì)的1條TSO45-4B抗原FnⅢ結(jié)構(gòu)域線性B細(xì)胞表位肽可誘導(dǎo)小鼠產(chǎn)生體液免疫反應(yīng)。
5.2 HBeAg 的 B 細(xì)胞線性表位預(yù)測及鑒定[5]。預(yù)測并鑒定乙型肝炎病毒e抗原(HBeAg)的B細(xì)胞線性表位,為乙型肝炎的診斷和治療提供新的依據(jù)。方法采用生物信息學(xué)分析技術(shù),利用NCBI數(shù)據(jù)庫和免疫表位數(shù)據(jù)庫提供的相應(yīng)軟件預(yù)測HBeAg的B細(xì)胞線性表位,采用人工合成法合成相應(yīng)表位肽并分別將與血藍(lán)蛋白(KLH)偶聯(lián),作為免疫原,免疫大白兔制備抗HBeAg抗原表位抗體,ELISA法鑒定抗體的特異性。結(jié)果發(fā)現(xiàn)了1MDIDPYKEFG10、37LYREALESPEHCSP50、74SNLEDPAS81、127RTPPAYRPPNAPIL140等4條新的HBeAg蛋白B細(xì)胞線性表位肽,其與KLH的偶聯(lián)物作為免疫原免疫大白兔,獲得特異性高效價(jià)抗體,抗體滴度大于1∶512000,ELISA 實(shí)驗(yàn)證實(shí)上述抗體均可與HBeAg發(fā)生特異性免疫反應(yīng)。結(jié)論采用生物信息學(xué)技術(shù)成功確認(rèn)了4個(gè)HBeAg蛋白B細(xì)胞線性表位肽,為深入研究HBeAg的功能和作用以及乙型肝炎的治療提供了新依據(jù)。
6 結(jié)束語
線性B細(xì)胞表位的預(yù)測是用于疫苗設(shè)計(jì)的重要,開發(fā)診斷試劑,以及解釋抗原-抗體相互作用在分子水平上。在近年來,隨著各種組學(xué)的發(fā)展和構(gòu)象的生物信息學(xué),相關(guān)的實(shí)驗(yàn)數(shù)據(jù)線性B細(xì)胞表位已經(jīng)被迅速地提出。建全相關(guān)數(shù)據(jù)庫促進(jìn)線性B細(xì)胞表位的預(yù)測發(fā)展,在這項(xiàng)研究中,我們總結(jié)了生物信息資源和機(jī)器學(xué)習(xí)方法的線性B細(xì)胞表位的預(yù)測?;跈C(jī)器學(xué)習(xí)方法的線性B細(xì)胞表位的預(yù)測極大地降低線性B細(xì)胞表位定位的時(shí)間成本和人工成本,提高工作效率,智能搜索算法可以提高的方法的有效性,以及預(yù)測性能。
參考文獻(xiàn):
[1]馮新港.免疫信息學(xué)原理及其應(yīng)用[M].上海:上??茖W(xué)技術(shù)出版社,2009,6:1-5.
[2]Alix,A. (1999) Vaccine,18,311314(314).
[3]http:///[DB].
[4]王媛媛,陶志勇.豬帶絳蟲六鉤蚴TSO45-4B抗原FnⅢ結(jié)構(gòu)域相應(yīng)的線性B細(xì)胞表位肽免疫原性研究[J].蚌埠醫(yī)學(xué)院學(xué)報(bào),2013,05.
[5]Jun Yang,Ni Liu.Prediction and identification of B-cell linear epitopes of hepatitis B e antigen.J South Med Univ,2013,33(2):253-257.
[6]黃艷新,鮑永利,李玉新.抗原表位預(yù)測的免疫信息學(xué)方法研究進(jìn)展[J].中國免疫學(xué)雜志,2008,09-20.
[7] http://ncbi.nlm.nih.gov/genbank/[DB].
[8]Fattovich G,Bortolotti F, Donato F. Natural history of chronic hepatitis B: Special emphasis on disease progression and prognostic factor[J].JHepatology,2008,48(2):335-52.
[9]Liaw YF.HBeAg seroconversion as an important end point in the treatment of chronic hepatitis B[J]. Hepatol Int,2009,3(3):425-33.
[10]Lau GK, Wang FS. Uncover the immune biomarkers underlying hepatitis Beantigen (HBeAg) seroconversion:a need for more translational study[J]. JHepatol,2012,56(4):753-5.
[11]Roseman AM,Berriman JA., Wynne SA., et al. A structural model for maturation of the hepatitis B virus core[J]. Proc Natl Acad Sci USA, 2005,102(44):15821-6.
[12]Yasser EL-Manzalawy, Vasant Honavar.Recent advances in B-cell epitope prediction methods[J]. Immunome Res,2010,6(Suppl 2):S2.