計算機在生物學(xué)中的應(yīng)用論文
計算機在生物學(xué)中的應(yīng)用論文
計算機在生物學(xué)研究中有著十分廣泛的應(yīng)用,已經(jīng)成為一門新興的交叉學(xué)科。下面是學(xué)習(xí)啦小編給大家推薦的計算機在生物學(xué)中的應(yīng)用論文,希望大家喜歡!
計算機在生物學(xué)中的應(yīng)用論文篇一
試談計算機在生物學(xué)研究中的應(yīng)用發(fā)展報告
【摘要】計算機在生物學(xué)研究中有著十分廣泛的應(yīng)用,已經(jīng)成為一門新興的交叉學(xué)科。本文對國內(nèi)特別是福建省“計算機在生物學(xué)研究中的應(yīng)用”學(xué)科發(fā)展情況進(jìn)行了簡介,并對這門新興學(xué)科的進(jìn)展進(jìn)行了簡述。
【關(guān)鍵詞】計算機 生物學(xué)研究 生物信息學(xué) 交叉學(xué)科
一 前言
什么是生物科學(xué)?在古時候,人們對生物學(xué)的認(rèn)識是很有局限性的:對生物學(xué)的認(rèn)識往往停留在觀察上,到了19世紀(jì),達(dá)爾文發(fā)表《物種起源》之后,生物學(xué)第一次總結(jié)出一個有重大哲學(xué)意義的普遍規(guī)律。此后,孟德爾發(fā)現(xiàn)了遺傳學(xué)的規(guī)律,沃森和克里克發(fā)現(xiàn)的DNA雙螺旋結(jié)構(gòu)以及核酸是生命本質(zhì)的一系列重大發(fā)現(xiàn),為生物學(xué)發(fā)展奠定了堅實的基礎(chǔ),從而生物學(xué)正式擺脫了那種僅靠觀察,比較的方法,發(fā)展成為一門實驗科學(xué)。
傳統(tǒng)的生物學(xué)是一門實驗科學(xué),生物學(xué)的研究主要依靠的是對實驗所得的數(shù)據(jù)進(jìn)行處理和分析。生物學(xué)還是一門發(fā)現(xiàn)科學(xué),通過對在實驗中發(fā)現(xiàn)的新現(xiàn)象,新的生物規(guī)律進(jìn)行分析、歸納和總結(jié),提煉出新的生物學(xué)知識。進(jìn)入到20世紀(jì)以來,人類已經(jīng)進(jìn)入了信息化的社會。作為信息社會中最為重要的工具,計算機在人們生活中發(fā)揮著日益重要的作用。隨著網(wǎng)絡(luò)技術(shù)和通信技術(shù)以及半導(dǎo)體技術(shù)的發(fā)展,計算機的功能越來越強大。計算機科學(xué)是對社會各個層面影響最大,滲透力最強的高新技術(shù)。
回顧20世紀(jì)人類所取得的科學(xué)成就,以計算機技術(shù)為代表的信息技術(shù)得到高速的發(fā)展和應(yīng)用。在以計算機科學(xué)為代表的信息科學(xué)取得快速發(fā)展的同時,現(xiàn)代生物科學(xué)研究也取得了極大的成功。
二 進(jìn)展
計算機在生物學(xué)研究中的應(yīng)用并不是一個很新的話題,作為一門學(xué)科,它是新的,但實際上它的研究工作的開展已經(jīng)有了一段歷史。
(一)計算機在國內(nèi)生物學(xué)研究中應(yīng)用的情況
我國的科研人員在20世紀(jì)60-70年代就開始利用計算機在生物學(xué)研究中進(jìn)行數(shù)據(jù)的統(tǒng)計分析,但是應(yīng)用的層次低,多用于教學(xué)和實驗數(shù)據(jù)分析處理。我國的生物信息工作是逐步發(fā)展起來的,20世紀(jì)80年代初僅在個別單位開展了一些計算分子生物學(xué)的工作,如核酸序列統(tǒng)計分析、生物大分子二級結(jié)構(gòu)預(yù)測、分子動力學(xué)等。雖然我國在1993年就在中國人類基因組計劃中加入了生物信息學(xué)的相關(guān)研究內(nèi)容,但是真正的開始是在1995年。目前,我國所用到的生物數(shù)據(jù)庫和生物系列軟件多半來自于國外,基礎(chǔ)力量還比較薄弱。
1997年,香山會議專題討論了我國生物信息學(xué)的發(fā)展。1999年,國家自然科學(xué)委員會生命科學(xué)部、信息科學(xué)部、數(shù)理科學(xué)部、材料科學(xué)部在北京召開了“生命科學(xué)中的信息科學(xué)問題”論壇,提出了建立國家生物醫(yī)學(xué)數(shù)據(jù)庫與服務(wù)系統(tǒng),同時開展基因組及功能基因組信息分析工作。2000年國家自然科學(xué)基金委員會主持召開的“生物信息學(xué)前沿方向”研討會上,與會專家提出了我國生物信息學(xué)發(fā)展的方向是:建立國家生物醫(yī)學(xué)數(shù)據(jù)庫與服務(wù)系統(tǒng)、人類基因組信息結(jié)構(gòu)分析、功能基因組相關(guān)信息分析和研究遺傳密碼起源與生物進(jìn)化(尤其是分子進(jìn)化)的過程與機制。
近幾年來,我國對生物學(xué)中的計算機應(yīng)用工作越來越重視,研究的層次也不斷提高。在“HGP1%的測序工作”、“中華民族基因組中若干位點基因結(jié)構(gòu)的研究”和“重大疾病相關(guān)基因的定位、克隆、結(jié)構(gòu)與功能研究”等項目中,計算機都起到了重要的作用。
北京大學(xué)于1997年3月成立了生物信息學(xué)中心,中科院上海生命科學(xué)研究院也于2000年3月成立了生物信息學(xué)中心,分別維護(hù)著國內(nèi)兩個專業(yè)水平相對較高的生物信息學(xué)網(wǎng)站。
2003年8月18日,“作為國內(nèi)服務(wù)器品牌三甲之一”的曙光信息產(chǎn)業(yè)(北京)有限公司(以下簡稱曙光公司)與國內(nèi)著名的基因組、生物信息研究中心華大基因聯(lián)合推出國內(nèi)第一款完全擁有自主知識產(chǎn)權(quán)的生物信息專用計算機,采用先進(jìn)的基因數(shù)據(jù)庫架構(gòu)技術(shù)、數(shù)據(jù)定制可視化技術(shù)、數(shù)據(jù)密集技術(shù)、網(wǎng)格使能技術(shù)、在線擴(kuò)展技術(shù)及機群系統(tǒng)等技術(shù),為國內(nèi)用戶搭建了一套與國際生物信息研究主流趨勢相接軌的系統(tǒng)平臺。該系統(tǒng)是建立在華大基因和曙光公司在生物信息研究領(lǐng)域長期合作成果的基礎(chǔ)之上,通過運用曙光公司每秒3萬億次浮點峰值運算能力的Linux超級服務(wù)器,以支持?jǐn)?shù)據(jù)密集應(yīng)用為主,為國內(nèi)大量致力于基因組研究的科研工作者們提供方便、快捷的服務(wù)。“生物信息專用計算機”采用機群結(jié)構(gòu),系統(tǒng)中節(jié)點根據(jù)功能劃分為計算節(jié)點、數(shù)據(jù)庫節(jié)點、服務(wù)節(jié)點三種類型,為生物信息學(xué)研究提供了一個基于硬件、軟件和數(shù)據(jù)庫集成環(huán)境下的統(tǒng)一運行平臺,為各個分析軟件、子數(shù)據(jù)庫模塊提供一致的運行和管理環(huán)境。同時用戶可以根據(jù)需要選擇軟件和數(shù)據(jù)庫模塊,無縫集成到平臺上。平臺提供ORACLE數(shù)據(jù)庫和軟件的集成接口和管理工具。生物信息專用計算機以模塊化的方式提供大量基因組學(xué)、生物信息學(xué)研究的常用分析工具,并能實現(xiàn)分布式高性能計算。用戶也可以根據(jù)需要定制分析軟件,添加到該專用計算機應(yīng)用平臺中。
對于我國來說,生物信息學(xué)人才的培養(yǎng)是當(dāng)務(wù)之急。生物信息學(xué)是一個交叉學(xué)科研究領(lǐng)域,這對生物信息學(xué)研究人員在知識結(jié)構(gòu)上提出了非常高的要求,特別是對于來自數(shù)學(xué)或計算機專業(yè)的研究人員,不僅要掌握生物學(xué)的基礎(chǔ)知識,還要求深入了解生物學(xué)中的相關(guān)問題,這樣的人才不是單一學(xué)科能夠培養(yǎng)出來的,要求跨學(xué)科地培養(yǎng)生物學(xué)和信息科學(xué)的復(fù)合型人才。目前中國科學(xué)院和國內(nèi)一些著名大學(xué)已經(jīng)開始較大規(guī)模地培養(yǎng)生物信息學(xué)專業(yè)人才,這為我國今后生物信息學(xué)的發(fā)展奠定了良好的基礎(chǔ)??梢韵嘈牛覈磥碛嬎銠C在生物學(xué)中的應(yīng)用一定會有著很大的進(jìn)步與發(fā)展。
(二)福建省“計算機在生物學(xué)研究中應(yīng)用”學(xué)科發(fā)展簡介
福建省計算機在生物學(xué)研究中的應(yīng)用雖然起步較早,但是發(fā)展一直相對較慢,目前還沒有形成較大的研究規(guī)模和較完整的研究體系。但是,福建省對計算機在生物學(xué)研究中的應(yīng)用十分重視,福建農(nóng)林大學(xué)、廈門大學(xué)等多所高校開辦了計算機在生物學(xué)研究中的相關(guān)專業(yè)或研究團(tuán)隊并舉辦了幾場相關(guān)的學(xué)術(shù)會議。
福建省的廈門大學(xué)生命科學(xué)學(xué)院和福建農(nóng)林大學(xué)的生命科學(xué)學(xué)院已經(jīng)開辦了生物信息學(xué)本科專業(yè),為我省培養(yǎng)生物信息科學(xué)人才提供了一個很好的平臺。該專業(yè)整合了生物和計算機的相關(guān)資源,有望為我省培養(yǎng)出更多的精通于計算機在生物學(xué)研究中的應(yīng)用人才。福建省的其它院校如福建醫(yī)科大學(xué)、福建師范大學(xué)、福建中醫(yī)學(xué)院、國立華僑大學(xué)、集美大學(xué)等多所高校也有不少的教學(xué)和科研工作者在這方面進(jìn)行了一定的研究工作,福建省農(nóng)科院也開展了一些生物信息學(xué)的研究工作。
例如:福建省廈門大學(xué)生命科學(xué)院的紀(jì)志梁博士主要從事生物信息學(xué)、功能基因組和蛋白組學(xué)、計算機輔助藥物設(shè)計、生物數(shù)據(jù)庫和生物信息軟件的開發(fā)及應(yīng)用、數(shù)據(jù)挖掘、分子進(jìn)化、生命起源與進(jìn)化等方面的研究,主持了生物信息輔助藥物不良反應(yīng)(ADRs)的分子機理研究及預(yù)測的國家自然科學(xué)基金項目。
福建農(nóng)林大學(xué)借助于其在生物學(xué)特別是農(nóng)林學(xué)科上的優(yōu)勢,聯(lián)合校內(nèi)的計算機與信息學(xué)院一起開辦生物信息學(xué)專業(yè),計算機與信息學(xué)院還成立了生物信息研究團(tuán)隊,以期望借助于兩個學(xué)院的實力,更好地為我省培養(yǎng)相關(guān)的人才。
目前福建省在發(fā)展該學(xué)科時面臨的主要問題是相關(guān)人才的缺乏和研究硬件設(shè)備的不齊全。目前,福建省尚未能在“計算機在生物學(xué)研究”的學(xué)科發(fā)展中形成一個理想的研究梯隊,從而導(dǎo)致了在相關(guān)的科研上以應(yīng)用研究為主,缺少理論上的創(chuàng)新性,而應(yīng)用的研究多集中于特定的領(lǐng)域:如福建農(nóng)林大學(xué)的相關(guān)研究主要在于農(nóng)業(yè)領(lǐng)域;華僑大學(xué)的方柏山教授所做的工作多集中于工業(yè)微生物的優(yōu)化控制等方面。全方位,多角度的研究格局還沒有形成。
從學(xué)科建設(shè)的硬件平臺來看,雖然有了較大的發(fā)展,但是距離科研的要求還有較大的距離。因為“計算機在生物學(xué)研究中的應(yīng)用”學(xué)科是一門交叉學(xué)科,需要用到許多方面的儀器設(shè)備,而目前福建省內(nèi)的這方面的投入與科研所需要的設(shè)備還有一定的距離。
(三)計算機在生物科學(xué)研究中的學(xué)科現(xiàn)狀
自20世紀(jì)80年代,IBM公司制造出第一臺PC機以來,計算機迅速得到了普及。而且近二十年來,計算機與信息科學(xué)已經(jīng)成為發(fā)展最為迅速的學(xué)科領(lǐng)域,也為生物學(xué)的研究提供了更多的技術(shù)支持。在這個時期,生物學(xué)與計算機科學(xué)相結(jié)合的學(xué)科――生物信息學(xué)產(chǎn)生了,是當(dāng)今生命科學(xué)和自然科學(xué)的重大前沿領(lǐng)域之一,也是21世紀(jì)自然科學(xué)的核心領(lǐng)域之一。從國外近幾年的應(yīng)用情況來看,生物信息學(xué)在理論上促進(jìn)了生物學(xué)研究(特別是分子生物學(xué))研究的發(fā)展,使人類對生命本質(zhì)的認(rèn)識更加深刻。生物信息學(xué)已經(jīng)改變了傳統(tǒng)生物學(xué)的研究方法,提高了生物學(xué)實驗的科學(xué)性和研究的效率。
在這個階段,計算機在生物學(xué)研究中的應(yīng)用更為廣泛與深遠(yuǎn),這一時期在生物學(xué)研究中用到的計算機技術(shù)大體有以下幾個方面:
(1)數(shù)據(jù)庫技術(shù)、數(shù)據(jù)挖掘技術(shù)與海量存儲技術(shù):生物信息數(shù)據(jù)庫具有數(shù)據(jù)結(jié)構(gòu)和組織方式復(fù)雜、數(shù)據(jù)量增長十分迅速等特點?!逗怂嵫芯俊?Nucleic Acids Research)雜志連續(xù)七年在其每年的第一期中詳細(xì)介紹最新版本的各種生物學(xué)數(shù)據(jù)庫。在2000年1月1日出版的28卷第一期中詳細(xì)地介紹了115種通用和專用數(shù)據(jù)庫,包括其詳盡描述和訪問網(wǎng)址。在DNA序列方面有GenBank、EMBL和DDBJ等。在蛋白質(zhì)一級結(jié)構(gòu)方面有SWISS-PROT、PIR和MIPS等。在蛋白質(zhì)和其它生物大分子的結(jié)構(gòu)方面有PDB等。在蛋白質(zhì)結(jié)構(gòu)分類方面有SCOP和CATH等。
很多數(shù)據(jù)庫涉及非結(jié)構(gòu)化的數(shù)據(jù),例如:PDB中的蛋白質(zhì)三級結(jié)構(gòu)等。利用傳統(tǒng)的關(guān)系數(shù)據(jù)庫對這些非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行管理就顯得有些力不從心了,所以,必須要采用面向?qū)ο蟮葦?shù)據(jù)庫新技術(shù)來處理復(fù)雜結(jié)構(gòu)的生物數(shù)據(jù)。生物信息數(shù)據(jù)庫具有種類繁多的特點,目前各種生物信息數(shù)據(jù)庫大至有600種左右,分布在全球各個數(shù)據(jù)庫服務(wù)器中。
隨著數(shù)據(jù)庫技術(shù)、計算機網(wǎng)絡(luò)和人工智能等技術(shù)的發(fā)展,出現(xiàn)了一種新的信息管理技術(shù),即:數(shù)據(jù)倉庫技術(shù)(data warehouse)。隨著當(dāng)代生物學(xué)實驗的手段不斷的進(jìn)步,所產(chǎn)生的實驗數(shù)據(jù)的信息量是十分龐大的。如何在如此浩渺的信息海洋中發(fā)現(xiàn)潛在的規(guī)律呢?而數(shù)據(jù)倉庫技術(shù)中提供了一個解決方案,就是數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)一般分成四個基本步驟:數(shù)據(jù)選擇,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)挖掘和結(jié)果分析。數(shù)據(jù)挖掘與聚類分析的方法在蛋白質(zhì)的結(jié)構(gòu)預(yù)測中也有廣闊的應(yīng)用空間:數(shù)據(jù)挖掘可用于分析基因表達(dá)數(shù)據(jù)相似性度量,從中發(fā)現(xiàn)基因表達(dá)數(shù)據(jù)相似性和波動相似性類似,從而提出以波動相似性為依據(jù)的相似性度量函數(shù)。
(2)機器學(xué)習(xí)與模式識別技術(shù):機器學(xué)習(xí)算法(machine-learning methods),抽象的統(tǒng)稱,實質(zhì)是一種統(tǒng)計學(xué)的方法,它自動地從一個樣本的訓(xùn)練(train- ing)過程中獲得數(shù)據(jù)信息,這種方法適用于有大量數(shù)據(jù)但缺乏相應(yīng)理論的情況。如BRNNs(Bidirectional Recurrent Neural Networks,雙向重復(fù)神經(jīng)網(wǎng)絡(luò))算法即屬于機器學(xué)習(xí)算法,它的訓(xùn)練過程即通過對樣本進(jìn)行有效編碼,輸入網(wǎng)絡(luò),訓(xùn)練網(wǎng)絡(luò)各權(quán)值參數(shù)和閾值參數(shù),使網(wǎng)絡(luò)達(dá)到基本穩(wěn)定。目前機器學(xué)習(xí)方法包括:神經(jīng)網(wǎng)絡(luò)法、決策樹法、基于事例學(xué)習(xí)法、符號性知識優(yōu)化法及基于邏輯的歸納學(xué)習(xí)法。
數(shù)據(jù)是機器學(xué)習(xí)的基礎(chǔ),對于生物學(xué)實驗數(shù)據(jù)也一樣。在大多數(shù)情況下,生物學(xué)中的知識和數(shù)據(jù)可以用序列的模式或序列的特征來概括。
隨著人工智能研究不斷取得進(jìn)展,人們逐漸發(fā)現(xiàn)研究人工智能的最好方法是向人類自身學(xué)習(xí)。因此引進(jìn)了一些模擬進(jìn)化的方法來解決復(fù)雜優(yōu)化問題。其中較有代表性的是:進(jìn)化主義思想和聯(lián)接主義思想。近年來,許多科學(xué)家致力于這兩種方法的研究。
模式識別是機器學(xué)習(xí)的一個主要任務(wù)。所謂模式,指的是對感興趣客體定量的或者結(jié)構(gòu)的描述,而模式識別就是利用計算機對客體進(jìn)行鑒別,將相同或者相似的客體歸入同種類別中。模式識別的關(guān)鍵是通過數(shù)據(jù)分析,提取分類對象的本質(zhì)特征,建立分類特征模型。在此基礎(chǔ)上設(shè)計模式分類規(guī)則和分類器,判別待識別模式的分類情況。分類特征模型描述各種目標(biāo)對象的特征,以便于工作于利用特征進(jìn)行識別。模式識別主要有兩種方法:一種是根據(jù)對象統(tǒng)計特征進(jìn)行識別,另一種是根據(jù)對象的結(jié)構(gòu)特征進(jìn)行識別。利用機器學(xué)習(xí)的方法可以應(yīng)用于蛋白質(zhì)結(jié)構(gòu)的預(yù)測,但現(xiàn)在的問題是從蛋白質(zhì)一級結(jié)構(gòu)序列預(yù)測蛋白質(zhì)二級結(jié)構(gòu)和三級結(jié)構(gòu)的準(zhǔn)確率低,還有許多現(xiàn)實的問題需要解決。
(3)人工心智和心腦科學(xué)在生物學(xué)中的應(yīng)用:了解腦及其全部功能是2l世紀(jì)重大挑戰(zhàn)之一,人類腦計劃開始于1993年,這項行動的主要目標(biāo):創(chuàng)立以web為基礎(chǔ)的神經(jīng)科學(xué)所有數(shù)據(jù)的數(shù)據(jù)庫,并提供數(shù)據(jù)分析、整合、合成、建模與模擬的先進(jìn)工具,有助于實現(xiàn)了解健康與有病神經(jīng)系統(tǒng)功能的最終目標(biāo)。腦是生物體內(nèi)結(jié)構(gòu)和功能最復(fù)雜的組織,人腦內(nèi)有上千億個神經(jīng)細(xì)胞,神經(jīng)突觸超過1014個,是生物體接受外界信號、產(chǎn)生感覺、形成意識、進(jìn)行邏輯思維、發(fā)出指令產(chǎn)生行為的指揮部,但它的功能目前還不為人們所了解。
在人類腦科學(xué)計劃提出后,產(chǎn)生了一門新的交叉學(xué)科――神經(jīng)信息學(xué)。神經(jīng)信息學(xué)產(chǎn)生的先進(jìn)的信息學(xué)解決方案,將加速對腦的了解,并能將基礎(chǔ)研究轉(zhuǎn)化為診斷、監(jiān)視、處理和預(yù)防腦疾病的更好手段。反過來,關(guān)于數(shù)據(jù)與信息的獲得、存儲、提取、分析、合成及可見的生物學(xué)機制的闡述,將更加清楚地解釋信息學(xué)技術(shù),以至隨著時間的推移,計算機將能超過人腦的工作。
人腦的結(jié)構(gòu)和功能極其復(fù)雜,需要從不同的層次對其進(jìn)行研究,包括:從DNA、RNA、蛋白、神經(jīng)元、神經(jīng)網(wǎng)絡(luò)到全腦。其中對神經(jīng)網(wǎng)絡(luò)和全腦功能的研究近年來發(fā)展很快,成為神經(jīng)信息學(xué)研究的重點。神經(jīng)信息學(xué)主要從信息和信息處理的觀點來研究人腦,研究神經(jīng)系統(tǒng)信息的載體形式,神經(jīng)信息的產(chǎn)生、傳輸與加工,以及神經(jīng)信息的編碼、存儲與提取機理等,并從系統(tǒng)和信息的觀點建立以生物學(xué)實際為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)模型。
(4)生物分子的計算機模擬技術(shù):傳統(tǒng)的生物分子研究主要是能過生物學(xué)實驗來分析和表征生物分子,如利用測序技術(shù)確定DNA或RNA分子的序列;能過分子遺傳學(xué)方法確定基因的多態(tài)性;能過X射線衍射技術(shù)來確定蛋白質(zhì)等生物大分子的結(jié)構(gòu);通過生物化學(xué)實驗來研究生物大分子之間的相互作用、藥物分子和靶分子的結(jié)合等。
現(xiàn)代對生物分子的研究也可有采用計算機模擬生物分子的技術(shù)。所謂生物分子的計算機模擬就是從分子或者原子水平上的相互作用出發(fā),建立分子體系的數(shù)學(xué)模型,利用計算機進(jìn)行模擬實驗,預(yù)測生物分子的結(jié)構(gòu)和功能??梢阅M生物大分子與大分子之間的相互作用、模擬生物大分子與具有活性的小分子之間的相互作用、研究分子之間的識別與及分子間的特異性結(jié)合。
(5)網(wǎng)絡(luò)技術(shù):隨著人類進(jìn)入了信息社會,網(wǎng)絡(luò)已成為社會的基礎(chǔ)設(shè)施,對人們的生活起著重要的影響。電子郵件和新聞組已經(jīng)成為生物學(xué)科研中的最要交流工具。而且網(wǎng)絡(luò)提供的各種服務(wù),如:FTP服務(wù),WEB服務(wù)等也為科研人員提供了重要的服務(wù)。
目前,Internet上有著巨大的生物學(xué)資源和生物學(xué)的相關(guān)數(shù)據(jù)庫與知識庫。使用者可以通過網(wǎng)絡(luò)查詢或搜索所需要的生物學(xué)信息,使用各個網(wǎng)絡(luò)站點提供的分析工具對生物實難進(jìn)行分析。生物信息的研究者能夠下載大量的數(shù)據(jù),但如何集成這些數(shù)據(jù)不是一件容易的事。
而Web Services技術(shù)由于使用標(biāo)準(zhǔn)的Web協(xié)議(http、SMTP等)和一系列標(biāo)準(zhǔn)協(xié)議(XML、SOAP、WSDL等)為生物信息集成提供了一種嶄新的方法。當(dāng)把Web Services應(yīng)用到生物數(shù)據(jù)庫中時,所有生物數(shù)據(jù)庫系統(tǒng)都成了一個松散結(jié)構(gòu)中的組件,系統(tǒng)接口、應(yīng)用通信、數(shù)據(jù)轉(zhuǎn)換和目錄信息都是建立在開放的、被廣為接受的標(biāo)準(zhǔn)之上,用戶能迅速地訪問到他們所需要的信息。
(6)高速計算能力與網(wǎng)格計算技術(shù):生物學(xué)研究需要對大量的樣本進(jìn)行分析計算或統(tǒng)計,這就為為高性能計算提供了一個大的應(yīng)用領(lǐng)域。生物學(xué)研究中的計算面臨巨大的計算量與海量的數(shù)據(jù),如:利用分子動力學(xué)模擬一個蛋白質(zhì)的折疊就需要一個巨型機幾個星期的運算。這給高性能計算、并行計算和網(wǎng)格計算提出了挑戰(zhàn)。
(7)專家系統(tǒng):專家系統(tǒng)(exepert system)是一種基于知識的智能系統(tǒng),它將領(lǐng)域?qū)<业闹R用知識表現(xiàn)的方法表示出來,并放入知識庫中,供推理機使用。專家系統(tǒng)利用知識和推理機解決那些需要特殊的、重要的人類專家知識才能解決的復(fù)雜問題。一般的專家系統(tǒng)是由六大部份:知識庫、數(shù)據(jù)庫、知識獲取部份、推理機、解釋機構(gòu)和使用界面組成的。知識庫中的知識也可以分成事實性知識和啟發(fā)性知識兩大類。生物學(xué)研究中已經(jīng)有了不少的專家系統(tǒng)。
(8)計算機圖形學(xué):眾所周知,DNA序列是兩條堿基互補的脫氧核糖核酸形成的雙螺旋結(jié)構(gòu)。一般認(rèn)為,它們可以用一條序列來進(jìn)行表示。根據(jù)文獻(xiàn)按照某種規(guī)則,人們可以把DNA序列轉(zhuǎn)換為一條z型曲線,該z曲線與所表示的DNA序列的關(guān)系是一一對應(yīng)的,即:一個特定的DNA序列,有唯一的一條z型曲線與它對應(yīng);反之,對任意一條給定的z曲線,可找到唯一的一個DNA序列與之對應(yīng)。也就是說,z曲線包含了DNA序列的全部信息。z曲線是與符號DNA等價的另一種表示形式。這樣就可將復(fù)雜的DNA序列轉(zhuǎn)換為一條空間中的曲線。對z曲線曲率和撓率的計算和分析,可用于識別DNA序列的不同的功能區(qū)等。DNA序列的幾何學(xué)研究是建立在計算機圖形學(xué)的基礎(chǔ)上的,對DNA序列幾何學(xué)的研究必將為計算機圖形學(xué)的研究提出一些新的課題。
三 計算機在生物學(xué)中的應(yīng)用研究展望
雖然計算機在生物學(xué)應(yīng)用中取得了不小的成果,但還有許多的問題擺在人們面前。目前計算機在生物學(xué)研究中的應(yīng)用面臨著許多的挑戰(zhàn):
(1)需要建立交互性好的生物學(xué)應(yīng)用軟件,生物學(xué)數(shù)據(jù)庫及相關(guān)的數(shù)據(jù)挖掘技術(shù)?,F(xiàn)有的生物學(xué)軟件種類繁多,功能也不盡相同,但是,大部份軟件都要求用戶有較強的計算機基礎(chǔ),甚至還有一些軟件是基于linux或windws控制臺的,起特殊的命令語法不是一般的科研人員所能掌握的。而且,有些軟件的源代碼不是公開的,特定用戶就不能根據(jù)自己的需要對程序進(jìn)行修改,進(jìn)而適應(yīng)自己研究的需求。尋求一種好的方法來開發(fā)出交互性好、操作方便而功能強大的生物學(xué)研究軟件是今后一個重要的目標(biāo)。
(2)需要能提示大規(guī)模數(shù)據(jù)集合中不同組分之間關(guān)系的統(tǒng)計分析方法及優(yōu)化算法。在生物學(xué)研究中,獲取所得的實驗數(shù)據(jù)往往可以根據(jù)其數(shù)據(jù)特征的不同分成若干組分,這些組分之間的關(guān)系是怎樣的?如何在實驗數(shù)據(jù)中確定分組的標(biāo)準(zhǔn)?如何用更快的算法更有效率的確定數(shù)據(jù)的分組標(biāo)準(zhǔn)等等都讓科研人員十分困惑。例如:不同物種間可能包含了同源或非同源的數(shù)據(jù)基因,而不同基因可能在DNA或蛋白質(zhì)序列上具有較高的異質(zhì)性。因而,在基因組水平上比較不同物種或不同基因之間的相似性,有助于揭示整個基因組進(jìn)化與物種進(jìn)化的規(guī)律。
(3)需要開發(fā)適合于微陣列和基因芯片等新技術(shù)的數(shù)據(jù)分析工具。微點陣雜交中涉及上萬個寡核苷酸,并依雜交信號強弱、探針位置和序列確定靶DNA的表達(dá)及多態(tài)性等。目前,迫切需要提高檢測的自動化程度和數(shù)據(jù)的并行處理能力。
四 小結(jié)
綜上所述,盡管福建省的計算機在生物學(xué)研究的應(yīng)用學(xué)科目前發(fā)展還比較滯后,但只要能夠抓住計算機在生物學(xué)科發(fā)展的契機,整合各方面的優(yōu)勢,進(jìn)行協(xié)作式的研究,就能夠更好地促進(jìn)該學(xué)科的發(fā)展。
參考文獻(xiàn)
[1]寧正元編著,計算機在生物科學(xué)研究中的應(yīng)用,廈門大學(xué)出版社,
2006.11.
[2]H.M.erman,J.Westbrook,Z.Feng,et al. The protein Data Bank[J]. Nucleic Acids Research,(28):235-242.
[3]D.R.Westhead,J.H.Prish,R.M.Twyman.Instant Notes in Bioinformatics[M].United Kingdom:Bios Scientific Pub Ltd,2002.
[4]SCRATCH servers.
[5]盧美律.蛋白質(zhì)結(jié)構(gòu)預(yù)測與機器學(xué)習(xí)[J],科學(xué),1996,46(5):22-27.
[6]沈均賢人類腦計劃與神經(jīng)信息學(xué)[J],生物物理學(xué)報,2001.12(17):607-612.
[7]Ligeng Ma,Jinming Li,LiJin qu,et al.Light control of Arabidopsis development entails coordinated regulation of genome expression and cellcular pathways[J].Plant Cell,2001,13912):2589-2607.
[8]生物信息學(xué)對計算機科學(xué)發(fā)展的機遇與挑戰(zhàn)[J],生物信息學(xué),2001 (3):37-41.
[9]BSML Organization.Bioinformatic Sequence Markup Language Version 3.1[EB/OL].
[10]Fenyo ,The biopolymer Markup Language[J],Bioinformatics,1999,(15):339-340.
[11]Lichun wang.XEMBL:distributing EMBL,data in XML format[J].Bioinformatics,2002,(18):1147-1148.
[12]郝柏林,劉寄星,理論物理與生命科學(xué)[M],上海:上??茖W(xué)技術(shù)出版社,1997.
[13]Hang C T,Pickover C A,et al.Viusalizing Biological Informatin[M].Singapore.World Science Pub co,1993.
[14]鐘揚,張亮等,簡明生物信息學(xué)[M],北京:高等教育出版社,2001.
[15]趙青,黃小兵,生物信息研究的加速劑[J],互聯(lián)網(wǎng)天地,76-77.
[16]廈門大學(xué)生命科學(xué)院.
[17]方柏山教授主頁.
[18]福建農(nóng)林大學(xué)生命科學(xué)院.