第一篇:生物信息學
生物信息學是上世紀90年代初人類基因組計劃(hgp)依賴,隨著基因組學、蛋白組學等新興學科的建立,逐漸發(fā)展起來的生物學、數(shù)學和計算機信息科學的一門交叉應(yīng)用學科。目前生物信息學的研究領(lǐng)域主要包括基于生物序列數(shù)據(jù)的整理和注釋、生物信息挖掘工具開發(fā)及利用這些工具揭示生物學基礎(chǔ)理論知識等領(lǐng)域。生物信息學作為新型交叉應(yīng)用學科,可以依托本校已有的計算機科學、信息學、生物學和數(shù)學等學科優(yōu)勢,充分展現(xiàn)投入少、見效快、起點高的特色,推動學校學科建設(shè)和本科教學水平。
本實驗指導書中的8個實驗均設(shè)計為綜合性開發(fā)實驗,面向生物信息學院全體本科學生和研究生,以及全校對生物信息學感興趣的其他專業(yè)學生開放。生物信息學實驗室將提供系統(tǒng)的保障,包括采用mail服務(wù)器和linux帳號管理等進行實驗過程管理和支持。限選《生物信息學及實驗》的生物技術(shù)專業(yè)本科生至少選擇其中5個實驗,并不少于8個學時,即為課程要求的0.5個學分。其他選修者按照課時和學校相關(guān)規(guī)定計算創(chuàng)新學分。 實驗一 熟悉生物信息學網(wǎng)站及其數(shù)據(jù)的生物學意義
實驗?zāi)康模?/p>
培養(yǎng)學生利用互聯(lián)網(wǎng)資源獲取生物信息學研究前沿和相關(guān)數(shù)據(jù)的能力,熟悉生物信息學相關(guān)的一些重要國內(nèi)外網(wǎng)站,及其核酸序列、蛋白質(zhì)序列及代謝途徑等功能相關(guān)數(shù)據(jù)庫,學會下載生物相關(guān)的信息數(shù)據(jù),了解不同的數(shù)據(jù)文件格式和其中重要的生物學意義。
實驗原理:
利用互聯(lián)網(wǎng)資源檢索相關(guān)的國內(nèi)外生物信息學相關(guān)網(wǎng)站,如:ncbi、sanger、tigr、kegg、sm.hmlawpc.comatch程序去除ests原始序列中的載體成分和引物成分,然后用phrap生成congtig和singlet,用blast程序進一步將有同源性的contig和singlet進行功能聚類,最后通過blast對聚類獲得的cluster進行功能注釋。在實驗過程中將用到一些本實驗室寫好的perl程序用于連接各數(shù)據(jù)庫和工具軟件。
實驗內(nèi)容:
1. 運行codoncode aligner程序,并用它建立工程文件,導入例子文件
夾里面的數(shù)據(jù);練習對序列的各種查看方式。
2. 使用codoncode aligner程序里的clip ends, trim vector, assemble
等功能,完成序列的剪切、去雜質(zhì)、組裝工作。
實驗報告:
1. 實驗各步驟記錄和中間結(jié)果文件;
2. 舉例簡要說明結(jié)果文件中數(shù)據(jù)的生物學意義。
參考書目:
《生物信息學概論》 羅靜初 等譯, 北京大學出版社, 201*;
《基因表達序列標簽(est)數(shù)據(jù)分析手冊》 胡松年 等著, 浙江大學出版社, 201*。
實驗五 利用primer premier5.0設(shè)計
race引物
實驗?zāi)康模?/p>
熟悉pcr引物設(shè)計工具primer premier5.0的一些基本功能,能夠根據(jù)實驗需要選擇相應(yīng)的引物設(shè)計方法設(shè)計pcr引物。
實驗原理:
pcr實驗是當代分子生物學的基本實驗之一,由于目標序列和實驗?zāi)康牡牟煌,相?yīng)設(shè)計引物的要求也不一樣。本實驗延續(xù)ests分析結(jié)果,對于其中需要獲得全長的基因進行race引物的設(shè)計,及5’和3’race引物,配合接頭序列設(shè)計單向引物,并模擬練習通過連接獲得全長的基因cds序列。最后設(shè)計已知全長基因序列的pcr擴增引物。
實驗內(nèi)容:
1. 從網(wǎng)站下載并安裝primer premier5.0;
2. 從 genbank 中任意獲取一個 dna 序列,設(shè)計出該序列的合適引物; 實驗報告:
1. 實驗各步驟使用的數(shù)據(jù)、運算平臺、結(jié)果文件記錄;
2. 比較不同引物設(shè)計平臺和不同pcr實驗的差別;
參考書目:
《生物信息學概論》 羅靜初 等譯, 北京大學出版社, 201*;《生物信息學實驗指導》 胡松年 等著, 浙江大學出版社, 201*; 。
實驗八 perl程序的安裝、編寫、調(diào)試 實驗?zāi)康模?/p>
培養(yǎng)學生能在m.hmlawpc.comatics--a
practical guide to the analysis of genes and proteins "andreas d.baxevanis b.f.francis ouellette 著李衍達 孫之榮 等 譯清華大學出版社 201*年8月 第一版這本書由前衛(wèi)計算生物學家撰寫,貫穿了已有的工具和數(shù)據(jù)庫,包括應(yīng)用軟件、因特網(wǎng)資源、向數(shù)據(jù)庫提交dna序列以及進行序列分析和利用核酸序列與蛋白質(zhì)序列進行預(yù)測的的方法。以下是該書的目錄:1.因特網(wǎng)與生物學家,2. genebank序列數(shù)據(jù)庫,3.結(jié)構(gòu)數(shù)據(jù)庫,4.應(yīng)用gcg進行序列分析,5.生物數(shù)據(jù)庫的信息檢索,6. ncbi數(shù)據(jù)模型,7.序列比對和數(shù)據(jù)庫搜索,
8.多序列比對和實際應(yīng)用,9.系統(tǒng)發(fā)育分析,10.利用核酸序列的預(yù)測方法,11.利用蛋白質(zhì)序列的預(yù)測方法,12.鼠類和人類公用物理圖譜數(shù)據(jù)庫漫游,13. acedb: 基因組信息數(shù)據(jù)庫,14.提交dna序列數(shù)據(jù)庫。本書有很多實際的序列和序列分析的例子。這本書適合高等院校的師生和從事生物工程研究的科技工作者閱讀。
在第14章提及的通訊資源:互聯(lián)網(wǎng)和通信地址;電話和傳真號碼
ddbj/embl和genbank的一般聯(lián)系信息以及提交dna序列到這些數(shù)據(jù)庫的入口。
ddbj(信息生物學中心,nig)
地址:ddbj,1111 yata, mishima,shiznoka 411,japan
傳真:81-559-81-6849
提交: ddbjsub@ddbj.nig.ac.jp
更新: ddbjupd@ddbj.nig.ac.jp
信息: ddbj@ddbj.nig.ac.jp
互聯(lián)網(wǎng)
主頁:
m.hmlawpc.combl/doc/
embl和genbank數(shù)據(jù)庫的版本信息
embl ftp://ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc
genbank ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt
sequin: dna序列數(shù)據(jù)庫的提交和更新工具 http://m.hmlawpc.com.nih.gov/dbest
sts http://m.hmlawpc.com.nih.gov/dbgss
htgs主頁:高吞吐量基因組序列資源,工具和信息 http://m.hmlawpc.comics)主要研究測序和核苷酸序列; 結(jié)構(gòu)基因組學(structural genomics)著重于遺傳圖譜、物理圖譜和測序等方面的研究; 功能基因組學
(functional genomics)則研究以轉(zhuǎn)錄圖為基礎(chǔ)的基因組表達圖譜; 比較基因組學(comparative ge2nomics)的研究內(nèi)容包括對不同進化階段基因組的比較和不同種群和群體基因組的比較。
蛋白組和蛋白組學的概念是隨基因組和基因組學的出現(xiàn)而出現(xiàn)的. 蛋白組(proteme)的概念是由于基因表達水平并不能代表細胞中活性蛋白質(zhì)的數(shù)量, 基因組序列并不能描述活性蛋白質(zhì)所必需的翻譯后修飾和反映蛋白質(zhì)種類和含量的動態(tài)變化過程而提出的. 在一定條件下某一基因組蛋白質(zhì)表達的數(shù)量類型稱為蛋白組, 代表這一有機體全部蛋白質(zhì)組成及其作用方式. 有關(guān)蛋白組的研究稱為蛋白組學. 其中, 蛋白組的研究技術(shù)與方法、雙向凝膠電泳圖譜以及對不同條件下蛋白組變化的比較分析是蛋白組學的主要研究內(nèi)容。生物信息學在基因組和蛋白組研究中所起的作用主要有:(1)基因組信息結(jié)構(gòu)的計算分析. 即對基因組數(shù)據(jù)進行大規(guī)模并行計算并預(yù)測各種新基因和功能位點, 研究大量非編碼區(qū)序列的信息結(jié)構(gòu)和可能的生物學意義。(2)模式生物全基因組信息結(jié)構(gòu)的比較研究.即
對已完成全基因組測序的各種模式生物的基因組信息結(jié)構(gòu)進行比較分析, 包括同源序列的搜索比較和指導基因克隆.(3)功能基因組的相關(guān)信息分析, 包括對基因表達圖譜及其相關(guān)算法和軟件的研究, 與功能基因組信息相關(guān)的核酸、蛋白質(zhì)的空間結(jié)構(gòu)的預(yù)測模擬以及蛋白質(zhì)的功能預(yù)測。
2、生物信息數(shù)據(jù)庫
復(fù)雜的生物和生物界和日新月異的生命科學研究產(chǎn)出的大量的生物學信息,對這些信息的儲存、檢索、比較分析必須借助于計算機數(shù)據(jù)庫技術(shù), 包括各類生物學信息數(shù)據(jù)庫的建立與維護、數(shù)據(jù)的添加與注釋、更新與查詢、數(shù)據(jù)庫資料的網(wǎng)絡(luò)化等研究內(nèi)容。現(xiàn)有的數(shù)據(jù)庫有:核酸序列數(shù)據(jù)庫(genbank、embl、ddbj)、基因組數(shù)據(jù)庫、基因圖譜數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫(sm.hmlawpc.comatics
b數(shù)據(jù)采集
dna,rna和蛋白質(zhì)測序
1.dna測序原理
dna中核苷酸的順序是通過鏈式終止測序【也稱為脫氧測序(dideoxy sequencing)或以發(fā)明人命名的sanger方法】來確定。
2.dna序列的類型
基因組dna,是直接從基因組中得到,包括自然狀態(tài)的基因
復(fù)制dna(copy dna, cdna),通過反轉(zhuǎn)錄mrna得到的
重組dna,包括載體序列如質(zhì)粒,修飾過的病毒和在實驗室使用的其他遺傳元件等
3.基因組測序策略
散彈法測序(shotgun sequence)包括隨機dna片段的生成,通過大量片段測序來覆蓋整個基因組
克隆重疊群測序(clone contig)dna片段用推理的方法亞克隆,并且進行系統(tǒng)的測序直到整個序列完成
4.序列質(zhì)量控制
通過在dna雙鏈上進行多次讀取完成高質(zhì)量序列數(shù)據(jù)的測定
可使用如phred等程序?qū)ψ畛醯母檾?shù)據(jù)(trace data)進行堿基識別和質(zhì)量判斷。載體序列和重復(fù)的dna片段被屏蔽后,使用phred等程序?qū)⑿蛄衅唇映芍丿B群(contigs),剩下的不一致部分通過人工修飾解決
5.單遍測序
低質(zhì)量的序列數(shù)據(jù)可以由單次讀段(read)產(chǎn)生(單遍測序,single-pass sequencing)。盡管不很準確,但單遍測序如ests和gsss,可以低廉的價格快速大量的產(chǎn)生
6.rna測序
因為有大量的小核苷酸(minor nucleotide)(化學改變的核苷)存在于轉(zhuǎn)移rna(trna)和核糖體rna(rrna)中,所以rna測序不能像dna測序那樣直接進行。 需要用特殊的方法來識別被改變的核苷,包括生化實驗,核磁共振譜(nrm spectroscopy)和質(zhì)譜(ms)技術(shù)
7.蛋白質(zhì)測序
蛋白質(zhì)序列可以通過dna序列推斷得到,而rna測序不能提供有關(guān)已改變殘基或其他類型的翻譯后蛋白質(zhì)修飾(比如剪接或二硫鍵的形成)
大部分蛋白質(zhì)測序是通過質(zhì)譜(ms)技術(shù)進行的
基因和蛋白質(zhì)表達數(shù)據(jù)
1.全局表達分析
rna水平的分析中有效的方法是從rna群體或cdna文庫中,甚至從序列數(shù)據(jù)庫中進行序列采樣。一個簡單的方法是從cdna文庫中隨機挑選5000個克隆進行測序。含量很多的mrnas在采樣的序列中出現(xiàn)的頻率很高,而含量較少的mrna出現(xiàn)頻率則較低,通過這些數(shù)據(jù)的統(tǒng)計分析可以確定相對的表達水平。
一個更高級的技術(shù)是基因表達的連續(xù)分析(serial analysis of gene expreaaion, sage)該方法使每個cdna產(chǎn)生很短的序列標簽(通常8~15nt),并在測序前把數(shù)百個標簽連接成連環(huán)分子(concatemer)。這樣一個測序反應(yīng)中可搜集到幾百條mrna的豐富信息。每個sage標簽可以特異性識別一個特定基因,通過對標簽計數(shù),可以確定每個基因的相對表達水平。
然而,大部分全局rna表達數(shù)據(jù)還需從微陣列實驗所測的信號強度中獲取。全局蛋白質(zhì)表達數(shù)據(jù)主要從雙向聚丙烯酰胺凝膠電泳(two-dimensional polyacrylamide gel electrophoresis, 2d-page)分離,產(chǎn)生點陣的唯一模式(每個點代表一個單獨的蛋白質(zhì))。在2d-page實驗中,蛋白質(zhì)表達數(shù)據(jù)可以通過每個點的信號強度得到,每個二維凝膠上的蛋白信號必須通過質(zhì)譜(ms)技術(shù)來單個注釋。
2.dna微陣列
一個微陣列有一系列的dna元件(特征),以格子形式排列在載玻片等微型支撐物上,通過與復(fù)合rna探針雜交可同時使很多基因的表達水平可視化。若使用兩個不同的熒光標簽的探針,可以在同樣的陣列上直接測定不同樣本的不同基因的表達。 微陣列中主要用到的兩個技術(shù):機械點樣dna微陣列(spotted dna microarray)和寡聚核酸基因芯片(oligonucleotide gene chip)(由美國affymetrix公司獨家制造),后者在制造芯片是通過固態(tài)化學合成把寡聚核苷酸印在芯片上。
3.雙向蛋白質(zhì)凝膠
2d-pag技術(shù)的原理是蛋白質(zhì)可基于兩個不同的特性來分離:等電點(isoelectric point)和分子質(zhì)量(molecular mass)。該技術(shù)中,第一方向蛋白沿固相ph梯度(immobilizes ph gradient)等電聚焦(isoelectric focusing)分離;在垂直方向進行分子量的分離。在凝膠染色后,染色斑點(spot)的模式可作為樣品中蛋白質(zhì)的可重復(fù)使用的指紋(fringerprint)。通過樣本間比較可以識別不同表達的蛋白質(zhì),或被藥物誘導的蛋白質(zhì)等。離體的蛋白質(zhì)斑點(excised spot)可以通過質(zhì)譜技術(shù)鑒定。
蛋白質(zhì)互作數(shù)據(jù)
1.蛋白質(zhì)互作的重要性
蛋白質(zhì)-蛋白質(zhì)互作導致瞬時或穩(wěn)定多亞基復(fù)合物(multi-subunit complexes)的形成。了解這些復(fù)合物對于注釋蛋白質(zhì)功能是必需,也是解釋信號級聯(lián)和調(diào)控網(wǎng)絡(luò)等分子途徑的一個步驟。死效應(yīng)反映了兩個突變的蛋白質(zhì)
2.遺傳方法
抑制子突變體可以通過恢復(fù)被破壞的蛋白質(zhì)互作來補償有害的原始突變體。而合成致死效應(yīng)反映了兩個突變的蛋白質(zhì)不能相互作用,顯性負突變(dominant negative mutation)顯示了一種起著多聚復(fù)合體作用的蛋白質(zhì)。
3.親和性方法
可通過幾種利用蛋白質(zhì)親和性(特異結(jié)合的傾向)分析的物理方法來為蛋白質(zhì)之間的相互關(guān)系提供直接的證據(jù),比如親和性管柱層析法,免疫共沉淀。由ciphergen公司使親和實驗格式更趨微型化,使得在蛋白質(zhì)芯片的發(fā)展中達到頂峰。
4.分子和原子的方法
x射線晶體學和核磁共振譜有助于在原子水平識別蛋白質(zhì)互作,其它的蛋白質(zhì)互作分析的分子方法包括熒光共振能量傳遞(fret),表面基元共振譜(spr)和表面增強激光接吸附/離子化技術(shù)(seldl),其中的很多方法可通過質(zhì)譜技術(shù)直接集成到蛋白質(zhì)注釋中。
5.基于文庫的方法
基于文庫的蛋白質(zhì)互作實驗有兩個主要優(yōu)點:它是高度并行的實驗格式;候選互作蛋白質(zhì)及其cdnas之間直接關(guān)聯(lián)。
影響最大的方法是酵母雙雜交系統(tǒng)(yeast two-hybrid system,y2h),在這個系統(tǒng)中蛋白質(zhì)通過識別與之連接的一個功能轉(zhuǎn)錄因子進行互作。
c數(shù)據(jù)庫--內(nèi)容,結(jié)構(gòu)和注釋
已注釋的序列數(shù)據(jù)庫
1.初級序列數(shù)據(jù)庫
genbank(ncbi)、核酸序列數(shù)據(jù)庫(embl)和日本的dna數(shù)據(jù)庫(ddbj)
2.swiss-prot和trembl
swiss-prot收集了確認的蛋白質(zhì)序列及與結(jié)構(gòu),功能和所屬蛋白質(zhì)家族有關(guān)的注釋信息。相關(guān)數(shù)據(jù)庫trembl翻譯了初級核酸數(shù)據(jù)庫中的編碼序列。
其他數(shù)據(jù)庫
1.omim
omim指人類孟德爾遺傳的聯(lián)機數(shù)據(jù)庫,用于研究人類遺傳學和人類分子生物學的強大資源。每個omim條目都有一個對特定基因或性狀的已知信息的全文總結(jié),并有指向初級序列數(shù)據(jù)庫和其它遺傳學資源的鏈接。
2.incyte和unigene
incyte是商業(yè)數(shù)據(jù)庫,它提供了基因序列和專家注釋的記錄,這是專門為藥物研究開發(fā)服務(wù)的數(shù)據(jù)庫。unigene是一種用來把genbank序列聚類并與est數(shù)據(jù)相關(guān)聯(lián)的實驗工具。
3.結(jié)構(gòu)數(shù)據(jù)庫
蛋白質(zhì)數(shù)據(jù)庫(pdb),核酸數(shù)據(jù)庫(ndb),大分子結(jié)構(gòu)數(shù)據(jù)庫(msd)
e通過序列相似性標準搜索序列數(shù)據(jù)庫
序列相似性搜索
1.序列聯(lián)配
序列聯(lián)配是是相似度量化的第一步,用來區(qū)分偶然性的相似和真實的生物學關(guān)系。聯(lián)配結(jié)果以變化(突變)、插入或缺失(或空位indel)來顯示序列之間的差異,這些差異可以用進化術(shù)語來說明。
2.聯(lián)配算法
動態(tài)規(guī)劃算法可以計算兩條之間的最佳聯(lián)配,其中廣泛使用的算法有smith-waterman算法(局部聯(lián)配)和needleman-wunsch算法(全局聯(lián)配)。
3.聯(lián)配分支和空位罰分
用簡單的聯(lián)配分值來測量相同匹配殘基的比例或數(shù)目。得從聯(lián)配分值中扣去空位罰分,以保證聯(lián)配算法能得出有生物學意義的結(jié)果而沒有太多的空位。
數(shù)據(jù)庫搜索:fasta和blast
1.統(tǒng)計分值
相似度記分的p值是指獲得至少與兩條無關(guān)序列間的偶然相似性一樣高的分值的概率。低p值表明重要的匹配,這些匹配可能會有真實生物學意義。相關(guān)的e值(期望值)是至少與所識別的相似性記同樣高分值的偶然事件的期望概率。兩序列見相似度的低p值對應(yīng)于大數(shù)據(jù)庫搜索的高e值。
2.敏感性和特異性
敏感性衡量數(shù)據(jù)庫中真實生物序列關(guān)系的比例,該關(guān)系表現(xiàn)為擊中項(有意義的相似序列)。特異性指的是對應(yīng)于真實生物學關(guān)系的擊中項的比例。改變e和p的默認值會導致這些互補的優(yōu)良度測量方法之間的平衡。
f多序列聯(lián)配:基因和蛋白質(zhì)家族
多序列聯(lián)配和家族關(guān)系
1.多序列聯(lián)配
多序列聯(lián)配表明兩條或兩條以上序列之間的關(guān)系,可以解釋關(guān)于蛋白質(zhì)結(jié)構(gòu)和功能的許多線索。當所考察的序列不同時,保守的殘基往往是維持穩(wěn)定結(jié)構(gòu)或生物學功能的關(guān)鍵殘基。
2.漸進聯(lián)配
漸進聯(lián)配方法以兩序列聯(lián)配來初步評價序列是如何相關(guān)的,并在這個基礎(chǔ)上構(gòu)建向?qū),然后使用向(qū)渲鸩教砑有蛄械铰?lián)配中,從最密切相關(guān)的序列開始到距離最遠的序列結(jié)束。
蛋白質(zhì)家族和模式數(shù)據(jù)庫
1.蛋白質(zhì)家族
把序列分配到蛋白質(zhì)家族中是預(yù)測蛋白質(zhì)功能是非常有價值的方法。多序列聯(lián)配信息的表示方法有很多種,包括聯(lián)配本身、一致序列、保守殘基和殘基模式、序列輪廓以及其他的
序列家族的概率模型。這些根據(jù)不同的應(yīng)用都有不同的用途,其中大多數(shù)已經(jīng)被開發(fā)和存儲在數(shù)據(jù)庫中,里面含有大量不同蛋白質(zhì)家族的信息,這樣的數(shù)據(jù)庫稱為二級數(shù)據(jù)庫。
2.一致序列
這些序列把多序列聯(lián)配的信息壓縮至單條序列,主要的缺點是除了在特定位置最常見的殘基之外,它們不能表示任何概率信息。一致序列的產(chǎn)生說明了任何蛋白家族的表示都是有偏向的,這主要是由于來源的序列集是有偏向的。
3.prosite
prosite數(shù)據(jù)庫包括與蛋白質(zhì)家族成員、特定蛋白功能及翻譯后修飾有關(guān)的序列模式。 prosite模式與一致序列的不同在于,它們往往比序列全長要短得多,并且給出了一種描述多序列聯(lián)配中一套可接受的殘基組合的方法。prosite模式中已知的假陽性(或假陰性)都已經(jīng)在數(shù)據(jù)庫中注明。prosite數(shù)據(jù)庫在某些條目含有序列輪廓,以嘗試描述比模式更長的序列片段(通常指整個結(jié)構(gòu)域)。
4.prints和blocks
prints和blocks是密切相關(guān)的,它們分別通過來自一組蛋白或蛋白家族中最高度保守區(qū)域的多序列聯(lián)配無空位片段的形式來表示蛋白質(zhì)家族。
蛋白質(zhì)結(jié)構(gòu)域家族
1.結(jié)構(gòu)域家族
許多蛋白質(zhì)是由模式結(jié)構(gòu)的結(jié)構(gòu)域組建的,因此蛋白質(zhì)家族的研究其實是對蛋白質(zhì)結(jié)構(gòu)域家族的研究。
2.序列輪廓
序列輪廓(也成權(quán)重矩陣)是一種描繪蛋白質(zhì)結(jié)構(gòu)與家族相關(guān)序列的方法,其優(yōu)點是描述了結(jié)構(gòu)域序列的全長,包括觀察到每個氨基酸的可能性,以及序列每個位點插入和缺失的可能性。
3.隱馬爾科夫模型
隱馬爾科夫模型(hmms)是蛋白質(zhì)結(jié)構(gòu)域家族序列的一種嚴格的統(tǒng)計模型,包括序列的匹配、插入和缺失狀態(tài),并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來生成蛋白質(zhì)序列。代表某蛋白結(jié)構(gòu)域家族的模型從該家族中生成序列的概率較高,從其他家族中生成序列的概率較低。
j微陣列數(shù)據(jù)分析
微陣列數(shù)據(jù):分析方法
1.微陣列原始數(shù)據(jù)
微陣列數(shù)據(jù)就是經(jīng)過雜交的陣列的掃描圖像,掃描圖像顯示每一個點的雜交信號強度。這些圖像可通過單通道、雙通道熒光標記、同位素標記或比色標記等方法獲得,其記錄方式各不相同。
2.數(shù)據(jù)質(zhì)量
準確記錄個點的信號強度是微陣列數(shù)據(jù)分析的基本要求,dna陣列可包含數(shù)千個特征點,因此數(shù)據(jù)的獲取和分析必須自動進行。陣列上必須包含對照點以衡量非特異雜交和不同
陣列上雜交的多變性。
3.基因表達矩陣
從微陣列實驗得到的原始數(shù)據(jù)首先要轉(zhuǎn)換成表,即基因表達矩陣。表中的各行代表基因,各列代表不同的實驗條件,表中的數(shù)據(jù)為信號強度,代表各個基因的相對表達水平。
4.表達數(shù)據(jù)分組
基因表達矩陣中的每一個基因都有其特定的表達模式,即一系列條件下基因表達情況的測量值。微陣列數(shù)據(jù)分析就是要將這些數(shù)據(jù)按表達模式的相似程度進行分類。
序列采樣和sage
1.序列采樣數(shù)據(jù)分析
差異基因表達的研究,可以通過從不同的cdna文庫中隨機挑取克隆來進行,也可以通過抽取est數(shù)據(jù)來進行。這種分析需要抽取成千上萬的序列以達到統(tǒng)計上的顯著性,即使對于中度冗余度的mrna也要如此。
2.sage
sage是一種序列采樣技術(shù),其原理是將非常短的序列標記(9~15堿基)連續(xù)為長的串聯(lián)體。sage標記的長度是最適于高通量分析,但基因依然可以被明確的鑒定出來。
來源:網(wǎng)絡(luò)整理 免責聲明:本文僅限學習分享,如產(chǎn)生版權(quán)問題,請聯(lián)系我們及時刪除。