什么是三代全長(cháng)轉錄組?
三代全長(cháng)轉錄組(iso-seq),是基于Pacbio三代測序平臺對物種進(jìn)行mRNA進(jìn)行測序研究,因其讀長(cháng)較長(cháng),不需要打斷拼接,就可以獲得5’,3’UTR,ploy A tail 的完整轉錄本,克服了傳統二代測序讀長(cháng)較短,轉錄本拼接較短,轉錄本結構不完整的缺點(diǎn),因其可直接獲得單個(gè)mRNA分子5’端到3’端高質(zhì)量全部轉錄本信息而得名。
全長(cháng)轉錄組的優(yōu)勢
讀長(cháng)超長(cháng),無(wú)需進(jìn)行打斷和拼接,可直接獲得全長(cháng)轉錄本的完整信息。
發(fā)現更多的新基因、可變剪切,精準定位融合基因,改善基因組注釋等。
直接獲取正義鏈、反義鏈及部分LncRNA信息。
結合二代數據,可以得到準確的基因和轉錄本表達定量。
全長(cháng)轉錄組應用方向
在動(dòng)植物方面:
1. 挖掘生物脅迫和非生物脅迫對動(dòng)植物的生理,發(fā)育影響,結合RNA-seq篩選不同環(huán)境下的差異表達基因或轉錄本,增加對脅迫和耐受相關(guān)調控網(wǎng)絡(luò )的理解。
2. 研究不同發(fā)育時(shí)期轉錄組的動(dòng)態(tài)變化,可以準確識別不同時(shí)期的轉錄本結構變化,結合RNA-seq可研究不同時(shí)期的基因或轉錄本的表達變化,有助于闡明生物生長(cháng)發(fā)育的調控機理。
3. 研究生物合成或代謝機制,鑒定完整轉錄本,對重要代謝通路的關(guān)鍵基因或轉錄本進(jìn)行深入探究,突破以往利用二代測序技術(shù)對生物的重要次級代謝產(chǎn)物生物合成的研究而無(wú)法準確預測剪接亞型的限制。
在醫學(xué)方面:
1. 獲得病變組織/細胞的全長(cháng)轉錄組,篩選治療靶點(diǎn)/研究預后相關(guān)信息。
2. 發(fā)現復雜疾病中的基因結構變異和融合基因,鑒定腫瘤/疾病中的特異性Isoform。
3. 進(jìn)行藥物響應研究或基因變異與疾病耐藥性的相關(guān)分析。
4. 可變剪切因子分析,驅動(dòng)基因的結構變異,疾病關(guān)鍵候選基因的篩選等。
作者結合了PacBio 長(cháng)讀長(cháng)(Iso-Seq)和Illumina RNA-seq測序全面研究了胃癌(GC)轉錄組。文章對10個(gè)GC細胞系進(jìn)行了全長(cháng)轉錄組分析,涵蓋四種主要的GC分子亞型(染色體不穩定型、Epstein-Barr陽(yáng)性,基因組穩定,微衛星不穩定)。鑒定了60239個(gè)非冗余全長(cháng)轉錄本,與當前的轉錄組數據庫相比,超過(guò)66%是新的。新的轉錄本更可能是細胞系和亞型特有的,表達水平較低,外顯子數量較多,有較長(cháng)的轉錄本/編碼序列長(cháng)度。大多數新的轉錄本第一外顯子是可替換的,與其他選擇性剪接類(lèi)別相比,它們的表達水平更高表現出更高的可變性??傊?,作者觀(guān)察到25%的檢測到的基因使用替代啟動(dòng)子,大多數(84.2%)已知/新啟動(dòng)子對在編碼序列有潛在變化。將這些替代啟動(dòng)子比對到TCGA 的GC樣本中,鑒定了幾種與癌癥相關(guān)的轉錄本,包括新的癌基因變體。腫瘤特異性轉錄本往往會(huì )改變蛋白質(zhì)編碼序列與其他亞型相比。對結果數據的分析表明,新的轉錄本可能提供更多的預后信息。研究結果為深度研究GC和其他胃腸道惡性腫瘤提供了豐富的全長(cháng)轉錄組信息。
可變剪切一種轉錄后調節機制,從單個(gè)前體mRNA產(chǎn)生不同的mRNA分子,在中樞神經(jīng)系統的發(fā)育和功能中發(fā)揮重要作用,作者使用iso-seq在人類(lèi)和小鼠皮層中生成全長(cháng)轉錄序列,確定了現有基因組注釋中不存在的新轉錄本,包括比對到預測的新基因(未注釋?zhuān)┑霓D錄本,以及包含多個(gè)外顯子的融合轉錄本。盡管某些基因在物種間存在顯著(zhù)差異,但人類(lèi)和小鼠皮層之間轉錄多樣性的整體模式是相似的。我們還確定了可變剪切的發(fā)育變化,以及人類(lèi)胎兒和成人皮質(zhì)之間轉錄本的差異使用。文章的數據證實(shí)了可變剪切在大腦皮層中的重要性,它極大地增加了轉錄多樣性,并代表了大腦中基因調控的一個(gè)重要機制,為科學(xué)研究提供人類(lèi)和小鼠皮層的轉錄水平數據。