2012年9月5日,DNA元素百科全書”計劃(簡稱ENCODE)獲得了迄今zui詳細的人類基因組分析數(shù)據(jù),其成果以30【Nature(6篇)、Genome Research(18篇)和Genome Biology(6篇)】論文的形式同時發(fā)表在Nature,Science,Genome Research,Genome Biology雜志等一系列學術(shù)期刊上,文章作者就達442位,迅速成為各大媒體和生物科學界熱議的話題。以下是各篇文章的中文摘要和原文鏈接。
1. 轉(zhuǎn)錄因子的足跡分析
對41種不同的細胞和組織類型進行基因組DNase I足跡分析(genomic DNase I footprinting),研究人員在DNA調(diào)節(jié)區(qū)內(nèi)鑒定出4500萬個轉(zhuǎn)錄因子結(jié)合事件,從而代表著這些轉(zhuǎn)錄因子與840萬個不同的短DNA序列元件存在差異性地結(jié)合。他們還發(fā)現(xiàn)影響等位基因染色質(zhì)狀態(tài)的基因變異體集中分布在這些足跡之中,并且這些序列元件優(yōu)先得到DNA甲基化的保護。他們鑒定出一個固定不變的50個堿基對長的足跡,并且這種足跡地確定著上千個人啟動子內(nèi)的轉(zhuǎn)錄起始位點。zui后,他們描述了一個新的調(diào)節(jié)因子識別基序集合,其中這些基序在序列和功能上是高度保守的。<<<原文An expansive human regulatory lexicon encoded in transcription factor footprints(10.1038/nature11212)
2. 人基因組DNA元件集成百科全書
ENCODE項目系統(tǒng)性地描繪出人基因組上的轉(zhuǎn)錄區(qū)域、轉(zhuǎn)錄因子結(jié)合、染色質(zhì)結(jié)構(gòu)和組蛋白修飾。根據(jù)這些數(shù)據(jù),研究人員將生化功能分配到80%的人基因組,特別是在已得到很好研究的蛋白編碼序列之外的區(qū)域。<<<原文An integrated encyclopedia of DNA elements in the human genome(10.1038/nature11247)
3. 人細胞轉(zhuǎn)錄全景圖
RNA是基因組編碼的遺傳信息的直接輸出。細胞的大部分調(diào)節(jié)功能都集中在RNA的合成、加工和運輸、修飾和翻譯之中。研究人員證實,75%的人基因組能夠發(fā)生轉(zhuǎn)錄,并且觀察到幾乎所有當前已標注的RNA和上千個之前未標注的RNA的表達范圍與水平、定位、加工命運、調(diào)節(jié)區(qū)和修飾??傊@些觀察結(jié)果表明人們需要重新定義基因的概念。<<<原文Landscape of transcription in human cells(10.1038/nature11233)
4. 人基因組中可訪問的染色質(zhì)全景圖
DNase I超敏感位點(DNase I hypersensitive sites, DHSs)是調(diào)節(jié)性DNA序列的標記物。研究人員通過對125個不同的細胞和組織類型進行全基因組譜分析而鑒定出大約290萬個人DHSs,并且大范圍地繪制出人DHSs圖譜。<<<參見原文(10.1038/nature11232)
5. 人基因組調(diào)控網(wǎng)絡結(jié)構(gòu)
為了確定人轉(zhuǎn)錄調(diào)節(jié)網(wǎng)絡的作用原理,研究人員在450多項基因組實驗中研究了119個轉(zhuǎn)錄相關(guān)因子的結(jié)合信息。他們發(fā)現(xiàn)轉(zhuǎn)錄因子的組合性結(jié)合是高度環(huán)境特異性的:轉(zhuǎn)錄因子的不同組合結(jié)合在特異性的基因組位置上。他們對所有的轉(zhuǎn)錄因子進行組裝而產(chǎn)生一個層次結(jié)構(gòu),并且將它與其他基因組信息整合在一起而形成一個嚴密而又龐大的調(diào)節(jié)性網(wǎng)絡。<<<參見原文(10.1038/nature11245)
6. 基因啟動子的遠距離相互作用全景圖
在ENCODE項目中,研究人員選擇1%的基因組作為項目試點區(qū)域,并且利用染色體構(gòu)象捕獲碳拷貝(chromosome conformation capture carbon copy, 簡稱為5C)技術(shù)來綜合性地分析了這個區(qū)域中轉(zhuǎn)錄起始位點和遠端序列元件之間的相互作用。他們獲得GM12878、K562和HeLa-S3細胞的5C圖譜。在每個細胞系,他們發(fā)現(xiàn)啟動子和遠端序列元件之間存在1000多個遠距離相互作用。<<<參見原文(10.1038/nature11279)
7. 果蠅和人的轉(zhuǎn)錄因子結(jié)合位點變異分析
研究人員將ENCODE項目產(chǎn)生的轉(zhuǎn)錄因子結(jié)合圖譜、他們之前發(fā)布的數(shù)據(jù)以及其他的人和果蠅等基因系中基因組變異數(shù)據(jù)來源結(jié)合在一起,來研究轉(zhuǎn)錄因子結(jié)合位點(transcription factor binding sites, TFBSs)的變異性。他們引入一種TFBS變異性的衡量標準和依據(jù)不斷出現(xiàn)的每個人的轉(zhuǎn)錄因子結(jié)合數(shù)據(jù)來證實TFBS突變,尤其是在進化保守性位點上發(fā)生的那些突變,能夠被有效地緩解從而確保轉(zhuǎn)錄因子結(jié)合水平保持一致性。<<<參見原文(10.1186/gb-2012-13-9-r49)
8. 轉(zhuǎn)錄因子TCF7L2通過GATA3結(jié)合到基因組上
TCF7L2轉(zhuǎn)錄因子與很多人類疾病相關(guān)聯(lián),如II型糖尿病和癌癥。研究人員利用高通量測序技術(shù)ChIP-seq在6個人細胞系中對TCF7L2進行分析。他們鑒定出11.6萬個非冗余性TCF7L2結(jié)合位點,但是只有1864 個位點在這6個細胞系中是相同的。他們還證實被H3K4me1和H3K27Ac標記的很多基因組區(qū)域也被TCF7L2結(jié)合。對細胞類型特異性的TCF7L2結(jié)合位點進行生物信息學分析揭示富集多種轉(zhuǎn)錄因子,包括在HepG2細胞中富集HNF4alpha和FOXA2基序,而在MCF7細胞中富集GATA3基序。轉(zhuǎn)錄組測序(RNA-seq)分析提示著TCF7L2通過GATA3結(jié)合到基因組上從而抑制轉(zhuǎn)錄。<<<參見原文(10.1186/gb-2012-13-9-r52)
9. 構(gòu)建定量模型研究染色質(zhì)特征和基因表達水平之間關(guān)系
通過構(gòu)建出一個新的研究染色質(zhì)特征和基因表達水平之間關(guān)系的定量模型,研究人員不僅證實之前在多個細胞系的研究中發(fā)現(xiàn)的一般性關(guān)系,而且還對它們之間的關(guān)系提出一些新的建議。<<<參見原文(10.1186/gb-2012-13-9-r53)
10. GENCODE假基因資源
作為GENCODE標注人基因組的一部分,研究人員基于大規(guī)模的人工標注和計算機運算來*次針對蛋白編碼的基因進行全基因組假基因分配。他們將假基因標注和廣泛性的ENCODE功能性基因組學信息整合在一起。特別的是,他們確定了每個假基因的表達水平、轉(zhuǎn)錄因子與RNA聚合酶II結(jié)合以及與之相關(guān)聯(lián)的染色質(zhì)標記。<<<參見原文(10.1186/gb-2012-13-9-r51)
11. 對人啟動子的轉(zhuǎn)錄因子結(jié)合位點進行功能性分析
為了大規(guī)模地描述轉(zhuǎn)錄因子結(jié)合位點功能,研究人員預測了人啟動子中的455個結(jié)合位點,并對它們進行突變。在四個不同的永生化人細胞系中,他們利用瞬時轉(zhuǎn)染和熒光素酶報告檢測在這些位點上對主要的轉(zhuǎn)錄因子CTCF, GABP, GATA2, E2F, STAT和YY1進行功能性的測試。在每個細胞系中,36%到49%的結(jié)合位點提高啟動子活性,并且在這些細胞系中的任何一個當中,觀察到這種提高啟動子活性的功能的整體發(fā)生率為70%。<<<參見原文(10.1186/gb-2012-13-9-r50)
12. 基于轉(zhuǎn)錄相關(guān)因子的結(jié)合位點對人基因組區(qū)域進行分類
研究人員通過機器學習方法構(gòu)建出統(tǒng)計學模型來捕獲三種匹配類型的區(qū)域的基因組特征:活性結(jié)合或不活性結(jié)合的區(qū)域;高程度共同結(jié)合區(qū)域(high degree of co-binding, HOT)和低程度共同結(jié)合區(qū)域(low degree of co-binding, LOT);位于基因近端或遠端的調(diào)節(jié)性組件??傊?,這種區(qū)域在染色體位置、染色質(zhì)特征、結(jié)合到它們之上的轉(zhuǎn)錄因子和細胞類型特異性上存在復雜的差異。<<<參見原文(10.1186/gb-2012-13-9-r48)
13. 利用RegulomeDB標注個人基因組中的功能性變異
研究人員開發(fā)出一種新的方法和數(shù)據(jù)庫,即調(diào)節(jié)物組數(shù)據(jù)庫(RegulomeDB),從而能夠指導人們理解人基因組中調(diào)節(jié)性序列上發(fā)生的變異。調(diào)節(jié)物組數(shù)據(jù)庫包括來自ENCODE和其他來源的高通量的實驗數(shù)據(jù),以及利用計算預測和人工標注來鑒定出潛在的調(diào)節(jié)性序列變異體。<<<參見原文(10.1101/gr.137323.112)
14. 制定ChIP-seq工作標準和指導準則
根據(jù)研究人員進行ChIP-seq實驗的經(jīng)歷,ENCODE和modENCODE(model organism ENCODE, 模式生物ENCODE)為經(jīng)常更新的ChIP-seq實驗制定出一套工作標準和指導準則。<<<參見原文(10.1101/gr.136184.111)
15. 利用RT-PCR-seq和RNA-seq統(tǒng)計所有人基因組編碼的基因元件
在ENCODE項目中,GENCODE旨在通過人工管理和計算方法來準確地標注人基因組中所有編碼蛋白的基因、假基因和非編碼性的轉(zhuǎn)錄座位。利用一種被稱作RT-PCR-seq(即先進行RT-PCR擴增,然后進行高通量多重測序)的方法可以來預測外顯子連接(exon–exon junction)。研究人員驗證了73%的預測結(jié)果,從而證實了1168個新的基因,其中大多數(shù)是非編碼性的。<<<參見原文(10.1101/gr.134478.111)
16. 細胞內(nèi)RNA深度測序證實大多數(shù)RNA進行共轉(zhuǎn)錄剪接
研究人員分析了K562細胞系中通過RNA-seq測序而獲得的細胞內(nèi)RNA組分。他們發(fā)現(xiàn)在人基因組中,RNA剪接主要是在轉(zhuǎn)錄期間完成的。通過引入coSI 測量方法,他們證實在細胞質(zhì)polyA+ RNA中,剪接幾乎*完成。因此,大多數(shù)RNA在被轉(zhuǎn)錄的同時進行剪接,即共轉(zhuǎn)錄剪接。<<<參見原文(10.1101/gr.134445.111)
17. 發(fā)現(xiàn)上百個小鼠和人剪接來源的miRNA
非典型的miRNA模板并不適合經(jīng)常用來標注典型miRNA的策略。通過對737個小鼠和人類小RNA數(shù)據(jù)集進行大規(guī)模分析,研究人員采取嚴格且保守性的策略對237個小鼠剪接來源miRNA(splicing-derived miRNAs, mirtrons)和240個人mirtrons進行標注。在哺乳動物中,這些mirtrons可以分為三類:常規(guī)性的mirtrons、5'加尾mirtrons和3'加尾mirtrons。<<<參見原文(10.1101/gr.133553.111)
18. GENCODE:ENCODE項目的人基因組參照標注
GENCODE項目旨在利用計算分析、人工標注和實驗驗證來鑒定出人基因組中所有的基因特征。GENCODE第七版(GENCODE v7)公開發(fā)布了基因組標注數(shù)據(jù)集,包含了20687個蛋白編碼的RNA基因座位、9640個長鏈非編碼RNA基因座位,并且擁有33977個在UCSC基因數(shù)據(jù)庫和RefSeq數(shù)據(jù)庫中不存在的編碼性轉(zhuǎn)錄本。它還對公開獲得的長鏈非編碼RNA(long noncoding RNA, lncRNA)進行zui全面的標注。<<<參見原文(10.1101/gr.135350.111)
19. 發(fā)現(xiàn)人基因組中疾病相關(guān)的功能性SNP
研究人員系統(tǒng)性地研究了多種類型的ENCODE數(shù)據(jù)與疾病相關(guān)基因SNP(single nucleotide polymorphism, 即單核苷酸多態(tài)性)之間的關(guān)聯(lián)性,并且發(fā)現(xiàn)在當前鑒定出的疾病關(guān)聯(lián)當中,存在功能性SNP的顯著性富集。<<<參見原文(10.1101/gr.136127.111)
20. 在兩種人細胞系中,lncRNA很少表達
ENCODE項目發(fā)現(xiàn)被鑒定為lncRNA的9640多個人基因組位點中,迄今為止只有大約100個得到深入的研究以便確定它們在細胞中的作用。通過共同分析ENCODE項目zui近產(chǎn)生的兩個數(shù)據(jù)集:將表達的肽鏈映射到它們的編碼性基因組位點的串聯(lián)質(zhì)譜數(shù)據(jù);ENCODE在細胞系K562和GM12878中對長polyA+和polyA-組分進行RNA-seq測序產(chǎn)生的數(shù)據(jù),研究人員利用機器學習方法RuleFit3將肽鏈數(shù)據(jù)與RNA表達數(shù)據(jù)對應起來。他們發(fā)現(xiàn)大約92%的GENCODE v7發(fā)布的lncRNA在這兩種細胞系中并不表達。除極少例外,核糖體能夠區(qū)分編碼性RNA轉(zhuǎn)錄本和非編碼性RNA轉(zhuǎn)錄本,因而在lncRNA組(lncRNAome)中,異位表達和隱性mRNA都是罕見的。<<<參見原文(10.1101/gr.134767.111)
21. 關(guān)于個人和群體的基因組調(diào)節(jié)性序列變異的基因組學
為了更好地界定人基因組調(diào)節(jié)性序列變異的模式,研究人員選擇了來自不同地理位置的53個人的全基因組序列,將他們的138個細胞和組織類型的DNase I超敏感位點(DNase I hypersensitive sites, DHSs)標記的全基因組調(diào)節(jié)性DNA序列圖譜結(jié)合起來。研究人員估計相比于蛋白編碼的DNA序列,每個人可能擁有很多更加具有功能重要性的調(diào)節(jié)性DNA序列變異體,盡管平均而言,它們可能產(chǎn)生更加小的影響。<<<參見原文(10.1101/gr.134890.111)
22. 利用開放構(gòu)象染色質(zhì)區(qū)域來預測細胞類型特異性的基因表達
研究人員利用來自19項不同的人細胞類型的DNase-seq數(shù)據(jù)來鑒定全基因組范圍的近端和遠端調(diào)節(jié)性序列元件。通過匹配表達數(shù)據(jù),他們將基因分為三類:細胞特異性的上調(diào)表達的基因、細胞特異性的下調(diào)表達的基因和組成性表達的基因??傊?,他們成功地利用開放構(gòu)象染色質(zhì)的信息來解決利用調(diào)節(jié)性序列直接預測哺乳動物細胞特異性表達時存在的問題。<<<參見原文(10.1101/gr.135129.111)
23. 探究ENCODE人RNA-seq數(shù)據(jù)中的RNA編輯
研究人員分析了來自ENCODE項目對14個人細胞系開展研究所獲得的長串RNA-seq數(shù)據(jù)(這些數(shù)據(jù)經(jīng)過PolyA選擇,沒有形成雙鏈,且經(jīng)過深度測序)以便鑒定出潛在的RNA編輯事件。他們發(fā)現(xiàn)RNA編輯和特異性的基因之間存在較強的關(guān)聯(lián)。<<<參見原文(10.1101/gr.134957.111)
24. 細胞類型特異性的轉(zhuǎn)錄因子結(jié)合的序列和染色質(zhì)決定簇
為了研究DNA序列信號、組蛋白修飾和DNase對細胞類型特異性的結(jié)合位點的可訪問性所發(fā)揮的作用,研究人員分析了ENCODE項目所開展的286項ChIP-seq實驗。與之前的研究相一致的是,他們發(fā)現(xiàn)DNase可訪問性能夠解釋很多轉(zhuǎn)錄因子的細胞類型特異性結(jié)合。不過根據(jù)他們建立的模型,他們還發(fā)現(xiàn)10個轉(zhuǎn)錄因子擁有顯著性的細胞類型特異性的結(jié)合模式,4個轉(zhuǎn)錄因子表現(xiàn)出顯著不同的細胞類型特異性的DNA序列偏好性。<<<參見原文(10.1101/gr.127712.111)
25. 119個人轉(zhuǎn)錄因子結(jié)合的基因組區(qū)域附近的序列特征和染色質(zhì)結(jié)構(gòu)
通過對ENCODE項目在研究119個人轉(zhuǎn)錄因子時所獲得的大約457個ChIP-seq數(shù)據(jù)集進行整合分析,研究人員在大多數(shù)數(shù)據(jù)集中鑒定出高度富集的序列基序,揭示出新的基序和驗證已知的基序。<<<參見原文(10.1101/gr.139105.112)
26. 分析人lncRNA的基因結(jié)構(gòu)、進化和表達
研究人員分析了迄今為止zui為完整的由GENCODE項目產(chǎn)生的人lncRNA標注:人工標注了產(chǎn)生14990個RNA轉(zhuǎn)錄本的9277個基因。他們的分析結(jié)果表明lncRNA是通過類似于蛋白編碼基因的轉(zhuǎn)錄途徑而被產(chǎn)生的。而且通過在多種人器官和大腦區(qū)域所開展的lncRNA綜合性表達分析,他們發(fā)現(xiàn)相對于蛋白編碼的基因,lncRNA通常較低地表達。<<<參見原文(10.1101/gr.132159.111)
27. 染色質(zhì)信號存在廣泛的異質(zhì)性
在許多種細胞系中,研究人員將14個染色質(zhì)信號(12個染色質(zhì)標記、DNase和核小體定位)與119個DNA結(jié)合蛋白的結(jié)合位點相關(guān)聯(lián)在一起。他們開發(fā)出一種被稱作CAGT(Clustered AGgregation Tool)的方法來解釋染色質(zhì)標記在信號強度、形狀和隱性鏈定位上的異質(zhì)性。<<<參見原文(10.1101/gr.136366.111)
28. 對轉(zhuǎn)錄因子結(jié)合數(shù)據(jù)進行整合分析來理解轉(zhuǎn)錄調(diào)節(jié)
利用對ENCODE項目產(chǎn)生的大量數(shù)據(jù)進行統(tǒng)計學模型分析來研究轉(zhuǎn)錄因子的轉(zhuǎn)錄調(diào)節(jié)。研究結(jié)果揭示不同技術(shù)和RNA抽提實驗程序所捕獲的轉(zhuǎn)錄起始位點在表達水平的預測準確度上存在顯著性的差異。<<<參見原文(10.1101/gr.136838.111)
29. CTCF結(jié)合的廣泛可變性與DNA甲基化相關(guān)聯(lián)
CTCF是一個廣泛表達的調(diào)節(jié)因子。研究人員通過研究19項不同人細胞類型的ChIP-seq數(shù)據(jù)來分析CTCF的全基因組結(jié)合模式。他們觀察到高度重復性的但同時可變性非常大的基因組結(jié)合全景圖,表明著CTCF結(jié)合受到高度細胞選擇性的調(diào)節(jié)。<<<參見原文(10.1101/gr.136101.111)
30. 細胞HepG2中高度整合的轉(zhuǎn)錄因子PPARGC1A結(jié)合網(wǎng)絡
PPARGC1A是一個轉(zhuǎn)錄共激活因子。它結(jié)合并共同激活多種轉(zhuǎn)錄因子來調(diào)節(jié)大多數(shù)基因的表達。在這項研究中,研究人員在經(jīng)過毛喉素(forskolin)處理的HepG2細胞中描述了一種核心的PPARGC1A轉(zhuǎn)錄調(diào)節(jié)網(wǎng)絡。他們利用ChIP-seq描繪了PPARGC1A的全基因組結(jié)合位點,并且揭示出過多表達的對應于已知和新的PPARGC1A網(wǎng)絡成員的DNA序列基序。他們?nèi)缓罄肅hIP-seq構(gòu)建出6個位點特異性的轉(zhuǎn)錄因子結(jié)合伴侶的基因表達譜。重要的是,他們發(fā)現(xiàn)不同的轉(zhuǎn)錄因子組合結(jié)合到一套不同的功能性基因上,從而有助于揭示代謝性過程和其他細胞過程的組合性調(diào)節(jié)
上海通蔚生物科技有限公司
地址:上海市金山區(qū)楓涇鎮(zhèn)環(huán)東一路65弄2號3463室
主營產(chǎn)品:ELISA檢測試劑盒,ELISA試劑盒,酶聯(lián)免疫試劑盒,人ELISA試劑盒,大鼠ELISA試劑盒,小鼠ELISA試劑盒,豚鼠ELISA試劑盒,兔ELISA試劑盒,羊ELISA試劑盒,牛ELISA試劑盒,雞ELISA試劑盒,鴨ELISA試劑盒
©2019 版權(quán)所有:上海通蔚生物科技有限公司 備案號:滬ICP備14033764號-3 總訪問量:1061142 站點地圖 技術(shù)支持:環(huán)保在線 管理登陸