隨著生物科學技術的迅猛發展,很多醫院都逐漸認識到生物信息學分析的重要性,醫院也陸續引進一些生信專業的人才。但是跟很多臨床醫生閑聊過程中,小編發現很多老師不清楚測序的意義,生信分析可以給他們帶來什么好處以及公共數據庫或測序數據的使用。下面小編就簡單介紹下TCGA數據庫、GEO數據庫及生信分析帶來的好處。
TCGA(The cancer genome atlas,癌癥基因組圖譜)由National Cancer Institute(NCI,美國國家癌癥研究所)和National Human Genome Research Institute(NHGRI,美國國家人類基因組研究所)于2006年聯合啟動的項目,收錄了各種人類癌癥(包括亞型在內的腫瘤)的臨床數據,基因組變異,mRNA表達,甲基化等數據,是癌癥研究者很重要的數據來源。
TCGA數據庫收錄的基因組測序數據涉及到的癌癥達33種,包含的組織類型達26種:ACC、BLCA、BRCA、CESC、CHOL、COAD、DLBC、ESCA、GBM、HNSC、KICH、KIRC、KIRP、LAML、LGG、LIHC、LUAD、LUSC、MESO、OV、PAAD、PCPG、PRAD、READ、SARC、SKCM、STAD、TGCT、THCA、THYM、UCEC、UCS、UVM。
TCGA中的數據類型主要有SNV(單核苷酸變異)數據、RNA-seq數據、CNV(基因拷貝數變異)數據、甲基化數據、臨床數據、miRNA-seq數據,以及生物樣本數據。
GEO數據庫全稱GENE EXPRESSION OMNIBUS,是由美國國立生物技術信息中心NCBI創建并維護的基因表達數據庫。它創建于2000年,收錄了世界各國研究機構提交的高通量基因表達數據,也就是說只要是目前已經發表的論文,論文中涉及到的基因表達檢測的數據都可以通過這個數據庫中找到。
那既然知道有這么好的數據庫,那可以為我們的科研帶來什么好處呢?
答案是可以預測疾病相關的潛在基因,以及該基因潛在的作用靶點、上游調控轉錄因子等,從而指導實驗方向,縮小試驗范圍,簡化試驗流程。為基金申請提供支持,通過強大的信息數據的收集整理,減少投入增強研究目的性;且通過整合技術優勢,指導提高臨床診斷水平。說的更簡單一點就是我們可以從成千上萬個基因里沿著研究疾病方向將范圍縮小至幾個基因,從而助力于醫學科學研究。
隨著二代測序技術的収展,測序價格變的越來越低。越來越多的二代測序項目陸續被開展,從而產生了大量的測序數據。然而,測序公司可以提供的多為標準化的流程分析,而標準化分析對于文章發表而言,可能遠未足夠。多數研究者雖然對研究設計了如指掌,但對于如何對測序數據進行高級分析從而達到研究目的,所知甚少。深圳市拓普生物科技有限公司提供對研究人員自身測序數據或者公共數據庫測序數據的高級數據分析服務,距今已有上百個項目的操作經驗。
說了這么多,我們可以提供哪些個性化分析呢?
1、 差異分析
2、 GO功能富集
3、KEGG通路富集
4、miRNA-mRNA結合預測
5、轉錄因子結合位點預測
6、 蛋白質因果關系
7、 STEM時間序列趨勢分析
8、WGCNA功能模塊分析
9、LncRNA-mRNA共表達
10、蛋白質互作網絡(PPI)
11、 ceRNA分析
12、腫瘤SNPs統計分析
13、 生存分析:預后與臨床表型、基因表達的關聯
14、 Cox多因素模型預測腫瘤預后
15、 腫瘤預后模型的列線圖可視化
16、 免疫細胞浸潤比例分析
17、疾病相關免疫基因篩選
18、基于機器學習算法的多組學疾病診斷/腫瘤預后預測模型
最后,歡迎各位交流合作,特別是做動物科研的老師,希望我們精準的生信分析能大大減少您實驗的工作量。最后祝您多多出Paper,多多中國自然!