每个基因的具体信息,都有多个数据库的支撑。GCBI统计了人类5万多基因在每个数据库被注释的情况,以此来反映单个基因在不同层面的信息。
根据基因在数据库中的注释情况,我们从相关文献、通路、功能、已验证的靶向miRNA、和疾病五个角度来统计和评价基因研究情况。
1.相关文献:依据Pubmed数据对文献对基因进行挖掘,统计包含基因的文献数。
2.通路:即根据kegg数据库(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组大百科全书),统计基因参与的通路的数量;
3.功能:即根据Go数据库(Gene Ontology,基因本体学数据库),统计基因参与的功能(生物过程)的数量。
4.已验证的靶向microRNA:已经有文献发表验证的miRNA的数量。
5.疾病:依据Pubmed数据对文献对基因和疾病进行挖掘,统计同时描述这个基因和疾病的文献数。
2.2 方法学
我们利用基因在数据库中注释的次数,除以该数据库注释最多的基因的数量,得到某个基因的权重值,根据权重值我们绘制了基因的雷达图。
权重值计算:
A基因的权重=A基因参与的功能数量/功能统计最高值
例如,基因FGFR1通路权重= FGFR1参与的通路数量8/MAPK1参与通路最多的数量67=0.12
中位数=该层面存在数据的基因计算权重后,去除0的中位数。
每篇文献都有关联的基因和疾病种类,疾病雷达就是根据文献内容,挖掘出基因与疾病的对应关系。
我们利用Mesh数据库中的疾病分类,从Pubmed数据库对基因在疾病中被报道的次数进行挖掘,绘制了基因报道次数最多的前20种疾病的柱状图。
每个基因与基因之间都有非常多的调控关系,我们从基因相关的转录因子、miRNA、lncRNA和上下游相关基因的四个角度来展示基因与基因间的关系。
1.转录因子:已报到的相关转录因子;
2.miRNA:已报到的相关miRNA;
3.lncRNA:依据文献挖掘可能有关的lncRNA;(准确性较弱)
4.上下游相关基因:依据kegg数据库(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组大百科全书)的基因上下游关系。
5.蛋白互作:依据蛋白数据库收集的有文献依据的相互作用关系。
调控网络是依据基因在Pubmed,Mesh,KEGG等数据库中的对于基因相对应的其他基因的关系,从而构建基因的调控网络。
miRNA和转录因子都依据数据库提供的已经有文献报道的基因与miRNA或者转录因子的关系。
上下游相关基因为依据KEGG数据库(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组大百科全书)中的基因上下游关系提取而来。
蛋白关系是基于蛋白数据库收集的有文献依据的相互作用关系。
lncRNA为将文献经过Mesh数据库中的疾病名称进行过滤,通过对过滤然后文献的关键字进行挖掘所得到的对应关系。即只要一篇文献的挖掘出的关键字既有基因,又有lncRNA即判断这两者之间可能在某个疾病上具有一定程度的相关性(相关性较弱)。
基于每个基因的转录本(Ensembl数据库GRCh38版本)对起始位点上游2000bp下游500bp通过Transfac数据库进行转录因子预测结果,获得对应转录本相关的转录因子结果。
预测评分:基于Transfac数据库的2个预测分值后的整合分值。(分值越接近于1可靠性越高)
区域是否存在甲基化位点:基于COSMIC数据库的甲基化信息对预测出来的转录因子的结合区域进行注释,判断该结合区域上是否存在甲基化位点。
区域是否存在SNP位点:基于dbSNP数据库的SNP信息对预测出来的转录因子的结合区域进行注释,判断该结合区域上是否存在SNP位点。
推荐度:依据Transfac数据库的预测分值和COSMIC数据库以及dbSNP数据库是否存在对应注释信息整合出推荐度;以推荐度来表示预测出来的转录因子的科研价值,推荐度越高越好。
表达概况是基于TCGA的RNA-SEQv2数据中的标准化数据文件中的表达值进行直接使用(数据收集时间为2016年6月),来客观的展示基因在33种肿瘤的癌组织和正常组织的表达情况。
依据TCGA样本的barcode对于样本进行癌组织和正常组织的区分。
基于RNA-SEQv2数据所提供的每个样本基因层面的normalized_results文件中的表达值(normalized_count:upper quartile normalized RSEM count estimates)进行每组的平均值的计算和标准差的计算。
癌症简称对应全称:
疾病 | 全称 | 中文名 |
ACC | Adrenocortical carcinoma | 肾上腺皮质癌 |
BLCA | Bladder Urothelial Carcinoma | 膀胱尿路上皮癌 |
BRCA | Breast invasive carcinoma | 乳腺浸润性导管癌 |
CESC | Cervical squamous cell carcinoma and endocervical adenocarcinoma | 宫颈鳞状细胞癌和宫颈腺癌 |
CHOL | Cholangiocarcinoma | 胆管癌 |
COAD | Colon adenocarcinoma | 结肠癌 |
DLBC | Lymphoid Neoplasm Diffuse Large B-cell Lymphoma | 淋巴肿瘤弥漫型大b细胞淋巴瘤 |
ESCA | Esophageal carcinoma | 食管癌 |
GBM | Glioblastoma multiforme | 胶质母细胞瘤 |
HNSC | Head and Neck squamous cell carcinoma | 头颈部鳞状细胞癌 |
KICH | Kidney Chromophobe | 肾嫌色细胞癌 |
KIRC | Kidney renal clear cell carcinoma | 肾透明细胞癌 |
KIRP | Kidney renal papillary cell carcinoma | 乳头状肾细胞癌 |
LAML | Acute Myeloid Leukemia | 急性髓性白血病 |
LGG | Brain Lower Grade Glioma | 脑低级别胶质瘤 |
LIHC | Liver hepatocellular carcinoma | 肝癌 |
LUAD | Lung adenocarcinoma | 肺腺癌 |
LUSC | Lung squamous cell carcinoma | 肺鳞癌 |
MESO | Mesothelioma | 间皮瘤 |
OV | Ovarian serous cystadenocarcinoma | 卵巢浆液性癌 |
PAAD | Pancreatic adenocarcinoma | 胰腺癌 |
PCPG | Pheochromocytoma and Paraganglioma | 嗜铬细胞瘤和副神经节瘤 |
PRAD | Prostate adenocarcinoma | 前列腺癌 |
READ | Rectum adenocarcinoma | 直肠腺癌 |
SARC | Sarcoma | 肉瘤 |
SKCM | Skin Cutaneous Melanoma | 皮肤恶性黑素瘤 |
STAD | Stomach adenocarcinoma | 胃腺癌 |
TGCT | Testicular Germ Cell Tumors | 睾丸生殖细胞瘤 |
THCA | Thyroid carcinoma | 甲状腺癌 |
THYM | Thymoma | 胸腺瘤 |
UCEC | Uterine Corpus Endometrial Carcinoma | 子宫内膜癌 |
UCS | Uterine Carcinosarcoma | 子宫癌肉瘤 |
UVM | Uveal Melanoma | 葡萄膜恶性黑色素瘤 |
细胞是用于获取基因与细胞与细胞来源的关系,用于查询基因有可能是哪些细胞的标记物。数据源是基于CellMarker数据库,PanglaoDB数据库和小G自己收集的单细胞数据集整合而成。
数据源:
CellMarker数据库:收录物种为人的所有信息。
PanglaoDB数据库:收录物种为人的信息,同时筛选具有表达的基因数据信息。
小G:收录的单细胞人的功能数据集,基于基因的表达值与细胞分群的结果构建。(目前占比很小,还在努力扩充中。)
标记物网络用语展示基因与细胞与基因的关系,展示在该基因的有关的细胞下,寻找同类细胞下与该基因可能有关的调控基因。数据基于基因的调控关系和基因的细胞关系整合而成。
标记物网络仅展示有相关基因存在的基因与细胞与基因的关系网络。
数据源:
基因与细胞关系:CellMarker数据库,PanglaoDB数据库和小G自己收集的单细胞数据集。
基因与基因的调控关系:依据kegg数据库(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组大百科全书)的基因上下游关系与蛋白数据库收集的有文献依据的相互作用关系。
本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!