基因雷达

单基因雷达产品说明

1.概述

每个基因的具体信息,都有多个数据库的支撑。GCBI统计了人类5万多基因在每个数据库被注释的情况,以此来反映单个基因在不同层面的信息。

2.科研热度

2.1介绍

根据基因在数据库中的注释情况,我们从相关文献、通路、功能、已验证的靶向miRNA、和疾病五个角度来统计和评价基因研究情况。

1.相关文献:依据Pubmed数据对文献对基因进行挖掘,统计包含基因的文献数。

2.通路:即根据kegg数据库(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组大百科全书),统计基因参与的通路的数量;

3.功能:即根据Go数据库(Gene Ontology,基因本体学数据库),统计基因参与的功能(生物过程)的数量。

4.已验证的靶向microRNA:已经有文献发表验证的miRNA的数量。

5.疾病:依据Pubmed数据对文献对基因和疾病进行挖掘,统计同时描述这个基因和疾病的文献数。

2.2 方法学

我们利用基因在数据库中注释的次数,除以该数据库注释最多的基因的数量,得到某个基因的权重值,根据权重值我们绘制了基因的雷达图。

权重值计算:

A基因的权重=A基因参与的功能数量/功能统计最高值

例如,基因FGFR1通路权重= FGFR1参与的通路数量8/MAPK1参与通路最多的数量67=0.12

中位数=该层面存在数据的基因计算权重后,去除0的中位数。

2.3 DEMO说明

3.相关疾病

3.1介绍

每篇文献都有关联的基因和疾病种类,疾病雷达就是根据文献内容,挖掘出基因与疾病的对应关系。

3.2 方法学

我们利用Mesh数据库中的疾病分类,从Pubmed数据库对基因在疾病中被报道的次数进行挖掘,绘制了基因报道次数最多的前20种疾病的柱状图。

3.3 DEMO说明

4.调控网络

4.1介绍

每个基因与基因之间都有非常多的调控关系,我们从基因相关的转录因子、miRNA、lncRNA和上下游相关基因的四个角度来展示基因与基因间的关系。

1.转录因子:已报到的相关转录因子;

2.miRNA:已报到的相关miRNA;

3.lncRNA:依据文献挖掘可能有关的lncRNA;(准确性较弱)

4.上下游相关基因:依据kegg数据库(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组大百科全书)的基因上下游关系。

5.蛋白互作:依据蛋白数据库收集的有文献依据的相互作用关系。

4.2 方法学

调控网络是依据基因在Pubmed,Mesh,KEGG等数据库中的对于基因相对应的其他基因的关系,从而构建基因的调控网络。

miRNA和转录因子都依据数据库提供的已经有文献报道的基因与miRNA或者转录因子的关系。

上下游相关基因为依据KEGG数据库(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组大百科全书)中的基因上下游关系提取而来。

蛋白关系是基于蛋白数据库收集的有文献依据的相互作用关系。

lncRNA为将文献经过Mesh数据库中的疾病名称进行过滤,通过对过滤然后文献的关键字进行挖掘所得到的对应关系。即只要一篇文献的挖掘出的关键字既有基因,又有lncRNA即判断这两者之间可能在某个疾病上具有一定程度的相关性(相关性较弱)。

4.3 DEMO说明

5.转录因子预测

5.1介绍

基于每个基因的转录本(Ensembl数据库GRCh38版本)对起始位点上游2000bp下游500bp通过Transfac数据库进行转录因子预测结果,获得对应转录本相关的转录因子结果。

5.2 方法学

预测评分:基于Transfac数据库的2个预测分值后的整合分值。(分值越接近于1可靠性越高)

区域是否存在甲基化位点:基于COSMIC数据库的甲基化信息对预测出来的转录因子的结合区域进行注释,判断该结合区域上是否存在甲基化位点。

区域是否存在SNP位点:基于dbSNP数据库的SNP信息对预测出来的转录因子的结合区域进行注释,判断该结合区域上是否存在SNP位点。

推荐度:依据Transfac数据库的预测分值和COSMIC数据库以及dbSNP数据库是否存在对应注释信息整合出推荐度;以推荐度来表示预测出来的转录因子的科研价值,推荐度越高越好。

5.3 DEMO说明

6.表达概况

6.1介绍

表达概况是基于TCGA的RNA-SEQv2数据中的标准化数据文件中的表达值进行直接使用(数据收集时间为2016年6月),来客观的展示基因在33种肿瘤的癌组织和正常组织的表达情况。

6.2 方法学

依据TCGA样本的barcode对于样本进行癌组织和正常组织的区分。

基于RNA-SEQv2数据所提供的每个样本基因层面的normalized_results文件中的表达值(normalized_count:upper quartile normalized RSEM count estimates)进行每组的平均值的计算和标准差的计算。

癌症简称对应全称:

疾病 全称 中文名
ACC Adrenocortical carcinoma 肾上腺皮质癌
BLCA Bladder Urothelial Carcinoma 膀胱尿路上皮癌
BRCA Breast invasive carcinoma 乳腺浸润性导管癌
CESC Cervical squamous cell carcinoma and endocervical adenocarcinoma 宫颈鳞状细胞癌和宫颈腺癌
CHOL Cholangiocarcinoma 胆管癌
COAD Colon adenocarcinoma 结肠癌
DLBC Lymphoid Neoplasm Diffuse Large B-cell Lymphoma 淋巴肿瘤弥漫型大b细胞淋巴瘤
ESCA Esophageal carcinoma 食管癌
GBM Glioblastoma multiforme 胶质母细胞瘤
HNSC Head and Neck squamous cell carcinoma 头颈部鳞状细胞癌
KICH Kidney Chromophobe 肾嫌色细胞癌
KIRC Kidney renal clear cell carcinoma 肾透明细胞癌
KIRP Kidney renal papillary cell carcinoma 乳头状肾细胞癌
LAML Acute Myeloid Leukemia 急性髓性白血病
LGG Brain Lower Grade Glioma 脑低级别胶质瘤
LIHC Liver hepatocellular carcinoma 肝癌
LUAD Lung adenocarcinoma 肺腺癌
LUSC Lung squamous cell carcinoma 肺鳞癌
MESO Mesothelioma 间皮瘤
OV Ovarian serous cystadenocarcinoma 卵巢浆液性癌
PAAD Pancreatic adenocarcinoma 胰腺癌
PCPG Pheochromocytoma and Paraganglioma 嗜铬细胞瘤和副神经节瘤
PRAD Prostate adenocarcinoma 前列腺癌
READ Rectum adenocarcinoma 直肠腺癌
SARC Sarcoma 肉瘤
SKCM Skin Cutaneous Melanoma 皮肤恶性黑素瘤
STAD Stomach adenocarcinoma 胃腺癌
TGCT Testicular Germ Cell Tumors 睾丸生殖细胞瘤
THCA Thyroid carcinoma 甲状腺癌
THYM Thymoma 胸腺瘤
UCEC Uterine Corpus Endometrial Carcinoma 子宫内膜癌
UCS Uterine Carcinosarcoma 子宫癌肉瘤
UVM Uveal Melanoma 葡萄膜恶性黑色素瘤

6.3 DEMO说明

7.细胞

7.1介绍

细胞是用于获取基因与细胞与细胞来源的关系,用于查询基因有可能是哪些细胞的标记物。数据源是基于CellMarker数据库,PanglaoDB数据库和小G自己收集的单细胞数据集整合而成。

7.2 方法学

数据源:

CellMarker数据库:收录物种为人的所有信息。

PanglaoDB数据库:收录物种为人的信息,同时筛选具有表达的基因数据信息。

小G:收录的单细胞人的功能数据集,基于基因的表达值与细胞分群的结果构建。(目前占比很小,还在努力扩充中。)

7.3 DEMO说明

8.标记物网络

8.1介绍

标记物网络用语展示基因与细胞与基因的关系,展示在该基因的有关的细胞下,寻找同类细胞下与该基因可能有关的调控基因。数据基于基因的调控关系和基因的细胞关系整合而成。

标记物网络仅展示有相关基因存在的基因与细胞与基因的关系网络。

8.2 方法学

数据源:

基因与细胞关系:CellMarker数据库,PanglaoDB数据库和小G自己收集的单细胞数据集。

基因与基因的调控关系:依据kegg数据库(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组大百科全书)的基因上下游关系与蛋白数据库收集的有文献依据的相互作用关系。

 

8.3 DEMO说明

 

 

 

 

 

本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!

热评文章

发表评论