博客

答疑呀嘿丨生信分析专题答疑时间来啦

每周固定的“答疑呀嘿”时间到!

本周是生物信息学分析专题答疑时间。感谢其明生信产品部的杨老师和创新中心的吴老师、王老师

你有什么问题?也欢迎在底部or后台留言提问哦。

Q1-生信分析

问:原始数据怎么预处理?就是拼接之前怎么处理得到的clean reads,预测gene功能之前,有没有去掉重复序列?

答:去掉测序的低质量序列(允许的最低测序质量是Q25。还有不知道的Q25意思的小伙伴可以直接戳:查看),保留最短长度为200bp。

寻找并去除测序序列的primer和barcode区域(Primer和barcode 序列的最大允许错配数分别为0和2。

然后根据barcode的值对处理好的序列进行样本的归类(如果出现barcode的错配,则选择最近的barcode,否则忽略不计)。

在我们预测gene功能之前,没有去掉重复序列;原因是有多copy基因,或者包含串联重复序列的基因,会被mask掉。

标准的分析流程,基因预测和重复序列鉴定,是完全独立的。

Q2-生信分析

问:常说的基因组注释是什么意思?

答:Genome annotation是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。

基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的位置。常见的基因组注释有GO注释、pathway分析。

Q3-生信分析

问:什么是GO注释、pathway分析?

答:GO注释:gene ontology是对基因功能的注释。GO强调基因产物在细胞中的功能。GO不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关,但GO支持其他的OBO(open biology ontologiest)成员成立其他类型的本体论数据库(如发育本体学、蛋白本体学、基因芯片本体学等)

pathway分析:是指对功能基因参与的信号通路等进行分析注释。

Q4GCBI分析实验室

问:你好,GCBI在线实验室和GEO2R计算差异基因的算法一致吗?

答:文章太长,欢迎移步GCBI学院的文章:差异基因筛选方法(网址:http://college.gcbi.com.cn/archives/1616)

Q5-生信分析

问:分析结果中实验组某一样本的表达值与同组差异较大,不在均线,质检合格,是测序还是样本处理有问题,或者其他问题?

答:如果样本是同一批次处理的,存在差别时,一般是因为样本准备的问题;其次在测序之前,可以通过抽提的RNA质量和文库质量来判定样本之间的差别。

Q6-生信分析

问:PCA分析 中,PC1与PC2分别是什么,如何分析得到的?

答:通常在PCA分析中,PC1指第一主成分,PC2指第二主成分,而在这里,指的是在将样本点(高维数据)投影到两个维度特征向量上的数据,用来考察样本的分布情况。

PCA分析的具体的步骤如下:

  1. 分别对多个变量(多维度)分别求平均值,然后对于所有的样例,都减去对应的均值。
  2. 求特征协方差矩阵
  3. 求协方差的特征值和特征向量。
  4. 将特征值按照从大到小的顺序排序,选择其中最大的k个特征值,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
  5. 将样本点投影到选取的特征向量上从而得到k个维度的坐标,比如我们做图得到的X轴坐标和Y轴坐标。

Q7-生信分析

问:网络图中最大的点代表什么意义?

答:首先要确定网络图中的点的面积是利用什么指标表示的。如果是利用Degree表示,说明在网络图中该点的相互作用关系最多。如果是利用betweenness centrality表示,说明网络图中该点的介导能力最强。

Q8-生信分析

问:small RNA分析需不需要参考基因组?

答:需要,因为新miRNA的预测必须要通过其前体形成的二级结构进行分析,没有参考基因组,则无法知道其前体可能的二级结构。或者,退而求其次的办法,至少需要提供相应的参考转录组信息,以转录本作为参考序列用于small RNA的分析。

之前每周四是“明信社”系列文章,现在每周四是“答疑呀嘿”时间。

有没有想念“明信社”系列的小伙伴?欢迎在下方留言。

 

本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!

热评文章

发表评论