每周固定的“答疑呀嘿”时间到!
本周是生物信息学分析专题答疑时间。感谢其明生信产品部的杨老师和创新中心的吴老师、王老师。
你有什么问题?也欢迎在底部or后台留言提问哦。
Q1-生信分析
问:原始数据怎么预处理?就是拼接之前怎么处理得到的clean reads,预测gene功能之前,有没有去掉重复序列?
答:去掉测序的低质量序列(允许的最低测序质量是Q25。还有不知道的Q25意思的小伙伴可以直接戳:查看),保留最短长度为200bp。
寻找并去除测序序列的primer和barcode区域(Primer和barcode 序列的最大允许错配数分别为0和2。
然后根据barcode的值对处理好的序列进行样本的归类(如果出现barcode的错配,则选择最近的barcode,否则忽略不计)。
在我们预测gene功能之前,没有去掉重复序列;原因是有多copy基因,或者包含串联重复序列的基因,会被mask掉。
标准的分析流程,基因预测和重复序列鉴定,是完全独立的。
Q2-生信分析
问:常说的基因组注释是什么意思?
答:Genome annotation是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。
基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的位置。常见的基因组注释有GO注释、pathway分析。
Q3-生信分析
问:什么是GO注释、pathway分析?
答:GO注释:gene ontology是对基因功能的注释。GO强调基因产物在细胞中的功能。GO不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关,但GO支持其他的OBO(open biology ontologiest)成员成立其他类型的本体论数据库(如发育本体学、蛋白本体学、基因芯片本体学等)
pathway分析:是指对功能基因参与的信号通路等进行分析注释。
Q4-GCBI分析实验室
问:你好,GCBI在线实验室和GEO2R计算差异基因的算法一致吗?
答:文章太长,欢迎移步GCBI学院的文章:差异基因筛选方法(网址:http://college.gcbi.com.cn/archives/1616)
Q5-生信分析
问:分析结果中实验组某一样本的表达值与同组差异较大,不在均线,质检合格,是测序还是样本处理有问题,或者其他问题?
答:如果样本是同一批次处理的,存在差别时,一般是因为样本准备的问题;其次在测序之前,可以通过抽提的RNA质量和文库质量来判定样本之间的差别。
Q6-生信分析
问:PCA分析 中,PC1与PC2分别是什么,如何分析得到的?
答:通常在PCA分析中,PC1指第一主成分,PC2指第二主成分,而在这里,指的是在将样本点(高维数据)投影到两个维度特征向量上的数据,用来考察样本的分布情况。
PCA分析的具体的步骤如下:
Q7-生信分析
问:网络图中最大的点代表什么意义?
答:首先要确定网络图中的点的面积是利用什么指标表示的。如果是利用Degree表示,说明在网络图中该点的相互作用关系最多。如果是利用betweenness centrality表示,说明网络图中该点的介导能力最强。
Q8-生信分析
问:small RNA分析需不需要参考基因组?
答:需要,因为新miRNA的预测必须要通过其前体形成的二级结构进行分析,没有参考基因组,则无法知道其前体可能的二级结构。或者,退而求其次的办法,至少需要提供相应的参考转录组信息,以转录本作为参考序列用于small RNA的分析。
之前每周四是“明信社”系列文章,现在每周四是“答疑呀嘿”时间。
有没有想念“明信社”系列的小伙伴?欢迎在下方留言。
本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!