答疑呀嘿丨生信分析专题答疑时间来啦

其明技术专家博客, 基础科研 2018年9月29日

3.84K 0 0

每周固定的“答疑呀嘿”时间到！

本周是生物信息学分析专题答疑时间。感谢其明生信产品部的杨老师和创新中心的吴老师、王老师。

你有什么问题？也欢迎在底部or后台留言提问哦。

Q1－生信分析

问：原始数据怎么预处理？就是拼接之前怎么处理得到的clean reads，预测gene功能之前，有没有去掉重复序列？

答：去掉测序的低质量序列（允许的最低测序质量是Q25。还有不知道的Q25意思的小伙伴可以直接戳：查看），保留最短长度为200bp。

寻找并去除测序序列的primer和barcode区域（Primer和barcode 序列的最大允许错配数分别为0和2。

然后根据barcode的值对处理好的序列进行样本的归类（如果出现barcode的错配，则选择最近的barcode，否则忽略不计）。

在我们预测gene功能之前，没有去掉重复序列；原因是有多copy基因，或者包含串联重复序列的基因，会被mask掉。

标准的分析流程，基因预测和重复序列鉴定，是完全独立的。

Q2－生信分析

问：常说的基因组注释是什么意思？

答：Genome annotation是利用生物信息学方法和工具，对基因组所有基因的生物学功能进行高通量注释，是当前功能基因组学研究的一个热点。

基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的位置。常见的基因组注释有GO注释、pathway分析。

Q3－生信分析

问：什么是GO注释、pathway分析？

答：GO注释：gene ontology是对基因功能的注释。GO强调基因产物在细胞中的功能。GO不能反映此基因的表达情况，即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关，但GO支持其他的OBO（open biology ontologiest）成员成立其他类型的本体论数据库（如发育本体学、蛋白本体学、基因芯片本体学等）

pathway分析：是指对功能基因参与的信号通路等进行分析注释。

Q4－GCBI分析实验室

问：你好，GCBI在线实验室和GEO2R计算差异基因的算法一致吗？

答：文章太长，欢迎移步GCBI学院的文章：差异基因筛选方法（网址：http://college.gcbi.com.cn/archives/1616）

Q5－生信分析

问：分析结果中实验组某一样本的表达值与同组差异较大，不在均线，质检合格，是测序还是样本处理有问题，或者其他问题？

答：如果样本是同一批次处理的，存在差别时，一般是因为样本准备的问题；其次在测序之前，可以通过抽提的RNA质量和文库质量来判定样本之间的差别。

Q6－生信分析

问：PCA分析中，PC1与PC2分别是什么，如何分析得到的？

答：通常在PCA分析中，PC1指第一主成分，PC2指第二主成分，而在这里，指的是在将样本点(高维数据)投影到两个维度特征向量上的数据，用来考察样本的分布情况。

PCA分析的具体的步骤如下：

分别对多个变量(多维度)分别求平均值，然后对于所有的样例，都减去对应的均值。
求特征协方差矩阵
求协方差的特征值和特征向量。
将特征值按照从大到小的顺序排序,选择其中最大的k个特征值，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
将样本点投影到选取的特征向量上从而得到k个维度的坐标，比如我们做图得到的X轴坐标和Y轴坐标。

Q7－生信分析

问：网络图中最大的点代表什么意义？

答：首先要确定网络图中的点的面积是利用什么指标表示的。如果是利用Degree表示，说明在网络图中该点的相互作用关系最多。如果是利用betweenness centrality表示，说明网络图中该点的介导能力最强。

Q8－生信分析

问：small RNA分析需不需要参考基因组？

答：需要，因为新miRNA的预测必须要通过其前体形成的二级结构进行分析，没有参考基因组，则无法知道其前体可能的二级结构。或者，退而求其次的办法，至少需要提供相应的参考转录组信息，以转录本作为参考序列用于small RNA的分析。

之前每周四是“明信社”系列文章，现在每周四是“答疑呀嘿”时间。

有没有想念“明信社”系列的小伙伴？欢迎在下方留言。

本文由 GCBI学院作者：其明技术专家发表，转载请注明来源！

博客

答疑呀嘿丨生信分析专题答疑时间来啦

其明技术专家

相关文章

教大家如何做一篇meta-2

期刊推荐丨只提交了单细胞实验数据，竟然就发5分？！

网状meta必备技能1-从网页获取数据

热评文章

最赞的文章

发表评论取消回复

博客