基础科研

三点轻松搞定GEO数据上传

做芯片或测序相关实验,发表文章有时需将数据上传至GEO,获得相应的ID号。那如何上传呢?今天小编在这里给大家整理了一份操作指南
GEO简介
GEO,Gene Expression Omnibus的简称,是NCBI旗下的一个分支数据库,其主要存储高通量功能基因组学数据,如芯片和测序的数据。
GEO分为GEO DataSets数据库和GEO Profiles数据库,GEO DataSets 收录整个试验的数据GEO Profiles则收录一个基因在一次试验中的定量表达数据
接受数据类型:原始数据或者经过处理的数据(符合“有关芯片试验的最小信息(minimum information about a microarray experiment,MIAME)”标准)戳原文获MIAME.pdf

存储数据格式:web格式、spreadsheets格式、XML格式和纯文本格式
上传步骤
那具体如何上传呢?
很简单,准备三样东西即可,注册一个上传的账号在GEO上下载一份信息填写模板最后将表格和你的原始数据打包上传即可,流程图如下:
                                             
 
下面我们来看看具体如何操作。 
1.登录或注册NCBI账号
https://www.ncbi.nlm.nih.gov/
NCBI支持第三方账号登陆,可用google或NIH账号等。
2.获取GEO account
上传数据除了NCBI账号,还需另外获取一个GEO account。若3个月之内没有数据上传,则GEO账号会被删除。
登陆GEO数据库,https://www.ncbi.nlm.nih.gov/geo/,在上传者信息板块中点击登陆,填写相关信息,获取GEO账号。
默认数据上传者和注册者为同一个人,若不是,可将上传者的信息填于右侧信息栏中。
3.下载信息表格模板
登陆账号后,上传者信息栏如下所示,点击上传指南进入上传界面。
 
上传界面如下所示,若首次上传,可在GEOarchive下的complete instructions中查看上传所需文档的详细解释。
根据自己试验平台在数据类型中选择相应类型,如点击Affymetrix进入affy芯片提交指南。
Affy芯片提交界面如下图所示,第一个红框中列出了上传所需要的文件列表,matadata表, processed表(matrix表)及CEL格式的原始数据
matadata表和matrix表是表格中的两个子表,在下方即可下载但需根据芯片类型选择相应的表格。不知如何选的可后台留言咨询。
4.表格填写
信息表格填写是最重要也是最费时的一步,GEO为方便广大用户,每一栏都有相应的注释信息,并在后面附有示例表格作为参考。
metadata表,主要填写跟文章相关的样本信息和实验信息。matrix表,将项目中归一化数据复制粘贴进去即可。
metadata表
matrix表
 
在metadata表中的sample板块,填写芯片名字或GEO platform ID可回到GEOarchive界面的complete instructions中进行查找。
平台信息
 
5.打包上传
将填好的表格和原始数据打包,重命名进行上传,选择上传类型及数据公开时间
6.审核
上传成功或者数据有问题GEO都会以邮件的形式进行通知。一般约2,3个工作日,经审核数据没有问题,GEO会以邮件形式通知数据的GSM(实验样本编号)、GSE(研究项目编号)。上传成功后,还需发一份邮件到GEO,说明你是要正式发布数据的,在邮件中说明上传账号、数据包名称、打包文件列表及原始数据列表。有任何疑问都可以发邮件给geo@ncbi.nlm.gov。资料附件:MIAME.pdf

本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!

热评文章

评论:

1 条评论,访客:0 条,博主:0 条
  1. 引用: 胶管

发表评论