高通量基因表达数据的预处理策略
2013-11-18 MedSci MedSci原创
一次微阵列实验能获得细胞在某一条件下的全基因组表达数据,包含成千上万个基因在细胞中的相对或绝对丰度,不同条件(细胞周期的不同阶段、药物作用时间、肿瘤类型、不同病人等)下的全基因组表达数据就构成了一个G×N的数据矩阵M,通常情况下G>>N,其中每一个元素 表示第 i 个基因在第 j 个条件下的表达水平值(在多数应用情况下,是 Ratio 值或 log(Ratio) ),行向量
一次微阵列实验能获得细胞在某一条件下的全基因组表达数据,包含成千上万个基因在细胞中的相对或绝对丰度,不同条件(细胞周期的不同阶段、药物作用时间、肿瘤类型、不同病人等)下的全基因组表达数据就构成了一个G×N的数据矩阵M,通常情况下G>>N,其中每一个元素 表示第 i 个基因在第 j 个条件下的表达水平值(在多数应用情况下,是 Ratio 值或 log(Ratio) ),行向量 代表基因 i 在 N 个条件下的表达水平,称为基因 i 的表达谱,列向量 代表某一条件下的各基因的表达水平。 (8-1) 对基因表达 数据进行聚类、分类等数据分析之前,往往需要进行预处理,包括对丢失数据进行填补、清除不完整的数据或合并重复数据等数据清洗,根据分析的目的进行数据过滤,以及针对分析方法选择合适的数据转换方法等。 数据清洗是数据分析前必须进行的一项工作,对于基因表达数据,目的是去除表达水平是负值或很小的数据、或者明显的噪声数据 ( 单个异常大或小的峰谷信号 ) ,同时处理缺失数据。 DNA 微阵列实验得到的数据一般是经过归一化处理的,每个点的信号强度是前景信号减去背景信号
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#处理策略#
36
#高通量#
0
#基因表达#
29