导读ChAMP分析甲基化芯片数据-差异分析上篇经过预处理之后的数据,就可以进行差异分析了。对于甲基化芯片而言,有两个方面的差异分析在 ChAMP 包中, champ.DMP 函数用于分析差异甲基化探...

今天运困体育就给我们广大朋友来聊聊广西甲基化芯片,希望能帮助到您找到想要的答案。

ChAMP分析甲基化芯片数据-差异分析上篇

ChAMP分析甲基化芯片数据-差异分析上篇

经过预处理之后的数据,就可以进行差异分析了。对于甲基化芯片而言,有两个方面的差异分析

在 ChAMP 包中, champ.DMP 函数用于分析差异甲基化探针, champ.DMR 函数用于分析差异甲基化区域。本章我们先看下差异探针的分析

champ.DMP 函数的用法示例

在差异分析时,我们需要两个输入数据,一个就是探针的表达谱数据,beta  matrix, 另外一个就是样本的分组信息。

在 champ.DMP 函数中,默认 myNorm 作为归一化之后的beta  matrix,对于样本的分组信息, ChAMP 默认从Samplesheet.csv文件中读取,在数据导入成功后, myLoad$pd 代表的就是SampleSheet.csv文件的信息,所以 myLoad$pd$Sample_Group 代表样本的分组信息。

在差异分析时,最关键的就是差异分组问题。在实验设计阶段,有很多类型的分组设计,比如最常见的case_vs_control, 两个group的分组;多个组织,比如3个组织,共3个group; 时间序列,比如药物处理后的几个时间点。不同的实验设计,在差异分析时,想要关注的差异点自然不同,在分析时也要采取不同的分析策略。

对于 ChAMP 来说,上述的几种分组设计都是支持。

champ.DMP 计算过程分为以下3步:

测试数据分成T和C两组,每组各4个样本、

在这一步,需要确定两个因素:

通过调用 limma 函数进行差异分析,默认通过 BH 方法进行多重建设检验的校正,p.adjust < 0.05 的认为是差异探针

可以通过 adjPVal 参数修改p.adjust的阈值,当然也可以修改 adjust.method 参数的值,调整多重假设检验校正的算法,默认值为 BH , 可选值包括 “none”, “BH”, “BY”, “holm”。

之前的分析都是针对探针的beta matrix 进行的分析,找的差异探针之后,我们肯定希望知道这个探针对应的基因,染色体位置等注释信息。这一步实际就是在已有的差异结果的基础上,追加探针的注释信息。

myDMP 就是最终的差异分析结果,是一个 list 对象,list中的每个元素是两个group之间差异分析的结果。

测试数据只有两个分组,所以list 中只有一个元素。差异分析的结果是一个 data.frame 对象,可以分成3个部分。

从 logFC 到 B 的部分是limma 差异输出结果, C_AVG 到 deltaBeta 是每组表达量的均值, deltaBate 是两组均值的差, CHR 到 Probe_SNPs_10 是探针的注释信息。

[甲基化问题锦集]

今天和大家聊聊甲基化。

问:什么是表观遗传修饰?

答:基因组表观遗传修饰主要包括DNA甲基化修饰与核小体中组蛋白的修饰等,使得被修饰DNA的空间结构发生改变或使染色体结构发生改变,导致基因的沉默或过度表达。这两种修饰都是在不改变DNA碱基种类与数量的前提下使生物体表型呈现出多样化。

问:什么是DNA甲基化?

答:DNA甲基化是指在DNA 甲基化转移酶的作用下,将甲基选择性地添加到胞嘧啶上形成5’-甲基胞嘧啶的过程。

问:DNA甲基化修饰有什么作用?

答:DNA甲基化是最早发现的一种表观遗传修饰,可能存在于所有高等生物中, 它并不改变基因的碱基序列, 而是通过改变基因的表达影响细胞的功能,与基因沉默、X染色体失活、基因组印记、RNA i以及肿瘤等生物事件密切相关,它们的共同作用机制是调节基因的表达。

问:不同生物,DNA甲基化类型是一样的吗?

答:当然不一样啦。原核生物中甲基化多发生在CCA/TGG和GATC序列,而真核生物中DNA甲基化一般只发生在CpG位点上,哺乳动物DNA甲基化只发生在CpG岛的胞嘧啶,植物甲基化发生在CpG和CpNpG。

问:什么是CpG岛?

答:CpG双核苷酸在人类基因组中的分布很不均一,而在基因组的某些区段CpG序列密度很高,可达到均值5倍即所谓的CpG岛。CpG岛主要位于基因的启动子(promotor)和第一外显子区域,约有60%基因的启动子含有CpG岛。CpG岛的GC含量大于50%,经常出现在真核生物的编码基因的调控区。

问:CpG岛为什么要有个"p",而不叫CG岛?p有什么特殊含意?

答:CpG是胞嘧啶-磷酸-鸟嘌呤的缩写,p代表磷酸。

问:如何预测CpG岛?

答:由于CpG 岛区域较小,研究起来更为方便,因此,众多的研究热点集中在CpG 岛甲基化状态的研究上。而研究CpG岛甲基化的前提条件是确认最合适的CpG 岛区域。

目前有一些网站可以进行CpG岛的预测,我推荐几个比较好用的:

CpG Island( )

CpGfinder( )

CpG islands revealing( )

CpGPlot/CpGReport/Isochore( )

然后用实验证实,可以用bisulfite sequencing来比较处理前后的不同,找到甲基化位点。

问:验证特定甲基化位点,并进行甲基化程度分析有哪些方法?

答:采用对照组和实验组样本进行甲基化验证。

(1) MSP方法:可进行特定位点甲基化验证,适用于甲基化芯片后的结果,无法进行甲基化程度分析;

(2) BSP克隆测序法:验证某些相关基因的甲基化位点,并精确计算出甲基化程度百分比;

(3) HRM法:适用于大批量样本甲基化验证,并能计算出甲基化程度范围。

(4) 焦磷酸测序:测序有效长度不超过60bp,精确定量每一个CpG位点。

(5) MassARRAY® 平台:用于单个基因启动子区域的甲基化检测;每个反应覆盖长达500 bp的多个CpG位点; 精准定量每一个CpG位点。

问:刚刚开始研究甲基化,如何寻找甲基化位点?

答:甲基化的研究是近年来较为火热的研究领域之一,您是不是也对它垂涎已久,却苦于无从下手?其实甲基化的研究并没那么难,一句话,还是套路!

首先,甲基化位点的筛选,可以使用全基因组Bisulfite测序(WGBS)、简化基因组甲基化测序(MethylRAD技术)或者甲基化芯片进行基因组整体水平甲基化检测,每种方法各有利弊,要根据实际的研究方向选择不同的方法。对于样品间差异甲基化位点的筛选,可以采用WGBS和MethylRAD技术,其中MethylRAD技术可以应用于无参考基因组的物种,Illumina Methylation EPIC芯片只能用于人类的DNA甲基化水平检测。当然也可以根据一些相关研究显示某些基因存在表达量降低的现象,预测该基因是否存在CpG岛;或者根据文献寻找相关基因的甲基化位点。

其次,对选择的特异位点进行甲基化验证,并进行甲基化程度分析。

最后,根据对照组和实验组样本的检测结果,分析甲基化位点与研究的相关性。

问:只知道基因名称,如何做甲基化检测?

答:只需要将物种及基因信息告知相应或测序公司,会为您提供全方位的检测服务。

原文: 甲基化问题锦集

450k甲基化基础(一)

DNA甲基化是表观遗传学的中最为常见的一种修饰,其主要形式包括:5-甲基胞嘧啶 (5-mC)、少量的N6-甲基腺嘌呤 (N6-mA) 以及7-甲基鸟嘌呤(7-mG)。

目前常说的DNA甲基化一般指 CpG岛甲基化 ,即在 DNA甲基化转移酶(DNMTs) 的作用下使CpG二核苷酸5’端的 胞嘧啶 转变为 5’甲基胞嘧啶 。

哺乳动物体细胞的DNA胞嘧啶甲基化主要发生在 CpG岛

CpG岛(CpG islands) :指CpG序列密度相比整个基因组来说是特别高的富集区域,一般位于 启动子附近 , 5’端非翻译区 或 第一个外显子 ;一般CpG岛序列长度在 500bp , GC含量高于55%以及CpG出现比率大于0.65 ,40%的启动子区域含有CpG岛。

CpG shores 指距CpG岛边缘 2kb 的区域

CpG shelves 是指距CpG岛边缘 4kb 的区域

哺乳动物中的非CpG甲基化主要是发生在胚胎发育阶段和脑组织中

基因组中60%-90%的CpG都被甲基化,未甲基化的CpG形成CpG岛,位于 结构基因启动子的核心序列和转录起始点

一般来说,DNA甲基化主要作用在于调控基因的表达,即 基因启动子区域CpG岛的甲基化水平越高 , 其对应基因的表达水平就相对越低 ;DNA甲基化受到 甲基化酶 (如DNMT3A)和 去甲基化酶 (TET2)的调控。

除了CpG岛的甲基化水平的变化会导致肿瘤的发生外,CpG shores and shelves的异常甲基化也会导致其基因转录水平的抑制

甲基化芯片的原理是 基于亚硫酸盐处理后的DNA序列杂交的信号探测 ,亚硫酸盐处理是将 非甲基化的胞嘧啶变成尿嘧啶 ,而 甲基化的胞嘧啶则保持不变 ,然后 再将尿嘧啶转化为胸腺嘧啶 ,最后进行 芯片杂交 ;

Illumina的450K芯片采用两种assay:Infinium I和Infinium Ⅱ,前者有两种bead(微珠),分别是甲基化M和非甲基化U,后者则是一种bead(不区分甲基化和非甲基化)。

以及下面这张图,注:左边一列是非甲基化的GpC locus,右边是甲基化的GpC locus,上下分别是Infinium I 和Infinium Ⅱ

探针是以甲基化位点为单位的,每个探针对应检测一个甲基化位点。为了能够区分甲基化位点和非甲基化位点,在450K 和 850K中,有两种类型的探针,分别叫做I 型探针和 II 型探针

对于human 来说,目前主流的DNA甲基化芯片有450K 和 850K 两种,都是illumina 公司研发的。这里的450K 和 850K 指的是芯片上探针的数量,对应可以检测的甲基化位点个数。

—————————————————————————————————————

对于亚硫酸氢盐处理的DNA ,非甲基化的C会变成T , 而甲基化的C不会变。

对于I 型探针而言,有两种序列,专业名词叫做bead type, 其中Unmethylated bead type 用来和非甲基化的C杂交,Methylated bead type 用来和甲基化的C杂交。

对于human而言,主流的DNA甲基化芯片有450K和850K两种,这两个数字代表覆盖到的甲基化位点的个数,是一个约数;

甲基化芯片上混合使用了I 型探针和II 型探针,I 型探针通过两个bead type 分别识别甲基化的C和非甲基化的C,II 型探针通过1个bead type 就可以区分甲基化的C和非甲基化的C。

一、Illumina HumanMethylation450 BeadChip (甲基化450k芯片)简介

450K芯片的芯片图形及其原理可以以下图展示

1、芯片:一张芯片包括12个array(如图显示),也就是一张芯片可以做12个sample,一台机子一次可以跑8张芯片,也就是一共96个sample,每个样本可以测到超过450,000个CpG位点的甲基化信息(大概人所有的1%,但是覆盖了多数CpG岛和启动子区),芯片本身包含一些控制探针可以做质控。

2、原理:简而言之,基于亚硫酸盐处理后的DNA序列杂交的信号探测。亚硫酸盐是甲基化探测的“金标准”,不管是芯片或者甲基化测序,都要先对DNA样品进行亚硫酸盐处理,使非甲基化的C变成U,而甲基化的C保持不变,从而在后续的测序或者杂交后区分出来。450K采用了两种探针对甲基化进行测定,Infinium I采用了两种bead(甲基化M和非甲基化U,如图显示),而II只有一种bead(即甲基化和非甲基化在一起),这也导致了它们在后续荧光探测的不同,450K采用了两种荧光探测信号(红光和绿光)。

二、分析需要考虑的问题

1、背景校正

2、红光和绿光的校正

3、控制芯片的使用(illumina450K本身有一些控制芯片,可以用来做质控,如亚硫酸盐处理效率)

4、探针类型(I型和II型)的校正(不同探针类型产生的数据不同)

最终我们选择BMIQ的方法(基于ebayes的原理将II型探针的甲基化水平拉伸到I型水平)来做矫正。

5、位置的校正(芯片上的不同位置产生的数据可能会有偏差)

6、批次的校正(不同的批次做的数据会有偏差)

7、探针序列本身是否可靠(有些探针本身位于repeat区或者包含snp等就会影响杂交及最后的结果,应该去除,附上一片参考文献,里边有list可以用来去除不好的探针)

平均β=信号B /(信号A +信号B + 100)

通过计算甲基化(信号A)和未甲基化(信号B)等位基因之间的强度比来确定DNA甲基化水平(β值)。

具体地,β值是由甲基化(M对应于信号A)和未甲基化(U对应于信号B)等位基因的强度计算的,荧光信号的比率β= Max(M,0)/ [Max( M,0)+ Max(U,0)+ 100]。

因此,β值的范围从0(完全未甲基化)到1(完全甲基化)

具体的β值的意义是:

任何等于或大于0.6的β值都被认为是完全甲基化的。

任何等于或小于0.2的β值被认为是完全未甲基化的。

β值在0.2和0.6之间被认为是部分甲基化的。

参考:

认识甲基化

人的甲基化、基因结构、启动子的一些概念 - (jianshu.com)

1> 染色体

2> 转录本:1stExon 3'UTR 5'UTR Body IGR TSS1500 TSS200

3> 基因组:Coding Non-coding Intergenic

4> CpG岛:island opensea shelf shore

甲基化芯片注释中的CpG shores, open sea 是什么 - (jianshu.com)

表观遗传学: DNA甲基化 - (jianshu.com)

甲基化芯片的一般分析流程 - 知乎 (zhihu.com)

甲基化芯片数据的差异分析 - (jianshu.com)

甲基化套路

和甲基化有关的。

可以先了解下甲基化:

450k甲基化基础

450K甲基化芯片数据处理传送门

450k甲基化芯片常用工具包:ChAMP和minfi等。

甲基化的一些预备知识

甲基化程度的量化

DMP(或DML,差异甲基化位点)与 DMR(差异甲基化区域)的关系。如何定义DMR?

一般来说,DMR是通过统计bump来计算出来的,可以参考: ChAMP 分析甲基化芯片数据-差异分析下篇

一般来说,我们还会关注两个方面的信息:DMR与CpG岛的关系,DMR与基因的关系。

DMR与CpG岛的关系:图片来自 ShengXinRen

关于DMR或DMP与基因的关系(笔者特别关注甲基化位点的功能注释),简要总结如下。

一般而言,启动子区域的甲基化程度影响基因的转录(但也有报道说第一外显子等位置的甲基化也与基因的转录相关)。如何描述一个基因的转录相关的甲基化程度呢?

有个论坛上是这么说的( ShengXinRen ):

也有人总结如下:

以及这种说法( ):

另外,补充一个知识( “启动子预测”技能 ):

感觉暂时并没有统一的标准。

可以自己尝试各种界定标准:

1、 TSS上游1500bp、2000bp、5000bp内的甲基化位点的平均值;

2、 TSS上游及下游1500bp、2000bp、5000bp内的甲基化位点的平均值;

3、 TSS上游1500bp、2000bp、5000bp内或5-UTR或第一外显子的甲基化位点平均值。

考虑5000是因为CpG岛的加上两边的Shore一般可达到6kb左右。注意到,5-UTR是第一外显子的一部分。有时候甚至还可以加上是否为CpG岛(或Shore)这个限定。

下图来自: 彻底搞清楚promoter, exon, intron, and UTR

3.4分,简单的肠癌甲基化分析。主要涉及差异分析、关联分析、功能注释。

解读: 如何从甲基化入手,轻松整篇预后标志物的文章

1、 数据质控 :共485,577个基因座的DNA甲基化数据,在预处理数据和质量控制后,保留了467,971个探针。

2、 差异筛选 :minfi包筛选DMR(差异化甲基化区域),这一步类似于RNA-Seq的筛选差异基因。结果:最终得到675个差异甲基化区域,其中654个上调。

3、 注释和功能

3-1 DMR的注释 :这些DMR区域与基因的关系是什么呢?我们利用这些差异甲基化区域的位置与基因的各个元件位置的关系,观察这些差异甲基化区域主要分布在基因的哪些位置上。结果:上调的甲基化区域大多数位于基因的第一外显子,5'UTR,TSS200,TSS150和基因体中,而只有少数UMR位于基因间和3'UTR中区域,同样的下调的甲基化区域也有相同的现象。

3-2 DMR与CpG岛的关系 :差异甲基化区域与CpG岛的关系如图,从中可以看出上调的差异甲基化区域主要聚集在CpG岛区域,而下调的差异甲基化区域主要聚集在低CpG岛密度区域。

总结:

在本研究中,在大量COAD样品中进行了DNA甲基化谱的综合分析,以研究COAD中存在的改变的DNA甲基化模式。COAD样品和邻近组织样品之间的DNA甲基化谱的比较揭示了COAD样品中异常的DNA甲基化变化,并导致675个DMR的鉴定,包括654个高甲基化和21个低甲基化DMR。这些结果与先前的研究结果一致,即DNA高甲基化是结直肠癌的常见特征。

此外,这些DMR可用于有效区分COAD样品和相邻组织样品,这表明DMR可能在COAD的形成中具有致病作用。基因组分析显示,DMR主要位于启动子区域(包括第1 外显子,5'UTR和TSS)和体区,这与之前在其他类型癌症中的观察结果一致。在基因间和 3'UTR 区域中仅发现了一小部分DMR。此外,大多数高甲基化DMR位于CpG岛中,而大多数低甲基化DMR不位于CpG岛或注释基因中。

甲基化知识点

所以首先需要搞清楚什么是表观修饰,表观遗传学,以及为什么关注DNA甲基化这其中一种表观修饰!

表观遗传修饰是指对基因组功能的相关修饰,通过一系列生物学修饰改变基因的活性而不是DNA的核苷酸序列影响基因的表达。对基因组功能的相关修饰主要包括对**DNA、RNA、以及组蛋白等的修饰,这些修饰改变了染色质的局部电化学特性和构象,从而调节基因的转录活性。

其中对 组蛋白修饰 主要是究方法通常是chip-seq技术,我们已经在生信技能树发布了系统性的chip-seq教程,这里就不再赘述。组蛋白是染色质的重要组成部分,主要分为H2A、H2B、H3、H4,与DNA缠绕可形成核小体。 组蛋白修饰 是在组蛋白N末端的氨基酸残基上发生的共价修饰,主要包括甲基化、乙酰化、泛素化、磷酸化、羰基化、糖基化等。

DNA甲基化 是表观遗传学领域一个重要的研究方向,真核生物中最常见的DNA修饰非 5-甲基胞嘧啶(5mC) 莫属了,然而在原核生物中最常见的DNA修饰方式则为 N6-methyladenine (6mA) ,即腺嘌呤第6位氮原子甲基化修饰。

人类是真核生物 ,所以当然是5mC的DNA甲基化形式的检测咯。人的参考基因组约30亿碱基,上面不到1%是 CpG位点,可以被甲基化,也就是说不到3千万个 CpG 位点。这些 CpG 位点中,大约 60~80% 被甲基化。主要是而启动子等特殊区域存在 未被甲基化的CpG 岛,那些区域的CpG 位点比较富集。目前研究表明,肿瘤细胞的甲基化水平平均是低于正常细胞的。

亚硫酸盐是甲基化探测的“金标准”,不管是芯片或者甲基化测序,都要先对DNA样品进行亚硫酸盐处理,使非甲基化的C变成U,而甲基化的C保持不变,从而在后续的测序或者杂交后区分出来。

关于DNA甲基化检测手段介绍,我觉得 Make Decision: DNA甲基化检测方法,哪一款适合你? 写的就足够好了。同样的,早期研究以芯片为主,从成本的角度来看,也是芯片为主,但是测序数据更丰富。

可选的甲基化芯片产品就少很多,绝大部分是illumina公司产品的,从27K到450K到850K甲基化芯片。比较好的介绍是:Illumina 琪先生 2018-07-17的 一文了解 MethylationEPIC 850K 甲基化芯片

Infinium MethylationEPIC BeadChip芯片包含了原先的Infinium Methylation450 BeadChip芯片90%的内容,这种选择可提供一种广泛、全面的甲基化组图谱。而且还靶定了ENCODE计划中确定为潜在增强子的区域,还有FANTOM5计划在各种组织类型中确定出的增强子。详细如下:

Infinium MethylationEPIC BeadChip芯片的数据分析是由GenomeStudio Methylation Module模块所支持,让研究人员能够对小规模研究开展差异甲基化分析。GenomeStudio软件2011.1版特有高级可视化工具,让研究人员能够在单幅图中查看大量的数据,如热图、散点图和线图

甲基化检测方法多达上百种,哪怕是基于NGS的测序技术,也有BS-Seq、MeDIP-Seq、RRBS-Seq、WGBS、MBD-Seq、SMRT 等,我发现 何聪聪 诺禾科服 2016-09-10 介绍的比较齐全,摘抄送给大家,原文在: DNA甲基化研究方法速递

我们我们介绍甲基化测序数据的一般分析流程的时候,主要是针对WGBS技术的数据。

BS-Seq(亚硫酸氢盐测序)有两个缺点:

针对这两个缺陷,科研界一直在尝试研发改进方法。

复旦大学于文强教授团队开发出了一种新的全基因组检测的方法 GPS。该方法利用 T4DNA 聚合酶的 3′-5′外切酶活性和 5′-3′聚合酶活性,使得双端测序的一端是基因组原序列,另一端是转化后的表观序列。该方法极大提高了比对效率和准确性。

当然了,也是可以用低通量手段,专注 特异性位点甲基化检测 ,有:

比如发表在BMC Med. 2009 Oct 的文章Genomic and epigenetic evidence for oxytocin receptor deficiency in autism.里面Gregory等研究者通过 亚硫酸氢盐测序 的方法对119例ASD患者和119名健康人进行了DNA甲基化分析,分析了与调节OXTR表达相关的CPG在外周血和颞叶皮质的甲基化水平,发现ASD患者的CPG甲基化水平在外周血和颞叶皮质均较健康人明显升高。这个研究里面的bisulfite sequencing (BSS)就是低通量,仅仅是关注感兴趣的基因而已:

生物学意义,通常是建议大家看教科书吧,DNA甲基化是最早被发现的表观遗传修饰途径之一,参与许多重要的细胞过程,如基因组印记、X染色体灭活、转录抑制、胚胎发育等,与精神分裂症、Rett综合征、肿瘤等多种疾病的发生和发展密切相关。

尤其是我感兴趣的肿瘤中普遍存在DNA甲基化状态的改变,其特点是总体甲基化水平的降低与局部甲基化水平的升高。在肿瘤细胞中,癌基因处于低甲基化状态而被激活,抑癌基因处于高甲基化状态而被抑制。

比如: DNA甲基化与肿瘤风险预测

再比如: DNA甲基化推进脑肿瘤的精准分型

还有番茄,玉米的研究,大家自行检索深入学习哦。

当然,更值得一读的是2018年5月, Nature Reviews Molecular Cell Biology 发表的中国科学院上海植物逆境生物学研究中心 朱健康 研究员、 张惠明 研究员与 郎曌博 研究员共同完成的题为“Dynamics and function of DNA methylation in plants”的综述文章。 系统的讨论了植物中DNA甲基化过程。

人体内,DNA甲基转移酶主要有四种:DNMT1、DNMT3A、DNMT3B和DNMT3L。

因为药物研发也不是我的领域,这里略~~~

随着高通量生物技术(芯片、测序技术)的不断更新发展,高通量的DNA甲基化数据不断涌现,一些大型国际合作的生物大数据计划产生了Pb(petabyte)数量级的甲基化谱。由多个国家和地区的研究机构组成的“国际人类表观基因组同盟”(International Human Epigenome Consortium,简称IHEC)为了研究与人类健康和包括癌症在内的复杂疾病相关的细胞状态产出了超过1000个表观基因组的数据

摘自:

今天的内容先分享到这里了,读完本文《广西甲基化芯片——ChAMP分析甲基化芯片数据-差异分析上篇》之后,是否是您想找的答案呢?想要了解更多,敬请关注www.zuqiumeng.cn,您的关注是给小编最大的鼓励。