导读关于mRNA上的m6A富集分析文献解读答我今天给大家带来一篇2012年cell杂志发表的 关于 m6A在mRNA上富集的综合分析 文献解读和文献中研究方法的介绍。 Comprehensive Analysis of mRNA Methylation Reve...

今天运困体育就给我们广大朋友来聊聊陕西甲基化磁珠性能,希望能帮助到您找到想要的答案。

关于mRNA上的m6A富集分析文献解读

关于mRNA上的m6A富集分析文献解读

我今天给大家带来一篇2012年cell杂志发表的 关于 m6A在mRNA上富集的综合分析 文献解读和文献中研究方法的介绍。

Comprehensive Analysis of mRNA Methylation Reveals Enrichment in 3' UTRs and Near Stop Codons

作者首先通过dot blot的方法验证m6A抗体是否能与RNA上的m6A产生免疫反应,先分别将m6A修饰的寡聚核苷酸和非修饰的寡聚核苷酸点在尼龙膜上,然后用m6A抗体进行免疫反应,再将m6A修饰的寡聚核苷酸点在膜上,用于免疫反应的m6A抗体分别用不同浓度的修饰RNA和非修饰的RNA竞争结合后与膜上的m6A修饰的RNA进行免疫反应,说明该m6A抗体只和m6A修饰的RNA产生免疫反应。

图注:A是不同浓度的M6A修饰和未修饰的RNA与m6A抗体的免疫反应,B是用M6A修饰的RNA和未修饰的RNA与膜上的M6A修饰的RNA竞争性结合m6A抗体,表明m6A抗体与m6A修饰的RNA结合而与未修饰的RNA不结合。

随后作者通过检测不同组织中m6A说明神经组织的RNA甲基化比其他组织高,并且在整个大脑发育过程中m6A含量丰富。作者用寡聚核苷酸(dT)进行RNApull-down钓取细胞Mrna后用m6A抗体进行免疫检测说明mRNA的甲基化,然后通过寡聚核苷酸(dT)杂交获取的mRNA用RNaseH(一种降解polyA尾的RNA水解酶)处理后再进行免疫检测说明Mrna的m6a修饰不是在poly(A)尾上。

图注:A是小鼠不同组织RNA的m6A检测,B是小鼠生长不同阶段的大脑组织RNA的m6A检测,C是用寡聚核苷酸Dt序列钓取细胞的mRNA然后检测m6A,D是钓取的Mrna用RnaseH去除Mrna的poly(A)尾后检测m6A。

为了检测RNA上的m6A,作者通过MeRIP先将细胞总RNA片段化为大约100bp左右,用m6A抗体钓取细胞含m6A的RNA片段,然后进行高通量测序分析m6A的位置,表明大部分的m6A在mRNA的3’端。随后作者用其中的Ldlr mRNA的反向互补序列作为探针钓取细胞的Ldlr mRNA进行m6A的免疫反应验证。

图注:A为MeRIP-Seq的数据分析中mRNA甲基化的信息,B为Ldlr mRNA的RNA-RNApull-down后进行m6A免疫检测验证Ldlr mRNA甲基化。

MeRIP-Seq数据分析表明m6A集中在在motif G[AG]ACU和其变体[AC]GAC[GU],GGAC, [AU][CG]G[AG]AC上,并且在U-rich的motif上几乎不含m6A。

先将m6A修饰的RNA固定在尼龙膜上,然后用m6A抗体进行免疫反应,分别用m6A修饰的RNA和未修饰的RNA作为m6A抗体的竞争结合探针,在加入m6A修饰的RNA时,随着加入的RNA量增加,抗体与膜上的RNA反应降低;而加入非修饰的RNA时,抗体与膜上的RNA反应不受影响

MeRIP-Seq实验方法:先将提取的细胞总RNA进行片段化处理,然后与m6A抗体一起孵育,再用磁珠吸附m6A抗体与m6A-RNA的复合体,洗脱的RNA片段进行高通量测序。

作者用Ldlr mRNA的互补序列探针进行pull-down实验钓取细胞的Ldlr Mrna,然后用m6A抗体进行WB检测pull-down产物,表明Ldlr Mrna上含有m6A富集。CTL探针的pull-down产物作为对照。

测序相关知识总结

高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。

Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。

全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。

de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

转录组学(transcriptomics)是在基因组学后新兴的一门学科,即研究特定细胞在某一功能状态下所能转录出来的所有RNA(包括mRNA和非编码RNA)的类型与拷贝数。Illumina提供的mRNA测序技术可在整个mRNA领域进行各种相关研究和新的发现。mRNA测序不对引物或探针进行设计,可自由提供关于转录的客观和权威信息。研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA完整序列信息,并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。简单的样品制备和数据分析软件支持在所有物种中的mRNA测序研究。

Small RNA(micro RNAs、siRNAs和 pi RNAs)是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。Illumina能够对细胞或者组织中的全部Small RNA进行深度测序及定量分析等研究。实验时首先将18-30 nt范围的Small RNA从总RNA中分离出来,两端分别加上特定接头后体外反转录做成cDNA再做进一步处理后,利用测序仪对DNA片段进行单向末端直接测序。通过Illumina对Small RNA大规模测序分析,可以从中获得物种全基因组水平的miRNA图谱,实现包括新miRNA分子的挖掘,其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。

成熟的microRNA(miRNA)是17~24nt的单链非编码RNA分子,通过与mRNA相互作用影响目标mRNA的稳定性及翻译,最终诱导基因沉默,调控着基因表达、细胞生长、发育等生物学过程。基于第二代测序技术的microRNA测序,可以一次性获得数百万条microRNA序列,能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下已知和未知的microRNA及其表达差异,为研究microRNA对细胞进程的作用及其生物学影响提供了有力工具。

染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。

ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。

CHIRP-Seq( Chromatin Isolation by RNA Purification )是一种检测与RNA绑定的DNA和蛋白的高通量测序方法。方法是通过设计生物素或链霉亲和素探针,把目标RNA拉下来以后,与其共同作用的DNA染色体片段就会附在到磁珠上,最后把染色体片段做高通量测序,这样会得到该RNA能够结合到在基因组的哪些区域,但由于蛋白测序技术不够成熟,无法知道与该RNA结合的蛋白。

RNA Immunoprecipitation是研究细胞内RNA与蛋白结合情况的技术,是了解转录后调控网络动态过程的有力工具,能帮助我们发现miRNA的调节靶点。这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来,然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。

RIP可以看成是普遍使用的染色质免疫沉淀ChIP技术的类似应用,但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物,RIP实验的优化条件与ChIP实验不太相同(如复合物不需要固定,RIP反应体系中的试剂和抗体绝对不能含有RNA酶,抗体需经RIP实验验证等等)。RIP技术下游结合microarray技术被称为RIP-Chip我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。

CLIP-seq,又称为HITS-CLIP,即紫外交联免疫沉淀结合高通量测序(crosslinking-immunprecipitation and high-throughput sequencing), 是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的革命性技术。其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联,以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后,回收其中的RNA片段,经添加接头、RT-PCR等步骤,对这些分子进行高通量测序,再经生物信息学的分析和处理、总结,挖掘出其特定规律,从而深入揭示RNA结合蛋白与RNA分子的调控作用及其对生命的意义。

什么是metagenomic(宏基因组):

Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说,它具有众多优势,其中很重要的两点:(1)微生物通常是以群落方式共生于某一小生境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此做Metagenomics研究比做单个个体的研究更能发现其特性;(2) Metagenomics研究无需分离单个细菌,可以研究那些不能被实验室分离培养的微生物。

宏基因组是基因组学一个新兴的科学研究方向。宏基因组学(又称元基因组学,环境基因组学,生态基因组学等),是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养,元基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。过去几年中,DNA测序技术的进步以及测序通量和分析方法的改进使得人们得以一窥这一未知的基因组科学领域。

10 .什么是SNP、SNV(单核苷酸位点变异)

单核苷酸多态性singlenucleotide polymorphism,SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。

基因组上小片段(>50bp)的插入或缺失,形同SNP/SNV。

基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D。

染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失(引起CNV的变化),染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(inter-chromosome trans-location)等。一般SV的展示利用Circos 软件。

15.什么是Segment duplication

一般称为SD区域,串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上,有很大的SD序列。

既基因型与表型;一般指某些单核苷酸位点变异与表现形式间的关系。

17.什么是soft-clipped reads

当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

由于大部分测序得到的reads较短,一个reads能够匹配到基因组多个位置,无法区分其真实来源的位置。一些工具根据统计模型,如将这类reads分配给reads较多的区域。

21.什么是Contig N50?

Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3.………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度

1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。值越大,contig越长组装效果越好,测序效率也就越好了.

给定一组具有其自身长度的重叠群,L50计数被定义为长度总和占基因组大小一半的重叠群的最小数量。

21.1 什么是Scaffold N50?

Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3.………Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度

1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

22.什么是测序深度和覆盖度?

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。

RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]: 每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。 假如有1百万个reads映射到了人的基因组上,那么具体到每个外显子呢,有多少映射上了呢,而外显子的长度不一,那么每1K个碱基上又有多少reads映射上了呢,这大概就是这个RPKM的直观解释。

如果对应特定基因的话,那么就是每1000000 mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的read Total exon reads:This is the number in the column with header Total exonreads in the row for the gene. This is the number of reads that have beenmapped to a region in which an exon is annotated for the gene or across theboundaries of two exons or an intron and an exon for an annotated transcript ofthe gene. For eukaryotes, exons and their internal relationships are defined byannotations of type mRNA.映射到外显子上总的reads个数。这个是映射到某个区域上的reads个数,这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。对于真核生物来说,外显子和它们自己内部的关系由某类型的mRNA来注释。

Exonlength: This is the number in the column with the header Exon length inthe row for the gene, divided by 1000. This is calculated as the sum of thelengths of all exons annotated for the gene. Each exon is included only once inthis sum, even if it is present in more annotated transcripts for the gene.Partly overlapping exons will count with their full length, even though theyshare the same region.外显子的长度。计算时,计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现,这个外显子在求和时只被包含一次。即使部分重叠的外显子共享相同的区域,重叠的外显子以其总长来计算。 Mapped reads: The sum of all the numbers in the column with header Totalgene reads. The Total gene reads for a gene is the total number ofreads that after mapping have been mapped to the region of the gene. Thus thisincludes all the reads uniquely mapped to the region of the gene as well asthose of the reads which match in more places (below the limit set in thedialog in figure18.110) that have been allocated tothis gene's region. A gene's region is that comprised of the flanking regions(if it was specified in figure 18.110), the exons, the introns andacross exon-exon boundaries of all transcripts annotated for the gene. Thus,the sum of the total gene reads numbers is the number of mapped reads for thesample (you can find the number in the RNA-Seq report).map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯一映射到这个区域上的reads。

举例:比如对应到该基因的read有1000个,总reads个数有100万,而该基因的外显子总长为5kb,那么它的RPKM为:10

9*1000(reads个数)/10

6(总reads个数)

5000(外显子长度)=200或者:1000(reads个数)/1(百万)

5(K)=200这个值反映基因的表达水平。

FPKM(fragments per kilobase of exon per million fragments mapped). FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments,而RPKM计算的是reads。Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。

什么是转录本重构

用测序的数据组装成转录本。有两种组装方式:1,de-novo构建; 2,有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有参考基因组重构,是指先将read贴回到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、cufflinks。

什么是genefusion

将基因组位置不同的两个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因,或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋白。

什么是表达谱

基因表达谱(geneexpression profile):指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱

什么是功能基因组学

功能基因组学(Functuionalgenomics)又往往被称为后基因组学(Postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等。采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的

分析,新的技术应运而生,包括基因表达的系统分析(serial analysis of gene expression,SAGE),cDNA微阵列(cDNA microarray),DNA 芯片(DNA chip)和序列标志片段显示(sequence tagged fragmentsdisplay。

什么是比较基因组学

比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。

什么是表观遗传学

表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。表观遗传的现象很多,已知的有DNA甲基化(DNAmethylation),基因组印记(genomicimpriting),母体效应(maternaleffects),基因沉默(genesilencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。

什么是计算生物学

计算生物学是指开发和应用数据分析及理论的方法、数学建模、计算机仿真技术等。当前,生物学数据量和复杂性不断增长,每14个月基因研究产生的数据就会翻一番,单单依靠观察和实验已难以应付。因此,必须依靠大规模计算模拟技术,从海量信息中提取最有用的数据。

什么是基因组印记

基因组印记(又称遗传印记)是指基因根据亲代的不同而有不同的表达。印记基因的存在能导致细胞中两个等位基因的一个表达而另一个不表达。基因组印记是一正常过程,此现象在一些低等动物和植物中已发现多年。印记的基因只占人类基因组中的少数,可能不超过5%,但在胎儿的生长和行为发育中起着至关重要的作用。基因组印记病主要表现为过度生长、生长迟缓、智力障碍、行为异常。目前在肿瘤的研究中认为印记缺失是引起肿瘤最常见的遗传学因素之一。

什么是基因组学

基因组学(英文genomics),研究生物基因组和如何利用基因的一门学问。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学,和工业领域的重大问题。

什么是DNA甲基化

DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。正常情况下,人类基因组“垃圾”序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100—1000 bp左右且富含CpG二核苷酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1 Mb就有5—15个CpG岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系[9]。由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲基化所致抑癌基因转录失活问题,DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。

什么是基因组注释?

基因组注释(Genomeannotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。

什么是Q30?

Q30是指一个碱基的识别可靠性等于99.9%,或者说出错可能性是0.1%。Q20则是指碱基识别的可靠性等于99%。

Q30数据量是指一批数据中,质量高于等于Q30的数据的量的总和。

测序数据的PF data/PF reads是什么意思?

PF是pass filter的意思。也就是质量合格的意思。Illumina的测仪序会自动地对一个read(序列)的质量可靠性进行打分。

对于前25个碱基中的是否有两个碱基的识别可靠性低于0.6,是PF的判断标准。这句话翻译成较容易理解的话: 就是前25个碱基中,如果低质量的数据有2个或更多,则这条read被判定为不合格,PF就不通过。反之,则质检通过。

PF是国际公认的质检标准。

你们给的数据是什么质量的?

对于哺乳动物基因组重测序、外显子测序,我们保证数据质量是Q30的比例高于80%。对于mRNA测序,smRNA测序,我们保证对照Lane的数据质是Q30的比例高于80%。

一般情况下:

哺乳动物基因组重测序、外显子测序,GC比例在40%左右,Q30的比例是80~95%

RNA-seq,GC比例在50%左右,Q30的比例是~80%。如果Poly(A)特别多的情况下,Q30会更低一些

SmRNA-seq,因为有许多的read读通之后,只剩下一串的A,质量会更低,我们的实验结果%Q30在70~75%

测序中的Duplication是什么,如何避免,一般会有多少Duplication

所谓Duplication是指起始与终止位置完全一致的片段。

引起Duplication的主要原因是因为在测序中有PCR过程,来源于同一个DNA片段PCR的产物被重复测序,就会是Duplication。次要原因是正巧两个片段的头和尾的位置完全一致。

一般通过控制PCR的循环数来控制Duplication。我们一般控制PCR的循环次数在10~12个循环。

在药明康德外显子测序中,如果用illumina的捕获试剂盒Duplication的比例约为10%,如果用Nimblegen的捕获试剂盒Duplication的比例波动较大,在5~50%范围 ,平均为30%。

在RNA-seq中,Duplication的比例约为40%。RNA-seq中,因为高丰度的mRNA集中在几个基因上,集中度很高,所以Duplication的比例也就高。

测序的插入片段一般是多长?

测序的插入片段一般是100bp到600bp.

因为Hiseq测序过程中有一个桥式PCR的过程。如果插入片段过长,测桥式PCR产生的Cluster就会太大,而且光强也会减弱。所以插入片段的长度是有限制的。

PhiX文库有什么用?

PhiX文库是一种用病毒基因组做的文库。其基因序列已精确知晓,GC比例约为40%,与人类、哺乳类的基因组的GC比例接近。其基因序列又与人类的基因序列相去甚远,在与哺乳类基因组一些测序时,可以轻松地通过基因序列比对而将之去除。

在测四种碱基不平衡(A、G、C、T四种碱基的含量远远偏离25%)的样本时,可以加入大量的PhiX文库,以部分抵消样本的不平衡性。例如ChIPed DNA测序,或者亚硫酸氢盐处理过的DNA文库,或者扩增子测序(PCR样测序),都可以加入PhiX,以部分弥补碱基不平衡性。

也可以少量地加入样本,以作为control library来验证测序质量。

【转载】三代基因组测序技术原理简介

摘要: 从1977年第一代DNA测序技术(Sanger法)[1] 发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。

生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。图1(右键打开图片可查看大图,下同)所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来,整个测序技术的发展历程。

第一代测序技术

第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基[1]。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础,Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列(图2)。这个 网址 为sanger测序法制作了一个小短片,形象而生动。

值得注意的是,就在测序技术起步发展的这一时期中,除了Sanger法之外还出现了一些其他的测序技术,如焦磷酸测序法、链接酶法等。其中,焦磷酸测序法是后来Roche公司454技术所使用的测序方法2–4,而连接酶测序法是后来ABI公司SOLID技术使用的测序方法2,4,但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP。

第二代测序技术

总的说来,第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。因而第一代测序技术并不是最理想的测序方法。经过不断的技术开发和改进,以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid技术为标记的第二代测序技术诞生了。第二代测序技术大大降低了测序成本的同时,还大幅提高了测序,并且保持了高准确性,以前完成一个人类基因组的测序需要3年时间,而使用二代测序技术则仅仅需要1周,但在序列读长方面比起第一代测序技术则要短很多。表1和图3对第一代和第二代测序技术各自的特点以及测序成本作了一个简单的比较5,以下我将对这三种主要的第二代测序技术的主要原理和特点作一个简单的介绍。

Illumine

Illumina公司的Solexa和Hiseq应该说是目前全球使用量最大的第二代测序机器,这两个系列的技术核心原理是相同的2,4。这两个系列的机器采用的都是边合成边测序的方法,它的测序过程主要分为以下4步,如图4.

​ (1)DNA待测文库构建

利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库。

​ (2)Flowcell

Flowcell是用于吸附流动DNA片段的槽道,当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上。每个Flowcell有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对(这就是为什么flowcell能吸附建库后的DNA的原因),并能支持DNA在其表面进行桥式PCR的扩增。

​ (3)桥式PCR扩增与变性

桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增,如图4.a所示。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。

(4)测序

测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应。Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。

Roche 454

Roche 454测序系统是第一个商业化运营二代测序技术的平台。它的主要测序原理是(图5 abc)2:

(1)DNA文库制备

454测序系统的文件构建方式和illumina的不同,它是利用喷雾法将待测DNA打断成300-800bp长的小片段,并在片段两端加上不同的接头,或将待测DNA变性后用杂交引物进行PCR扩增,连接载体,构建单链DNA文库(图5a)。

(2)Emulsion PCR (乳液PCR,其实是一个注水到油的独特过程)

454当然DNA扩增过程也和illumina的截然不同,它将这些单链DNA结合在水油包被的直径约28um的磁珠上,并在其上面孵育、退火。

乳液PCR最大的特点是可以形成数目庞大的独立反应空间以进行DNA扩增。其关键技术是“注水到油”(水包油),基本过程是在PCR反应前,将包含PCR所有反应成分的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构成了独立的PCR反应空间。理想状态下,每个小水滴只含一个DNA模板和一个磁珠。

这些被小水滴包被的磁珠表面含有与接头互补的DNA序列,因此这些单链DNA序列能够特异地结合在磁珠上。同时孵育体系中含有PCR反应试剂,所以保证了每个与磁珠结合的小片段都能独立进行PCR扩增,并且扩增产物仍可以结合到磁珠上。当反应完成后,可以破坏孵育体系并将带有DNA的磁珠富集下来。进过扩增,每个小片段都将被扩增约100万倍,从而达到下一步测序所要求的DNA量。

(3)焦磷酸测序

测序前需要先用一种聚合酶和单链结合蛋白处理带有DNA的磁珠,接着将磁珠放在一种PTP平板上。这种平板上特制有许多直径约为44um的小孔,每个小孔仅能容纳一个磁珠,通过这种方法来固定每个磁珠的位置,以便检测接下来的测序反应过程。

测序方法采用焦磷酸测序法,将一种比PTP板上小孔直径更小的磁珠放入小孔中,启动测序反应。测序反应以磁珠上大量扩增出的单链DNA为模板,每次反应加入一种dNTP进行合成反应。如果dNTP能与待测序列配对,则会在合成后释放焦磷酸基团。释放的焦磷酸基团会与反应体系中的ATP硫酸化学酶反应生成ATP。生成的ATP和荧光素酶共同氧化使测序反应中的荧光素分子并发出荧光,同时由PTP板另一侧的CCD照相机记录,最后通过计算机进行光信号处理而获得最终的测序结果。由于每一种dNTP在反应中产生的荧光颜色不同,因此可以根据荧光的颜色来判断被测分子的序列。反应结束后,游离的dNTP会在双磷酸酶的作用下降解ATP,从而导致荧光淬灭,以便使测序反应进入下一个循环。由于454测序技术中,每个测序反应都在PTP板上独立的小孔中进行,因而能大大降低相互间的干扰和测序偏差。454技术最大的优势在于其能获得较长的测序读长,当前454技术的平均读长可达400bp,并且454技术和illumina的Solexa和Hiseq技术不同,它最主要的一个缺点是无法准确测量同聚物的长度,如当序列中存在类似于PolyA的情况时,测序反应会一次加入多个T,而所加入的T的个数只能通过荧光强度推测获得,这就有可能导致结果不准确。也正是由于这一原因,454技术会在测序过程中引入插入和缺失的测序错误。

Solid技术

Solid测序技术是ABI公司于2007年开始投入用于商业测序应用的仪器。它基于连接酶法,即利用DNA连接酶在连接过程之中测序(图6)2,4。它的原理是:

(1)DNA文库构建

片段打断并在片段两端加上测序接头,连接载体,构建单链DNA文库。

(2)Emulsion PCR

Solid的PCR过程也和454的方法类似,同样采用小水滴emulsion PCR,但这些微珠比起454系统来说则要小得多,只有1um。在扩增的同时对扩增产物的3’端进行修饰,这是为下一步的测序过程作的准备。3’修饰的微珠会被沉积在一块玻片上。在微珠上样的过程中,沉积小室将每张玻片分成1个、4个或8个测序区域(图6-a)。Solid系统最大的优点就是每张玻片能容纳比454更高密度的微珠,在同一系统中轻松实现更高的通量。

(3)连接酶测序

这一步是Solid测序的独特之处。它并没有采用以前测序时所常用的DNA聚合酶,而是采用了连接酶。Solid连接反应的底物是8碱基单链荧光探针混合物,这里将其简单表示为:3’-XXnnnzzz-5’。连接反应中,这些探针按照碱基互补规则与单链DNA模板链配对。探针的5’末端分别标记了CY5、Texas Red、CY3、6-FAM这4种颜色的荧光染料(图6-a)。这个8碱基单链荧光探针中,第1和第2位碱基(XX)上的碱基是确定的,并根据种类的不同在6-8位(zzz)上加上了不同的荧光标记。这是Solid的独特测序法,两个碱基确定一个荧光信号,相当于一次能决定两个碱基。这种测序方法也称之为两碱基测序法。当荧光探针能够与DNA模板链配对而连接上时,就会发出代表第1,2位碱基的荧光信号,图6-a和图6-b中的比色版所表示的是第1,2位碱基的不同组合与荧光颜色的关系。在记录下荧光信号后,通过化学方法在第5和第6位碱基之间进行切割,这样就能移除荧光信号,以便进行下一个位置的测序。不过值得注意的是,通过这种测序方法,每次测序的位置都相差5位。即第一次是第1、2位,第二次是第6、7位……在测到末尾后,要将新合成的链变性,洗脱。接着用引物n-1进行第二轮测序。引物n-1与引物n的区别是,二者在与接头配对的位置上相差一个碱基(图6-a. 8)。也即是,通过引物n-1在引物n的基础上将测序位置往3’端移动一个碱基位置,因而就能测定第0、1位和第5、6位……第二轮测序完成,依此类推,直至第五轮测序,最终可以完成所有位置的碱基测序,并且每个位置的碱基均被检测了两次。该技术的读长在2×50bp,后续序列拼接同样比较复杂。由于双次检测,这一技术的原始测序准确性高达99.94%,而15x覆盖率时的准确性更是达到了99.999%,应该说是目前第二代测序技术中准确性最高的了。但在荧光解码阶段,鉴于其是双碱基确定一个荧光信号,因而一旦发生错误就容易产生连锁的解码错误。

第三代测序技术

测序技术在近两三年中又有新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术,被称之为第三代测序技术。与前两代相比,他们最大的特点就是单分子测序,测序过程无需进行PCR扩增。

其中PacBio SMRT技术其实也应用了边合成边测序的思想5,并以SMRT芯片为测序载体。基本原理是: DNA聚合酶和模板结合,4色荧光标记 4 种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。同时这个 DNA 聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。PacBio SMRT技术的一个关键是怎样将反应信号与周围游离碱基的强大荧光背景区别出来。他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集小孔。小孔直径有考究,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板而泄露出来,从而与周围小孔相互干扰。如果孔径小于波长,能量不会辐射到周围,而是保持直线状态(光衍射的原理),从而可起保护作用。同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔, 即 ZMW(零模波导孔),外径 100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不能穿透小孔进入上方溶液区,能量被限制在一个小范围(体积20X 10-21 L)里,正好足够覆盖需要检测的部分,使得信号仅来自这个小反应区域,孔外过多游离核苷酸单体依然留在黑暗中,从而实现将背景降到最低。另外,可以通过检测相邻两个碱基之间的测序时间,来检测一些碱基修饰情况,既如果碱基存在修饰,则通过聚合酶时的会减慢,相邻两峰之间的距离增大,可以通过这个来之间检测甲基化等信息(图7)。SMRT技术的测序很快,每秒约10个dNTP。但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错。

Oxford Nanopore Technologies公司所开发的纳米单分子测序技术与以往的测序技术皆不同,它是基于电信号而不是光信号的测序技术5。该技术的关键之一是,他们设计了一种特殊的纳米孔,孔内共价结合有分子接头。当DNA碱基通过纳米孔时,它们使电荷发生变化,从而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),灵敏的电子设备检测到这些变化从而鉴定所通过的碱基(图8)。

该公司在去年基因组生物学技术进展年会(AGBT)上推出第一款商业化的纳米孔测序仪,引起了科学界的极大关注。纳米孔测序(和其他第三代测序技术)有望解决目前测序平台的不足,纳米孔测序的主要特点是:读长很长,大约在几十kb,甚至100 kb;错误率目前介于1%至4%,且是随机错误,而不是聚集在读取的两端;数据可实时读取;通量很高(30x人类基因组有望在一天内完成);起始DNA在测序过程中不被破坏;以及样品制备简单又便宜。理论上,它也能直接测序RNA。

纳米孔单分子测序计算还有另一大特点,它能够直接读取出甲基化的胞嘧啶,而不必像传统方法那样对基因组进行bisulfite处理。这对于在基因组水平直接研究表观遗传相关现象有极大的帮助。并且改方法的测序准确性可达99.8%,而且一旦发现测序错误也能较容易地进行纠正。但目前似乎还没有应用该技术的相关报道。

其他测序技术

目前还有一种基于半导体芯片的新一代革命性测序技术——Ion Torrent6。该技术使用了一种布满小孔的高密度半导体芯片, 一个小孔就是一个测序反应池。当DNA聚合酶把核苷酸聚合到延伸中的DNA链上时,会释放出一个氢离子,反应池中的PH发生改变,位于池下的离子感受器感受到H+离子信号,H+离子信号再直接转化为数字信号,从而读出DNA序列(图9)。这一技术的发明人同时也是454测序技术的发明人之一——Jonathan Rothberg,它的文库和样本制备跟454技术很像,甚至可以说就是454的翻版,只是测序过程中不是通过检测焦磷酸荧光显色,而是通过检测H+信号的变化来获得序列碱基信息。Ion Torrent相比于其他测序技术来说,不需要昂贵的物理成像等设备,因此,成本相对来说会低,体积也会比较小,同时操作也要更为简单,也相当快速,除了2天文库制作时间,整个上机测序可在2-3.5小时内完成,不过整个芯片的通量并不高,目前是10G左右,但非常适合小基因组和外显子验证的测序。

小结

,对各代测序技术的原理做了简要的阐述,这三代测序技术的特点比较汇总在以下表1和表2中。其中测序成本,读长和通量是评估该测序技术先进与否的三个重要指标。第一代和第二代测序技术除了通量和成本上的差异之外,其测序核心原理(除Solid是边连接边测序之外)都是基于边合成边测序的思想。第二代测序技术的优点是成本较之一代大大下降,通量大大提升,但缺点是所引入PCR过程会在一定程度上增加测序的错误率,并且具有系统偏向性,同时读长也比较短。第三代测序技术是为了解决第二代所存在的缺点而开发的,它的根本特点是单分子测序,不需要任何PCR的过程,这是为了能有效避免因PCR偏向性而导致的系统错误,同时提高读长,并要保持二代技术的高通量,低成本的优点。

表1:测序技术的比较

表2:主流测序机器的成本测序比较

以下图10展示了当前全球测序仪的分布情况。图中的几个热点区主要分布在中国的深圳(主要是华大),南欧,西欧和美国。

参考文献

原文链接:

文献阅读笔记:CUT&Tag

题目:

CUT&Tag for efficient epigenomic profiling of small samples and single cells

许多染色质特征在调控基因表达中起着重要作用。要完全理解基因调控,需要在小样本细胞中以高分辨率绘制特定染色质特征。在这里,我们描述了Cleavage Under Targets and Tagmentation (CUT&Tag),它是一种酶栓系(enzyme-tethering)策略,提供了高效的高分辨率测序文库来分析不同的染色质成分。在CUT&Tag中,染色质蛋白被一种特异性抗体原位结合,然后将蛋白A - Tn5转座酶融合蛋白栓在一起。转座子酶的激活有效地产生具有高分辨率和极低背景的片段文库。从活细胞到测序文库的所有步骤都可以在实验台上的单个管或高通量管道中的微孔中完成,并且整个过程可以在一天内完成。我们通过分析组蛋白修饰、RNA聚合酶II和转录因子在低细胞数量和单细胞上的应用,证明了CUT&Tag的用途。

大规模平行测序的出现和每个碱基成本的大幅降低推动了基因组学革命,然而,由于用于绘制染色质片段的方法存在局限性,表观基因组分析的前景一直滞后。染色质免疫沉淀测序技术(ChIP-seq)及其衍生方法具有信号低、背景高和交联导致的表位掩蔽等缺点,且需要大量的细胞。ChIP的替代方法包括对非固定细胞的酶拴系方法,如DamID7、ChEC-seq和CUT&RUN,将感兴趣的蛋白质定位在原位,然后进行全基因组分析。例如,CUT&RUN基于ChIC策略,通过连续结合特定抗体来map染色质蛋白,然后将Protein A/微球菌核酸酶(pA-MNase)融合蛋白固定在可渗透细胞(不交联)。通过添加钙激活MNase,将片段释放到上清液中,进行DNA提取、文库制备和paired-end测序。CUT&RUN提供了与ChIP-seq相比背景信号低得多的特定染色质组分的碱基对分辨率,大大降低了全基因组分析的成本。 虽然CUT&RUN只需要100-1000个细胞就可以产生高质量的数据,但它必须随后进行DNA末端修饰和adapters连接来准备测序文库,这增加了整个过程的时间、成本和工作量。此外,通过CUT&RUN方法将MNase切割后的片段释放到上清液中并不适合应用于单细胞平台。 (意思是CUT&RUN虽然很牛,但是做单细胞还是不行的)

在这里,我们克服了ChIP-seq和CUT&RUN的局限性,使用了由超活性Tn5转座酶-蛋白A (pA-Tn5)融合蛋白负载的测序adapters组成的转座体。在原位“栓系”后,激活pA-Tn5导致因子靶向标记,生成用于PCR富集和DNA测序的片段。从活细胞开始,CUT&Tag可以在一天内在实验台上或高通量方法中提供扩增的测序文库。我们证明,使用低细胞数甚至单个细胞,多种染色质成分可以在非常低的背景下被描绘出来。这种简单、低成本的方法将使表观遗传研究在生物研究的各个领域更加强大。

通过tagmentation实现染色质分析(图1a),我们用一种针对H3K27me3的抗体孵育完整的渗透的人类K562细胞,H3K27me3是一种丰富的组蛋白修饰,它标记沉默染色质区域。我们用抗兔的二抗孵育细胞,以增加染色质位点上的抗体结合局部浓度,然后用预载有测序adapters的过量pA-Tn5融合蛋白孵育细胞,在核里将酶系在抗体结合位点。转座体与暴露的DNA有内在的亲和性,因此我们在严格的条件下清洗细胞以去除未拴住的pA-Tn5。然后,我们通过添加Mg++激活转座体,整合含h3k27me3核小体spanning位点的adapters。最后,从纯化的DNA中富集片段文库,并将其汇集到Illumina HiSeq的flow cell上进行多重配paired-end测序。整个方案在一个管中操作所有步骤(图1b),其中渗透的细胞首先与抗体混合,然后固定在Concanavalin A包被的磁珠上,允许在所有连续的洗涤和试剂孵育步骤中对细胞进行处理。为了在实验之间进行标准化,我们使用来自于大肠杆菌转座子酶蛋白生产过程中提取的少量示踪基因组DNA来进行样本read counts的标准化,以代替CUT&RUN9中推荐的异体spike-in DNA。

在大约800万reads的人类基因组组装中,显示了H3K27me3标记的大染色质区域的清晰图谱(图2a)。我们还获得了H3K4me1和H3K4me2组蛋白修饰的图谱,标记了活跃的染色质位点。相比之下,用非特异性IgG抗体孵育细胞,产生非常稀疏的背景信号(图2a)。为了评估CUT&Tag的信噪比,我们将其与CUT&RUN和ChIP-seq生成的分析结果进行了比较,检测K562细胞中的H3K27me3(相同的兔单克隆抗体)。为了直接比较这三种技术,我们将每个数据集的读取深度设置为800万reads。三种方法的landscape都是相似的,但是在ChIP-seq数据集中背景噪声占主导地位(图2a),因此 ChIP-seq需要更多的reads来区分染色质特征和背景 。相比之下,CUT&RUN和CUT&Tag的背景噪声都非常低。正如预期的那样,在H1胚胎干细胞(H1 ES)不同的人类细胞类型中的同一染色质区域,观察到非常不同的profiles(图2b)。为了更定量地比较每种方法中的信号和噪声水平,我们为每种方法生成了H3K4me1修饰基因组位点的热图。对每个数据集进行800万reads进行比较,我们发现在所有位点中,组蛋白修饰的CUT&Tag比CUT&RUN显示出更高的信号(图2c)。两种方法都有较低的背景周围的站点。相比之下,ChIP-seq信号的动态范围非常狭窄,只有CUT&Tag信号范围的1/20左右,而且大多数位点的信号都非常弱。为了定量比较,我们使用在H3K4me1 ChIP-seq数据集上显示的定义的前10,000个峰附近,计算CUT&Tag、CUT&RUN和ChIP-seq数据集的平均read counts(图2g)。我们发现,CUT&Tag分析在这些位点上提供了更多的信号积累,这意味着CUT&Tag在区分染色质特征时最有效,所需的reads最少。

基因和调控元件的转录状态可以从组蛋白修饰模式进行推断,但基因表达可以通过分析染色质结合的RNA聚合酶II (RNAPII)直接读出。 我们使用了RNAPII的磷酸化抗体(S2/5p),用以区分参与的聚合酶。Landscapes显示RNAPII CUT&Tag在许多基因上的富集(图2a),启动子热图显示这种富集主要位于活性基因的5 '端(图2d)。

为了在不依赖于注释的情况下验证RNAPII CUT&Tag的结果,我们选择了通过碱基对分辨率PRO-seq技术获得的转录run-on数据,该技术使用一种与染色质分析无关的方法直接mapping RNAPII。PRO-seq定位了被激活的RNAPII 5 '末端的位置,并用于识别转录起始位点下游暂停的RNAPII。使用MACS2 call peak(RNAPII S2/5p CUT&Tag),并分析通过PRO-seq run-on人类K562细胞(SRA GSM1480327)的数据集。当使用RNAPII CUT&Tag 的MACS2评分排序时,PRO-seq的occupancy和RNAPII- ser2 /5p CUT&Tag的occupancy之间有密切的对应关系(图2e)。

通过CUT&Tag分析的H3K4me1修饰的重复非常相似,证明了该方法的可重复性(图3a)。当我们比较H3K27me3 CUT&Tag重复时,我们得到了相似的重现性。在先前的CUT&RUN分析实验中,我们发现与活性启动子和增强子相关的H3K4me2组蛋白修饰landscapes与ATAC-seq谱相似。因此,我们使用H3K4me2抗体进行CUT&Tag。我们发现H3K4me2在强的ATAC-seq峰时occupancies很高(图2f),read counts也很多(图2h),这意味着H3K4me2图谱能以更高的灵敏度捕获基因组中最占主导的染色质位点。

为了量化H3K4me2 CUT&Tag相对于H3K4me2 CUT&RUN、H3K4me2 ChIP-seq和ATACseq的敏感性,我们对每个方法进行了采样,并使用MACS2默认参数call peak。然后,我们评估在每一个peak里的reads比例。我们发现,CUT&RUN和CUT&Tag都比ChIP-seq或ATAC-seq有更多的reads,表明它们具有极低的信噪比(图3b)。此外,CUT&Tag在低测序深度时的峰分布更为迅速,其中~ 200万reads相当于CUT&RUN的100万reads(或ChIP-seq的2000万reads),证明了CUT&Tag的超高效率。在所有的方法中,只有CUT&Tag在峰内达到0.6的分数。因此,通过两种组蛋白修饰(H3K4me2和H3K27me3),我们将染色质landscape分为活性区和沉默区,即使测序深度相对较低。

为了确定我们是否可以使用CUT&Tag来绘制转录因子结合的图谱,我们测试了pA-Tn5在转录因子上的栓系是否可以与基因组中可接近的DNA位点区分开来。我们在CUT&Tag反应中使用了NPAT核因子的抗体,NPAT核因子是复制依赖组蛋白基因的转录辅激活因子。NPAT只结合了1号染色体和6号染色体组蛋白clusters中的约80个可接近位点,因此我们可以比较真正的结合位点和可接近位点。在NPAT CUT&Tag图谱中,约99%的read counts在组蛋白基因启动子处积累(图4a)。通过对已发表的ATAC-seq数据对应位点进行评分,我们发现较少数量的counts分布在K562基因组的可接近位点(图4b)。这可能是由于一些未栓系的pATn5与暴露的DNA原位结合造成的,但通过read覆盖的巨大差异,很容易区分抗体栓系位点与可接近位点(图4c)。事实上,通过标准算法进行call peak,NPAT CUT&Tag ~ 9000位点的数据生成一个列表,其中包括组蛋白基因启动子和10%的ATAC-defined可接近位点。虽然这只是定义的~ 54000可接近位点的一小部分,调整阈值和严格的NPAT peak calling可以提高峰检测。

为了测试CUT&Tag是否易于分析更丰富的转录因子结合位点,我们分析了CCCTC结合因子(CTCF)DNA结合蛋白。在这些实验中,我们通过改变缓冲液的严格程度来评估染色质中转录因子的置换情况。在低盐和中盐浓度条件下,我们观察到CUT&RUN和ChIPseq检测的CTCF位点的read计数(图5a),但有额外的小峰。这些额外的峰表明,未“栓系”pA-Tn5有助于这些实验的coverage。为了确定真正的CTCF结合位点是否可以通过read深度与可接近特征区分开,我们比较了高置信度CTCF位点(由peak-calling定义)的CUT&Tag read counts CUT&RUN data)到可接近位点的CUT&Tag read counts(由ATAC-seq数据peak-calling定义)。我们发现,这两种read counts分布重叠,但可接近位点的read counts低于CTCF位点(图5b)。仅基于reads深度,我们鉴别出约5600个CTCF结合位点,错误发现率为1%。比较这两类的motif富集,发现高信号motif对应CTCF motif(E-value = 2.1 × 10−69),低信号motif不对应。

我们通过绘制以CTCF结合位点为中心的reads末端来评估CUT&Tag的分辨率。这表明CUT&Tag保护的“footprint”在CTCF motif跨越80 bp(图5c)。而从Tn5整合保护的片段大于CUT&RUN中MNase保护的约45 bp,这表明tethered转座酶产生了高分辨率的因子结合位点图。在300-500mM盐浓度的情况下,不同的盐浓度洗涤也能得到相似的footprints结果,在一定程度上降低了信噪比(图5c)。高分辨率的CUT&Tag提供了单个位点的结构细节。例如,在代表性位点对CTCF、H3K4me1、H3K4me2、H3K4me3和ATAC映射的叠加,揭示了可接近的DNA、CTCF结合和修饰的邻近核小体之间的关系(图5d)。

ChIP需要大量的细胞材料,限制了它在实验和临床样品中的应用。然而,我们和其他人之前已经证明,像CUT&RUN这样的tethered分析策略具有足够的敏感性,因此分析小细胞数通常是可行的。CUT&Tag的信号改进表明,这种方法可以在有限的样本下更有效地工作。我们首先用CUT&Tag在大约1500倍范围的材料中测试了H3K27me3修饰,从100,000个细胞到60个细胞。我们从所有实验中观察到非常相似的高质量染色质谱(补充图1b),表明在少量材料的情况下仍然保持高数据质量。

CUT&Tag的优点是,从抗体结合到adapters整合的整个反应都发生在完整的细胞内。转座子酶和染色质片段仍然结合在一起,因此片段化的DNA被保留在每个细胞核内。 我们开发了一种简单的策略来生成单个细胞的染色质谱,我们称之为 单细胞CUT&Tag(scCUT&Tag) (图6a)。我们对大量K562细胞群体进行H3K27me3修饰的scCUT&Tag分析,但在步骤之间温和离心,而不是ConcanavalinA 磁珠。整合后,我们使用Takara ICELL8纳米分装系统将单个细胞分离到5184孔的纳米孔芯片里,通过对芯片成像识别包含一个或仅包含一个细胞的纳米孔。然后,我们使用两个indexed引物对每个通过的纳米孔进行文库PCR富集,最后将芯片上的所有富集文库集中到一起进行Illumina深度测序,达到高冗余,以评估每个细胞的采样和覆盖。每个孔的文库由两个索引的独特组合来区分。

单个细胞染色质图谱的聚集与大量样本中产生的图谱非常匹配(图6b),具有较高的相关性(Pearson 's r = 0.89)。每个细胞通过全基因组的reads数量进行排序,每个细胞的唯一片段都显示在tracks中。值得注意的是,单个细胞中的大多数reads都位于分析中定义的H3K27me3区域内,这表明单细胞染色质分析的高恢复率(图6b)。H3K27me3 scCUT&Tag的第二个重复证明了单细胞分析的重现性。类似地,H3K4me2修饰的单细胞图谱概括了可接近和活性染色质的基因组landscapes(图6c)。在单个细胞中,相当大一部分reads属于定义的活性和沉默染色质特征(图6d, e)。

染色质特征的广度——从H3K4me2的大约5个核小体到H3K27me3区域的数百个核小体——即使在单个细胞稀疏采样的情况下,也有助于检测染色质特征。为了评估单个细胞的染色质特征是否可以用来区分细胞类型,我们进行了H3K27me3的scCUT&Tag分析(H1细胞)。我们再次发现,很大一部分reads位于分析定义的域内(图6e),bulk数据和聚集的单细胞数据之间具有很高的相关性(Pearson’s r = 0.85)。通过比较包含HoxB结构域的2Mb区域,可以发现H1细胞中单细胞轨迹中明显的组蛋白甲基化,而K562细胞中该区域缺失(图6f)。这些全基因组模式足以高效地区分H1细胞和K562细胞。因此,染色质图谱提供了一种区分单个细胞类型的方法。

通过CUT&Tag分析染色质可以有效地揭示基因组中的调控信息。与RNA-seq仅测量基因表达不同,染色质分析在识别沉默区方面具有独特的优势,这是细胞在发育过程中的确定“cell fates”的关键方面。虽然像ATAC-seq这样的方法可以绘制出可接近位点和因子结合位点,但结合在这些位点上的特定染色质蛋白必须从motif或染色质谱数据推断出来。虽然基于ChIP的方法已广泛应用于细胞系模型,但由于交联和染色质片段化的影响,ChIP-seq对染色质的分析受到限制,因为每个实验都需要优化。同样,最近的另一种交联染色质分析方法ChIL-seq比CUT&Tag需要更多的步骤,需要3-4天来完成所有步骤。相比之下, CUT&Tag过程,像CUT&RUN一样,是一种不固定的原位方法 ,并且很容易以标准化的方法实现。这与CUT&Tag的成本效益相结合,使得它适用于可以在核心设施中实现的高通量。可以想象,用户仅提供他们的细胞和抗体的混合物,并在短短几天内收到处理的深度测序文件。由于高通量CUT&Tag的第一步是在4°C条件下进行抗体孵育,样本可以在设备中积累一夜,然后一起装载到一个96孔板上进行自动化处理,就像我们之前在AutoCUT&RUN中演示的那样。由于试剂的高效使用和更好的信噪比,CUT&Tag比AutoCUT&RUN需要每个样本更少的reads,这已经比商业化外显子组测序便宜得多。虽然这种pipeline的简单和低成本很吸引人,自动染色质分析的主要优点是最小化批次效应并处理影响,从而最大限度地再现。这些方面对于临床分析和色谱靶向药物的检测是至关重要的。

我们已经证明,CUT&Tag使用ICELL8纳米分装系统提供了高质量的单细胞图谱,该系统可以在加入试剂和PCR之前进行成像。同样,CUT&Tag也应该适用于10×Genomics系统,他们最近公布了单细胞ATAC-seq方法。由于adapters是添加在bulk里的,所以CUT&Tag对高通量单细胞平台的适应性是有可能的。在CUT&Tag数据集中,低水平的非靶向可接近DNA位点和高水平的CTCF结合位点的不同分布表明,通过对这两种预期的潜在分布建模,可以在不使用其他数据的情况下区分真实结合位点和可接近DNA位点。 这种策略的一个优点是,真实结合位点和可接近特征之间的统计差异允许在同一实验中描述两个染色质特征,其中可接近DNA位点和目标因子的结合位点可以被同时注释。 在未来,我们预计adapters的条形码将允许多个表位同时在单个细胞中进行大量的分析,最大限度地发挥单细胞表观基因组分析在发育和疾病研究中的作用。

最后,放一张ChIP-seq,CUT&RUN和CUT&Tag三种方法的比较图:

在一个细菌中用知的蛋白钓出能与其结合的未知DNA的方法,求指点,能说明原理更好!

1.凝胶阻滞实验:在凝胶电泳中,由于电场的作用,裸露的DNA分子向正电极移动距离的大小是同其分子量的对数成反比。如果某种DNA分子结合上一种特殊的蛋白质,那么由于分子量的加大它在凝胶中的迁移作用便会受到阻滞,于是朝正极移动的距离也就相应的缩短,因而在凝胶中出现滞后的条带,这就是凝胶阻滞实验的基本原理。

2.DNaseI足迹试验(DNaseI footFIrinting assay) DNaseI足迹试验是一种测定DNA结合蛋白在DNA上的准确结合位点的技术。 当DNA分子中的某一区段同特异的转录因子结合之后便可以得到保护而免受DNaseI 酶的切割作用,而不会产生出相应的切割分子,结果在凝胶电泳放射性自显影图片上便出现了一个空白区,俗称为“足迹”。

3. 甲基化干扰实验(Methylation interference assay)是根据DMS(硫酸二甲酯)能够使DNA分子中裸露的鸟嘌呤(G)残基甲基化,而六氢吡啶又会对甲基化的G残基作特异性的化学切割这一原理设计的另一种研究蛋白质同DNA相互作用的实验方法。

4.Pull-down实验: 拉下实验又叫做蛋白质体外结合实验(binding assay in vitro),是一种在试管中检测蛋白质之间相互作用的方法。其基本原理是将某种小肽(例如生物素、6-His标签以及谷胱甘肽转移酶等)的编码基因与诱饵蛋白的编码基因重组,表达为融合蛋白。分离纯化融合蛋白并与磁珠结合,使之固相化之后,再与表达目的细胞提取物混合保温适当时间,例如在4℃下保温过夜,使目标蛋白同已经固定在磁珠表面的融合蛋白中的诱饵蛋白充分的结合。然后回收磁珠,pull出目的片段

5.生物芯片技术是基于生物大分子间相互作用的大规模并行分析方法,使得生命科学研究中所涉及的样品反应、检测、分析等过程得以连续化、集成化和微型化,现已成为当今生命科学研究领域发展最快的技术之一

6.染色体沉淀:用细菌基因组与目的蛋白孵育,然后用甲醛交联,随机断裂,然后WB分析。

7.酵母单杂交: 酵母单杂交(Yeast one-hybrid)是根据DNA结合蛋白(即转录因子)与DNA顺式作用元件结合调控报道基因表达的原理,克隆与靶元件特异结合的转录因子基因(cDNA)的有效方法。其理论基础是:许多真核生物的转录激活子由物理和功能上独立的DNA结合区(DNA-binding domain BD)和转录激活区(Activation domain AD)组成,因此可构建各种基因与AD的融合表达载体,在酵母中表达为融合蛋白时,根据报道基因的表达情况,便能筛选出与靶元件有特异结合区域的蛋白。理论上,在单杂交检测中,任何靶元件都可被用于筛选一种与之有特异结合区域的蛋白。

今天的内容先分享到这里了,读完本文《陕西甲基化磁珠性能!关于mRNA上的m6A富集分析文献解读》之后,是否是您想找的答案呢?想要了解更多,敬请关注www.zuqiumeng.cn,您的关注是给小编最大的鼓励。