导读二代测序文库构建-概述与挑战(1)优质回答高通量测序又称NGS,重新定义了基因组学研究。近年来,NGS技术稳步发展,伴随着成本下降以及测序应用呈指数增加。本文,我们研究了影响...

今天运困体育就给我们广大朋友来聊聊陕西甲基化磁珠供应商,希望能帮助到您找到想要的答案。

二代测序文库构建-概述与挑战(1)

二代测序文库构建-概述与挑战(1)

优质回答高通量测序又称NGS,重新定义了基因组学研究。近年来,NGS技术稳步发展,伴随着成本下降以及测序应用呈指数增加。本文,我们研究了影响测序文库质量的关键因素,以及,在DNA来源和RNA来源文库准备过程中存在的挑战。这些因素包括,DNA/RNA材料的定量和物理性质以及潜在应用(比如,基因组测序、靶向测序、RNA-seq、ChIP-seq、RIP-seq和甲基化),在制备高质量测序文库的内容中将提到。另外,我们也会讨论制备单细胞来源的文库的方法。

在过去的5年里,NGS技术在生命科学领域的研究人员中得到了广泛应用。与此同时,随着测序技术的发展和进步,衍生了一些核酸提取和文库制备的方法。比如,已经可以成功利用来自单细胞的RNA和DNA进行文库的制备. NGS文库制备的基础是将靶向的核酸、RNA或DNA 改造成测序仪可以使用的形式(Fig 1)。在这儿,我们对比了多个文库制备策略以及NGS应用,主要着眼于与illumina测序技术兼容的文库。但是,需要指出一点,本文讨论的几乎所有原则只要稍加修饰便可应用于其他NGS平台,比如,Life Technologies、Roche和Pacific Biosciences。

一般来说,文库制备的核心步骤包括:1)片段化及或选出特定长度的片段,2)将其转化为双链的形式,3)将寡核苷酸接头连接至片段末尾以及4)对文库进行定量;目标DNA片段的大小是NGS文库构建的关键因素。对核酸进行片段化的方法主要包括物理、酶切和化学的方法。物理方法包括声波剪切(代表:Covaris)和超声(代表:BioRuptor),酶切方法包括非特异性内切酶和转座酶片段化;我们实验室中,Covaris, Woburn, MA主要用于获得100-5000bp范围的DNA片段,而Covaris g-TUBEs主要用于mate-pair文库所必需的6-20kb范围的DNA片段。酶切的方法包括DNase I或片段化酶的消化,一个两种酶的混合(New England Biolabs, Ipswich MA)。两种方法都很有效。但是,片段化酶相比物理方法会产生更多的假indel。另一种酶切方法是Illumina的Nextera,利用转座酶进行随机片段化并把接头序列插入双链DNA中。 这种方法有几个优势,包括,减少样品处理和制备的时间。

文库大小是由插入片段(指的是接头序列之间的文库部分)大小决定的,因为接头序列的长度是不变的。反过来说,最佳插入片段长度是有NGS设备以及特定测序应用决定的。比如, illumina中,最佳片段大小是受簇生成过程影响的,这个过程包括,文库编写、稀释以及分布至芯片表面进行扩增。虽然,短片段扩增更加有效,长片段文库能够产生更大、更弥散的簇。我们用illumina测序的文库最大为1500bp。

最佳文库大小也是由测序应用决定的。对于外显子测序来说,80%的人类外显子长度小于200bp。我们测试PE100bp,外显子文库大小约为250bp,这样可以匹配大多数外显子的平均大小,结果中没有重叠的读对。 RNA-seq文库大小也是由应用决定的。对于基因表达分析我们采用SE100的测序。但是对于,可变剪切或转录起始终止位点的判定,我们选择PE100的方案。大多数应用中,RNA在片段化之前会逆转录成cDNA的形式。一般是利用二价金属离子(镁或锌)对RNA进行可控的热消化。文库片段大小可以通过调节消化反应的时间来控制,重复性很好。

在最近对7个RNA-seq文库制备方法的研究中,大多是先对RNA进行片段化然后进行加接头。有两种方法,不利用随机引物,或者说在SMARTer Ultra Low RNA试剂盒中, 合成具有固定3',5'序列的全长cDNA序列。 全长的cDNA文库(平均2kb)可以通过长距离PCR(LD-PCR)进行扩增。这种扩增的双链cDNA再通过声波剪切至合适的长度,用在标准的illumina文库准备过程中(包括,末端修复和补平,加A和接头连接,再通过PCR进行扩增。)

另一种文库构建后对文库大小处理步骤是片选以及去除接头二聚体或其他文库制备的副产物。接头二聚体是接头自连的结果。这些二聚体成簇效率非常高,而且会消耗掉珍贵的芯片空间,但不产出任何有效数据。因此,我们通常利用磁珠法或切胶回收。磁珠法适用于起始材料比较充足的情况。若样本投入有限,就会生成更多的接头二聚体。我们的经验是,磁珠为基础的方法在这种情况下不适用,需要结合磁珠和切胶回收的方法。

在microRNA/small RNA文库制备过程中,目的产物通常只比120bp的接头二聚体长20-30bp。因此,必须使用切胶回收的方法获得尽可能多的目的序列。这种分离精度对于磁珠来说就不适用。另外,我们经常需要建大插入片段(1kb)的文库,结合更长的读长PE300以及无PCR步骤,用于细菌基因组的从头组装。为了尽可能获得可用于组装的数据,就必须要小心地进行切胶回收以获得大小较为一致的插入片段。

在利用DNA样本进行文库构建过程中有几个考虑,包括起始材料的量以及该文库是用于重测序(有可用于比对的参考序列)还是从头测序(需要利用此次下机数据组装出新的参考序列)。文库制备容易存在bias,这是由于基因组存在高GC或低GC的区域,目前已经开发了解决这些问题的方法,包括仔细选择用于扩增的聚合酶、循环数、条件以及缓冲液等。

DNA样本的文库制备,不管是用于WGS、WES、ChIP-seq还是PCR扩增子,一般都遵循相同的流程。总的来说,对于任何应用,目标都是使文库尽可能的复杂。

DNA建库试剂盒目前有多个品牌。竞争也促使价格迅速下降以及质量的提升。这些试剂盒能够处理DNA起始量从ug到pg多个级别。但是,我们需要记住一点,起始量大可以降低扩增循环数,因此文库复杂度更高。除Nextera外,文库制备步骤通常包括:1)片段化,2)末端修复,3)5端磷酸化,4)3端加A,5)接头连接,6)几个cycle的PCR以富集加了接头的产物。Ion Torrent流程的主要不同在于平末端连接不同的接头序列。

起始DNA被片段化后,会使用3个酶的混合物( T4 多聚核苷酸激酶、T4 DNA聚合酶以及 Klenow大片段 )进行末端补平和5端磷酸化。3端加A尾利用Taq聚合酶或Klenow片段(exo-)。Taq在加A尾上更有效率,但Klenow在不能用加热方法时,比如mate-pair文库可以适用。在接头连接过程中,最适的接头:片段比例大约为10:1,以摩尔数为单位。接头太多会形成难以分离的二聚体,这些二聚体在随后的扩增中会占主导地位。末端修复和加A反应后,磁珠或胶回收的方法都适用,但连接反应后我们发现,磁珠的方法能够更有效地去除接头二聚体。

为了便于多样本混合,可以对不同样本使用不同barcode的接头。另外barcode也可以由PCR扩增过程经不同barcode的引物加入。可以从多个供货商购买高质量的带barcode的接头和PCR引物。 目前DNA文库构建的所有组分,从接头到酶,都有详细的文字说明,可以组装成自制的文库制备试剂盒。

另一种方法是Nextera方法,利用转座酶对DNA进行随机打断,并在一个单管中对其加标签(又称tagmentation)。这种工程化的酶有两个功能,对DNA进行片段化,并将特定的接头加到片段化DNA的两端。 这些接头序列在接下来的PCR过程中用于扩增插入片段。PCR反应会加入barcode。这个制备过程相对传统方法的优势在于,将片段化、末端修复和接头连接合并成一步。这种方法相对于机械片段化的方法来说,对DNA的起始量更加敏感。为了实现在合适的距离进行片段化,转座酶相对样本的比例非常关键。因为片段大小依赖于反应效率,所有反应的参数,比如,温度和反应时间,都非常关键,需要严格控制。

一些课题组发表了对单个细胞基因组进行测序的结果。现在的策略采用多重链置换(MDA)对整个基因组进行扩增。MDA主要是利用了随机引物和phi29,一种高度进行性的链置换聚合酶。虽然这个技术能够产生足够的量用于测序文库的构建 ,但它的一个问题在于非线性扩增造成的大量的bias。最近有研究认为通过加入一个半线性的预扩增步骤能够减少bias。Fluidgm基于单细胞分离和微流控技术用于单细胞文库制备,每次运行可获得最多96个单细胞。

对于RNA文库,我们需要根据测序目的来进行文库构建方案的筛选。如果目的是发现复杂全面的转录事件,文库需要覆盖整个转录组,包括,编码、非编码、反义以及基因间RNA,而且需要尽可能的完整。但是,很多场合,目的只是研究能够翻译成蛋白质的编码mRNA的转录本。另一种情况只涉及small RNA,大多miRNA,也包括snoRNA,piRNA,snRNA以及tRNA。虽然,我们想要详述RNA测序文库的原则,但无法一一列举。感兴趣的读者可以自行研究。

NGS应用到RNA-seq最初成功的例子之一是 miRNA 。制备miRNA测序文库非常简单,通常是一步反应。事实上,miRNA在5端有天然磷酸修饰,这允许连接酶选择性地靶向miRNA。

illumina步骤的第一步,3端阻断,5端腺苷化的DNA接头通过截断的T4 RNA连接酶2被连接至RNA样本。这个酶经过修饰,能够对3端接头底物进行腺苷化。结果是,其他RNA片段在这个反应中不会连接在一起。只有腺苷化的寡核苷酸可以连接到游离的RNA的3端末端。由于接头3端是阻断的,无法进行自连。下一步,在ATP和RNA连接酶1的作用下加入5端RNA接头。 只有5端磷酸化的RNA分子能够在连接反应中作为有效的底物。第二步连接反应后,逆转录引物杂交到3端接头,开始启动RT-PCR 扩增(一般是12个循环)。由于小且片段大小可预测(120bp 接头序列加上20-30bp miRNA插入片段),文库或多个barcode混合样本通常一起进行切胶回收。 由于存在接头二聚体以及非miRNA的连接(tRNA和snoRNA),切胶回收非常重要。这种文库制备方法导致文库的测序具有方向性,总是从原始RNA的5端到3端。Ion Torrent 的miRNA测序原则也是相似的。Ion Torrent利用两种不同的接头连接至miRNA 3端和5端,随后进行RT-PCR。一般,文库构建步骤可以将任何RNA材料构建成有方向性的RNA-seq文库。

miRNA文库的一大限制在于RNA的起始量低(<200ng 总RNA);短接头二聚体在RT-PCR反应中与目的产物、接头和miRNA进行竞争。 当存在太多二聚体时,他们会在片段筛选时充斥整个凝胶,污染产物条带。为了尽量避免这种情况,很多试剂盒采取了各种方式来避免二聚体的形成。

对于mRNA测序文库,方法主要包括利用随机引物或oligo-dT引物进行cDNA合成或在mRNA片段上加接头后进行某种形式的扩增。mRNA可以由随机引物或oligo-dT起始产生一链cDNA。如果使用随机引物,必须先将rRNA去除或减少。rRNA可以通过寡核苷酸探针为基础的试剂,比如,Ribo-Zero和RiboMinus,进行去除。另外,polyA RNA可以通过oligo-dT磁珠进行正向筛选。

通常希望文库能够留有原始目的RNA的链的 方向性 。比如,逆转录产生的反义RNA在调节基因表达中发挥作用。实际上,lncRNA分析依赖于定向RNA测序。制备定向RNA-seq文库的方法有几种。逻辑时,进行cDNA反应,将两条链中的1条有选择地移除,通过,在第二条cDNA链合成时加入dUTP。尿嘧啶包含的链可以被响应的酶消化掉或者扩增的时候用不识别尿嘧啶的聚合酶。 另外,加入actinomycin D可以减少一链cDNA合成过程中假义链的合成。

另一种杂交方法利用随机或锚定oligo-dT引物的接头序列起始第一链cDNA的合成。接下来,在模板转换步骤,3端接头序列添加到cDNA分子。这种方法的明显优势在于第一链cDNA分子可以利用3端的唯一序列标签无需进行第二链合成,直接通过PCR进行扩增。5端唯一序列标签在第一链合成过程中引入。

用于cDNA合成的引物设计对于RNA-seq文库非常重要。比如,rRNA序列可以通过设计靶向rRNA的引物(不用于进一步扩增)进行去除。 NuGEN Ovation RNA-seq结合SPIA( Single primer isothermal amplification )核酸扩增技术以及用于第一链cDNA合成的引物来抑制rRNA的扩增。另一种方法中利用4096种六聚体来抑制rRNA序列(识别并消除完美匹配)。749种六聚体保留并用于起始第一链cDNA合成反应。结果是,rRNA reads从78%降至13%。还有一种方法叫, DP-seq ,利用44个7聚体引物扩增了大部分的小鼠转录本。这种引物设计选择性地抑制了高表达转录本的扩增,包括rRNA,并提供了胚胎发育模型中低丰度转录本的估计。

最近发表了一些制备单细胞RNA文库的方法。一种方法利用第一链cDNA的多聚核苷酸尾巴,结合模板转换反应。结果是第一链cDNA产物可以通过通用PCR引物进行扩增。如图,Figure4B所示,且已并入是试剂盒中。另一种方法叫 CEL-Seq ,在cDNA 5端合成T7启动子序列,随后在体外转录过程中进行现象扩增。

单个细胞的总RNA一般为10pg,但polyA RNA只有0.1pg。因此,这些方法某种程度上需要全转录本扩增以产生足够的建库所需起始量。这样大量扩增的弊端就在于大量技术噪音的产生,这一问题目前尚未解决。 (?)

最后,核糖体印记能够反应翻译的任何节点上细胞mRNA转录本的混合。这种方法涉及到利用RNase对细胞进行裂解,只留下被核小体保护的30个核苷酸的区域。核小体经蔗糖梯度密度离心进行纯化,接着mRNA被从核小体中提取出来。另一种新的RNA测序的应用是 SHAPE-Seq,通过酰化试剂来偏向性地修饰未配对的碱基以探索RNA的二级结构。通过对修饰的RNA和未修饰的对照进行逆转录,对得到的cDNA片段进行测序,比较后能够揭示核苷酸水平的碱基配对信息。

DNA与蛋白质相互作用的研究方法有哪些

优质回答在许多的细胞生命活动中,例如DNA复制、mRNA转录与修饰以及病毒的感染等都涉及到DNA与蛋白质之间的相互作用的问题。重组DNA技术的发展,人们已分离到了许多重要的基因。现在的关键问题是需要揭示环境因子及发育信号究竟是如何控制基因的转录活性。为此需要:a、鉴定分析参与基因表达调控的DNA元件;b、分离并鉴定这些顺式元件特异性结合的蛋白质因子;这些问题的研究都涉及到DNA与蛋白质之间的相互作用。

研究DNA-蛋白质相互作用的实验方法主要包括:a、凝胶阻滞实验; b、DNase 1 足迹实验;c、甲基化干扰实验; d、体内足迹实验; f、拉下实验。研究蛋白质/ 核酸相互作用近期采用的新技术有:核酸适体技术、生物信息学方法、蛋白质芯片技术以及纳米技术等。

凝胶阻滞实验

1、概念:

凝胶阻滞实验(Gel retardation assay),要叫做DNA迁移率变动试验(DNA mobility shift assay)或条带阻滞实验(Band retardation assay)是在八十年代初期出现的用于在体外研究DNA与蛋白质相互作用的一种特殊的凝胶电泳技术。

2、原理:

在凝胶电泳中,由于电场的作用,裸露的DNA分子向正电极移动距离的大小是同其分子量的对数成反比。如果某种DNA分子结合上一种特殊的蛋白质,那么由于分子量的加大它在凝胶中的迁移作用便会受到阻滞,于是朝正极移动的距离也就相应的缩短,因而在凝胶中出现滞后的条带,这就是凝胶阻滞实验的基本原理。

3、过程:

首先制备细胞蛋白质提取物(理论上其中含有某种特殊的转录因子)

用放射性同位素标记待检测的DNA片段(含有转录因子的结合位点)

这种被标记的探针DNA同细胞蛋白质提取物一起进行温育,于是产生DNA-蛋白质复合物

在控制使DNA-蛋白质保持结合状态的条件下,进行非变性聚丙烯酰胺凝胶电泳

最后进行放射自显影,分析电泳结果

4、实验结果的分析:

a、如果有放射性标记的条带都集中于凝胶的底部,这就表明在细胞提取物中不存在可以同探针DNA相互结合的转录因子蛋白质;

b、如果在凝胶的顶部出现放射性标记的条带,这就表明细胞提取物存在可与探针DNA结合的转录因子蛋白质。

5、DNA竞争实验:

DNA竞争实验(DNA competitive assay)的具体做法如下:

在DNA-蛋白质结合的反应体系中加入了超量的非标记的竞争DNA(competitor DNA),如果它同探针DNA结合的是同一种转录因子蛋白质,那么由于竞争DNA与探针DNA相比是极大超量的,这样绝大部分转录因子蛋白质都会被竞争结合掉,而使探针DNA仍然处于自由的非结合状态,可以在电泳凝胶的放射自显影图片上就不会出现阻滞的条带;

如果反应体系中加入的竞争DNA并不能同探针DNA竞争结合同一种转录因子,结果在电泳凝胶中的放射自显影图片上就会出现阻滞的条带。

6、应用:

a、凝胶阻滞实验可以用于鉴定在特殊类型细胞蛋白质提取物中,是否存在能同某一特定的DNA(含有转录因子结合位点)结合的转录因子蛋白质;

b、DNA竞争实验可以用来检测转录因子蛋白质同DNA结合的精确序列部位;

c、通过竞争DNA中转录因子结合位点的碱基突变可以研究此种突变竞争性能及其转录因子结合作用的影响;

d、也可以利用DNA同特定转录因子的结合作用通过亲和层析来分离特定的转录因子。

DNaseI足迹实验

1、定义:

足迹实验(foot-printing assay),是一种用来检测被特定转录因子蛋白质特异性结合的DNA序列的位置及其核苷酸序列结构的专门实验方法。

2、原理:

当DNA分子中的某一区段同特异的转录因子结合之后便可以得到保护而免受DNaseI 酶的切割作用,而不会产生出相应的切割分子,结果在凝胶电泳放射性自显影图片上便出现了一个空白区,俗称为“足迹”。

3过程:

将待检测的双链DNA分子在体外用32P作5‘末端标记,并用适当的限制性内切酶切出其中的一个末端,于是便得到了一条单链末端标记的双链DNA

在体外同细胞蛋白质提取物(细胞核提取物也可以)混合,形成DNA-蛋白质复合体

在反应混合物中加入少量的DNase I,并控制用量使之达到平均每条DNA链,只发生一次磷酸二酯键的断裂:

a、如果蛋白质提取物中不存在与DNA结合的特定蛋白质,使DNase I消化之后,便会产生出距离放射性标记末端1个核苷酸,2个核苷酸,3个核苷酸------等等一系列前后长度均相差一个核苷酸的不间断的连续的DNA片段梯度群体;

b、如果DNA分子同蛋白质提取物中的某种转录因子结合,被结合部位的DNA就可以得到保护免受DNase I酶的降解作用;

除去蛋白,加样在20%序列胶上进行电泳分离,实验分两组:

a、实验组:DNA+蛋白质混合物

b、对照组:只有DNA,未与蛋白质提取物进行温育

最后进行放射性自显影,分析实验结果。

4、结果判断:

实验组凝胶电泳显示的序列,出现空白的区域表明是转录因子蛋白质结合部;与对照组序列比较,便可以得出蛋白质结合部位的DNA区段相应的核苷酸序列。

5、其他的足迹实验方法:

除了DNase1足迹试验之外,目前还发展出了若干种其他类型的足迹实验,例如:

a、 自由羟基足迹实验;b、菲咯啉铜足迹实验;c、DMS(硫酸二甲酯)足迹实验

DMS(硫酸二甲酯)足迹实验的原理

DMS能够使DNA分子中裸露的鸟嘌呤(G)残基甲基化,而六氢吡啶又会对甲基化的G残基作特异性的化学切割。如果DNA分子中某一区段同转录因子结合,就可以避免发生G残基的甲基化而免受六氢吡啶的切割作用。

甲基化干扰实验

1、概念:

甲基化干扰实验(Methylation interference assay)是根据DMS(硫酸二甲酯)能够使DNA分子中裸露的鸟嘌呤(G)残基甲基化,而六氢吡啶又会对甲基化的G残基作特异性的化学切割这一原理设计的另一种研究蛋白质同DNA相互作用的实验方法。

应用这种技术可以检测靶DNA中G残基的优先甲基化,对尔后的蛋白质结合作用究竟会有什么效应,从而更加详细的揭示出DNA与蛋白质相互作用的模式。

2、实验步骤:

用DMS处理靶DNA使之局部甲基化(平均每条DNA只发生一个G碱基甲基化作用)

同细胞蛋白质提取物一起进行温育,促进使DNA与蛋白质的结合

进行凝胶电泳形成两种靶DNA条带:

a、 其一没有同蛋白质结合的DNA正常电泳条带

b、其二同特异蛋白质结合而呈现滞后的DNA电泳条带

将这两种DNA电泳条带分别从凝胶中切出,并用六氢吡啶进行切割,结果为:

a)、甲基化的G残基被切割:因为转录因子蛋白质只能够同未发生甲基化的正常的结合位点结合,所以在转录因子DNA结合位点序列中的G残基如果被DMS甲基化之后,转录因子就无法同其结合位点(顺式元件)发生结合作用,从而使得结合位点中的G残基同样也要被六氢吡啶切割;

b)、不具有甲基化G残基的靶DNA 序列则不会被切割

将结合蛋白质的DNA条带和不结合蛋白质的DNA条带,经六氢吡啶切割作用之后,再进行凝胶电泳

作放射自显影,读片并分析结果

3、结果判断:

a、同转录因子蛋白质结合的靶DNA序列,经六氢吡啶切割之后,电泳分离呈现两条带,有一个空白区

b、不同转录因子蛋白质结合的靶DNA序列,经六氢吡啶切割后,电泳分离呈现三条带,没有空白区域的出现。

4、应用:

a、甲基化干扰实验可以用来研究转录因子与DNA结合位点中的G残基之间的联系;

b、是足迹实验的一种有效的补充手段,可以鉴定足迹实验中DNA与蛋白质相互作用的精确位置

5、缺点:

DMS只能使DNA序列中的G和A残基甲基化,而不能使T和C残基甲基化。

体内足迹实验

上面讨论的三种研究转录因子与DNA相互作用的方法,有一个共同的不足之处在于它们是在体外进行的实验,因此人们就会考虑这些实验结果是否能够反映细胞内发生的真实生命过程,即细胞内发生的真实的DNA与蛋白质的相互作用情况。

为了解答这个问题,科学家就设计出了一种体内足迹试验(in vivo foot-printing assay),该方法可以看做是体外DMS足迹实验的一个变种。

1、原理:

体内足迹试验的原理原则上同体外DMS足迹实验无本质差别,即

a、DMS能够使G残基甲基化;

b、六氢吡啶能特异的切割甲基化的G残基;

c、同特异转录因子蛋白质结合的识别序列中的G残基由于受到蛋白质的保护而不会被DMS甲基化,于是不会被六氢吡啶切割;

d、同对照的裸露的DNA形成的序列梯作比较,就会发现活细胞DNA形成的序列梯中缺少G残基没有被切割的相应条带。

2、过程:

用有限数量的化学试剂DMS处理完整的游离细胞,使渗透到胞内的DMS浓度恰好导致天然染色体DNA的G残基发生甲基化

对这些经过DMS处理的细胞提取DNA,并在体外加入六氢吡啶作消化反应

PCR扩增后作凝胶电泳分析,因为在体外实验中用的是克隆的DNA片段其数量足够,而在体内足迹实验中用的是从染色体DNA中分离获得的任何一种特异的DNA,其数量是微不足道的,所以需要经PCR扩增以获得足够数量的特异DNA

放射自显影,读片并记录读片的结果

3、结果判断:

a、能够同转录因子蛋白质结合的DNA区段其中G残基受到保护因而不会被DMS甲基化避免了六氢吡啶的切割作用;

b、体外裸露的DNA分子上,G残基被DMS甲基化而被六氢吡啶切割。

拉下实验(Pull-down assay)

拉下实验又叫做蛋白质体外结合实验(binding assay in vitro),是一种在试管中检测蛋白质之间相互作用的方法。其基本原理是将某种小肽(例如生物素、6-His标签以及谷胱甘肽转移酶等)的编码基因与诱饵蛋白的编码基因重组,表达为融合蛋白。分离纯化融合蛋白并与磁珠结合,使之固相化之后,再与表达目的蛋白的细胞提取物混合保温适当时间,例如在4℃下保温过夜,使目标蛋白同已经固定在磁珠表面的融合蛋白中的诱饵蛋白充分的结合。离心收集与固定化的融合蛋白(即与磁珠相互结合的融合蛋白)中的诱饵蛋白相结合的目的蛋白,经过煮沸处理使目的蛋白与诱饵蛋白相脱离从而从固相支持物(例如磁珠)上脱离下来,收集样品,再与目标蛋白的抗体作Western blotting分析,以检测出与诱饵蛋白的目标的目标蛋白。

一些新的研究蛋白质/ 核酸相互作用的方法和技术,主要从核酸适体技术、生物信息学方法、蛋白质芯片技术以及纳米技术等方面进行综述。

核酸适体技术

核酸适体(aptamer)指的是经过一种新的体外筛选技术——指数富集配体系统进化(systematic evolution of ligands by exponential enrichment,SELEX),从随机单链寡聚核苷酸文库中得到的能特异结合蛋白质或其他小分子物质的单链寡聚核苷酸,可以是RNA 也可以是DNA,长度一般为25~60 个核苷酸。SELEX 的筛选流程首先是利用现有的分子生物学技术人工合成一个含有1014~1015 个单链寡核苷酸序列的随机文库,序列长度往往在25~35 个核苷酸之间,单链的随机寡核苷酸序列容易形成可与蛋白质等配体特异性共价结合的二级结构,在这一高亲和力特异性结合的基础之上配体蛋白质同随机文库相互作用,选择性分离出核酸适体后,然后通过PCR或RT-PCR 等技术进行扩增。次一级文库再与配体蛋白质相互作用,反复多次循环,即可获得与配体蛋白质特异性高亲和力结合的核酸适体。核酸适体与配体间的亲合力(解离常数在皮摩和纳摩之间)常要强于抗原抗体之间的亲合力[3]。核酸适体所结合的靶分子范围非常广泛,除蛋白质之外,还能作用于酶、生长因子、抗体、基因调节因子、细胞黏附分子、植物凝集素、完整的病毒颗粒、病原菌等[4]。适体从20 世纪90 年代初出现以后,就得到了科研工作者的广泛关注,适体的研究工作得到了快速的发展。SELEX 筛选技术和核酸适体的高亲和性在蛋白质/ 核酸相互作用的研究中发挥了重要的作用。Wen等[5]研究了同细菌噬菌体Ff 基因5蛋白(g5p) 高亲和力结合的核酸适体,发现G 富集基序对于形成g5p 连接启动子结构,提供实际的g5p 连接位点具有重要的意义。White 等[6]利用SELEX 技术研究了一种PUM2HD (短小杆菌素同源结构域)及其RNA 核酸适体,发现在PUM2 氨基端有Ser和Glu/Ala富集区,并且PEB ( PUM2 连接元件)与果蝇反应元件的3'端具有亲缘关系,但又互不相同。Bouvent等[7]利用NRE(核仁蛋白识别元件) 发现了RNA 茎环上的RBD1 和RBD2 (折叠元件结构域),这对了解模式蛋白识别RNA 的结构过程具有重要意义。核酸适体以及SELEX 技术给蛋白质/ 核酸相互作用研究提供了一种新颖的研究方法,科研人员可以控制筛选条件得到与待研究蛋白质相互结合的核酸适体,避免了天然条件下研究蛋白质/ 核酸相互作用的困难性。但目前对核酸适体与靶蛋白相互作用的分析是在筛选条件与天然条件相同的假设基础上进行的,在这种筛选条件下得到的核酸适体与蛋白质之间的相互作用,和天然状态下的蛋白质/ 核酸之间的相互作用到底有何异同,这是一个亟待解决的问题,此问题的解决必将推动蛋白质/ 核酸相互作用的研究进展。

生物信息学方法

生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它包含着生物信息的获取、处理、存储、分配、分析和解释的所有方面。具体地说,生物信息学是用数理和信息科学的观点、理论和方法去研究生命现象,组织和分析呈现指数增长的生物学数据的一门学科。Luscombe和Thornton[8]利用氨基酸序列的保守性构建计算机算法来预测蛋白质/DNA复合体中DNA的结合位点。Selvaraj等[9]将蛋白质/核酸复合体中原子电荷势能作为训练数据集,利用人工智能技术来预测蛋白质对DNA 的识别位点。Ahmad 等[10]将蛋白质的序列组成、可溶解性以及二级结构等信息数据用人工神经网络算法进行训练,构建了在线蛋白质/ 核酸结合预测技术,预测成功率达到了69%。此后Ahmad 和Sarai[11]将此技术进一步加强,在训练人工神经网络时加入了蛋白质进化关系的信息,使预测成功率提高了8.7%。目前建立在蛋白质/ 核酸相互作用基础上的较重要的数据库为蛋白质- 核酸识别数据库(),利用该数据库能帮助研究者了解核酸被蛋白质识别的机制。该数据库包括以下几个组成部分。

2.1蛋白质-核酸复合物数据库蛋白质-核酸复合物数据库是一个包含蛋白质- 核酸复合物结构数据的数据库。这些数据根据蛋白质的识别序列和复合物中DNA 形式进行分类。使用者可以通过关键词、识别序列、D N A 形式等进行搜索,并且搜索结果可以直接链接到3DinSight数据库(在此处,可以通过三维结构浏览器,如RasMol 或者VRML 查看含有序列位点和突变位点的三维结构图)。该数据库也能让使用者检测依赖于序列的构象参数和DNA 的柔韧性,并以图表形式显示结果。

2.2核苷酸-氨基酸相互作用数据库核苷酸-氨基酸相互作用数据库搜集核苷酸和氨基酸间4 埃大小内的成对原子,能让使用者找到成对的核苷酸和氨基酸。使用者可以指定残基名称( 核苷酸或氨基酸)、原子类型和侧链/ 骨干。搜索后,带有距离值的所有原子对将被显示。搜索可直接链接到3DinSight 数据库,以RasMol 图片形式自动地突出展示复合物结构中所有原子对。使用者可以检测到每个结构中核苷酸和氨基酸的特别相互作用。

2.3蛋白质-核酸相互作用的热力学数据库(ProNIT)

蛋白质- 核酸相互作用的热力学数据库包含有序列、结构和一些热力学参量(如分裂常数、结合常数、吉布斯自由能的转换、焓和热容量、活性)等信息。该数据库允许使用者用不同条件(多种分类和显示选项)搜索数据。此外,ProNIT 超链接于其他重要的数据库,如PDB、核酸数据库NDB 、酶代码EC、蛋白质信息资源PIR 和ProTherm 等等。当前,在分子生物学和信息科学快速发展的影响下,生物信息学已经成为生物领域的指导科学,利用生物信息学方法研究蛋白质/核酸相互作用可以大大缩短研究工作的时间,达到事半功倍的效果。但受限于当前计算科学和算法领域的发展情况,生物信息学得到的结果与实际的结果还存在一定的偏差,仍需开展进一步的实验工作来进行验证。

生物芯片技术

生物芯片技术是基于生物大分子间相互作用的大规模并行分析方法,使得生命科学研究中所涉及的样品反应、检测、分析等过程得以连续化、集成化和微型化,现已成为当今生命科学研究领域发展最快的技术之一。目前的生物芯片主要有核酸芯片、蛋白质芯片和糖体芯片等几大类。蛋白质芯片是依靠手工、压印或喷墨的方法将探针蛋白点样在化学膜、凝胶、微孔板或玻片上形成阵列,经过与样品的杂交捕获靶蛋白,再用原子力显微镜、磷光成像仪、光密度仪或激光共聚焦扫描仪进行检测,获得靶蛋白表达的种类、数量及关联等信息。蛋白质芯片已经广泛用于研究蛋白质与核酸的相互作用,已成为一种进行高通量蛋白质与DNA 或RNA作用筛选的有效方法。Ge[12]运用蛋白质芯片检测蛋白质与核酸相互作用,他将包括通用转录因子、激活蛋白和辅激活蛋白在内的48种纯化蛋白质点样在硝酸纤维素膜制成通用蛋白质芯片,用腺病毒主要晚期启动子64 bp 双链DNA 片段、腺病毒主要晚期启动子64 bp 负链DNA 和SV40 早期前体mRNA 杂交,结果证明蛋白质芯片上的所有蛋白质都能够不同程度地特异性识别和结合双链和单链寡核苷酸片段,并且结合双链DNA 和单链DNA 的总体模式基本相同,说明大多数D N A 结合蛋白既能和双链DNA 结合,也能够和单链DNA 结合。蛋白质芯片与RNA 的作用研究表明,蛋白质芯片能够成功地分析RNA 与蛋白质间的识别性结合。蛋白质芯片技术最大优点在于快速和高通量,以往科研人员作研究时一次只能研究少量生物样品,借助蛋白质芯片,一次实验可同时研究大量生物样本,加速了蛋白质/ 核酸相互作用的研究。蛋白质芯片技术目前存在的问题有:(1)蛋白质芯片在制作过程中实验条件发生微小的变化便可能引起最后结果的不同,实验条件不易控制,使得实验结果的可重复性相对不足;(2) 目前用于蛋白质芯片制备的固相介质,如化学膜、凝胶和玻片都存在一些缺点,蛋白质在固相基质表面的固定往往会造成其解折叠,从而失去生物活性;(3)对结果的扫描、去除背景、数据处理等,目前还不能做得很完美,会导致假阳性、假阴性的存在。

纳米技术

纳米技术(nano scale technology) 是一门在0.1~100nm 空间尺度内操纵原子和分子,对材料进行加工、制造具有特定功能的产品、或对某物质进行研究,掌握其原子和分子的运动规律和特性的崭新高技术学科。核酸和蛋白质等生物大分子的大小也是在纳米尺度,随着科学技术的快速发展,越来越多的纳米技术被用来研究生物大分子。在蛋白质/ 核酸相互作用的研究工作中,目前使用较新的技术是利用纳米孔技术来进行研究。纳米孔(nanopore),可以简单地定义为内径为1~100nm 的微小洞孔,一般孔径应大于洞孔深度,或者处于同一量级。如果孔的深度远大于孔径,就称之为纳米孔道。纳米孔有天然存在的生物纳米孔,也有人工加工的纳米孔。它们都可以用来进行生命科学的相关研究,但是,理想的生物化学或生物物理研究应采用孔径稳定、坚固耐用、物化性能良好的固体纳米孔,这样的纳米孔应该由质地坚硬的固体薄膜材料加工制作。Li等[16]利用聚焦离子束(FIB)制作纳米孔,利用纳米孔将双螺旋DNA 从组蛋白八聚体上剥离下来,并探测这一过程,从而可以揭示核小体中包含的许多生物化学、物理信息。这是由于处于电场中的核小体在电场的作用下,DNA 分子穿越纳米孔,同时由于纳米孔的阻挡力,使组蛋白不能穿越,从而诱使DNA 从组蛋白八聚体上分离下来。通过准确检测DNA 分子穿孔过程中引起的电流阻塞效应,可将DNA 与组蛋白的相互作用的一些性质反映出来。目前已经取得了阶段性的成果。在纳米尺度上研究核酸与蛋白质相互作用,相较于其他的研究方法,优点是能够在生物活性环境中,保持生物大分子受到最少化学修饰干扰的状态下,对生物大分子的空间结构、动态变化、生化特性等进行直接研究。相信该技术可以提供更多、更详细的生物大分子相互作用、蛋白质功能等方面的信息我们解决一些深层次的生物学疑难问题。目前阻碍此方法广泛应用的一个最大难题是如何在纳米尺度上更好的操纵生物大分子,这需要生物科学、电子科学、材料科学等多学科的共同进展来推动此方法的发展和应用。

测序相关知识总结

优质回答高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。

Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。

全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。

de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

转录组学(transcriptomics)是在基因组学后新兴的一门学科,即研究特定细胞在某一功能状态下所能转录出来的所有RNA(包括mRNA和非编码RNA)的类型与拷贝数。Illumina提供的mRNA测序技术可在整个mRNA领域进行各种相关研究和新的发现。mRNA测序不对引物或探针进行设计,可自由提供关于转录的客观和权威信息。研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA完整序列信息,并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。简单的样品制备和数据分析软件支持在所有物种中的mRNA测序研究。

Small RNA(micro RNAs、siRNAs和 pi RNAs)是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。Illumina能够对细胞或者组织中的全部Small RNA进行深度测序及定量分析等研究。实验时首先将18-30 nt范围的Small RNA从总RNA中分离出来,两端分别加上特定接头后体外反转录做成cDNA再做进一步处理后,利用测序仪对DNA片段进行单向末端直接测序。通过Illumina对Small RNA大规模测序分析,可以从中获得物种全基因组水平的miRNA图谱,实现包括新miRNA分子的挖掘,其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。

成熟的microRNA(miRNA)是17~24nt的单链非编码RNA分子,通过与mRNA相互作用影响目标mRNA的稳定性及翻译,最终诱导基因沉默,调控着基因表达、细胞生长、发育等生物学过程。基于第二代测序技术的microRNA测序,可以一次性获得数百万条microRNA序列,能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下已知和未知的microRNA及其表达差异,为研究microRNA对细胞进程的作用及其生物学影响提供了有力工具。

染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。

ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。

CHIRP-Seq( Chromatin Isolation by RNA Purification )是一种检测与RNA绑定的DNA和蛋白的高通量测序方法。方法是通过设计生物素或链霉亲和素探针,把目标RNA拉下来以后,与其共同作用的DNA染色体片段就会附在到磁珠上,最后把染色体片段做高通量测序,这样会得到该RNA能够结合到在基因组的哪些区域,但由于蛋白测序技术不够成熟,无法知道与该RNA结合的蛋白。

RNA Immunoprecipitation是研究细胞内RNA与蛋白结合情况的技术,是了解转录后调控网络动态过程的有力工具,能帮助我们发现miRNA的调节靶点。这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来,然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。

RIP可以看成是普遍使用的染色质免疫沉淀ChIP技术的类似应用,但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物,RIP实验的优化条件与ChIP实验不太相同(如复合物不需要固定,RIP反应体系中的试剂和抗体绝对不能含有RNA酶,抗体需经RIP实验验证等等)。RIP技术下游结合microarray技术被称为RIP-Chip我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。

CLIP-seq,又称为HITS-CLIP,即紫外交联免疫沉淀结合高通量测序(crosslinking-immunprecipitation and high-throughput sequencing), 是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的革命性技术。其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联,以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后,回收其中的RNA片段,经添加接头、RT-PCR等步骤,对这些分子进行高通量测序,再经生物信息学的分析和处理、总结,挖掘出其特定规律,从而深入揭示RNA结合蛋白与RNA分子的调控作用及其对生命的意义。

什么是metagenomic(宏基因组):

Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说,它具有众多优势,其中很重要的两点:(1)微生物通常是以群落方式共生于某一小生境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此做Metagenomics研究比做单个个体的研究更能发现其特性;(2) Metagenomics研究无需分离单个细菌,可以研究那些不能被实验室分离培养的微生物。

宏基因组是基因组学一个新兴的科学研究方向。宏基因组学(又称元基因组学,环境基因组学,生态基因组学等),是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养,元基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。过去几年中,DNA测序技术的进步以及测序通量和分析方法的改进使得人们得以一窥这一未知的基因组科学领域。

10 .什么是SNP、SNV(单核苷酸位点变异)

单核苷酸多态性singlenucleotide polymorphism,SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。

基因组上小片段(>50bp)的插入或缺失,形同SNP/SNV。

基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D。

染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失(引起CNV的变化),染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(inter-chromosome trans-location)等。一般SV的展示利用Circos 软件。

15.什么是Segment duplication

一般称为SD区域,串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上,有很大的SD序列。

既基因型与表型;一般指某些单核苷酸位点变异与表现形式间的关系。

17.什么是soft-clipped reads

当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

由于大部分测序得到的reads较短,一个reads能够匹配到基因组多个位置,无法区分其真实来源的位置。一些工具根据统计模型,如将这类reads分配给reads较多的区域。

21.什么是Contig N50?

Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3.………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度

1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。值越大,contig越长组装效果越好,测序效率也就越好了.

给定一组具有其自身长度的重叠群,L50计数被定义为长度总和占基因组大小一半的重叠群的最小数量。

21.1 什么是Scaffold N50?

Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3.………Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度

1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

22.什么是测序深度和覆盖度?

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。

RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]: 每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。 假如有1百万个reads映射到了人的基因组上,那么具体到每个外显子呢,有多少映射上了呢,而外显子的长度不一,那么每1K个碱基上又有多少reads映射上了呢,这大概就是这个RPKM的直观解释。

如果对应特定基因的话,那么就是每1000000 mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的read Total exon reads:This is the number in the column with header Total exonreads in the row for the gene. This is the number of reads that have beenmapped to a region in which an exon is annotated for the gene or across theboundaries of two exons or an intron and an exon for an annotated transcript ofthe gene. For eukaryotes, exons and their internal relationships are defined byannotations of type mRNA.映射到外显子上总的reads个数。这个是映射到某个区域上的reads个数,这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。对于真核生物来说,外显子和它们自己内部的关系由某类型的mRNA来注释。

Exonlength: This is the number in the column with the header Exon length inthe row for the gene, divided by 1000. This is calculated as the sum of thelengths of all exons annotated for the gene. Each exon is included only once inthis sum, even if it is present in more annotated transcripts for the gene.Partly overlapping exons will count with their full length, even though theyshare the same region.外显子的长度。计算时,计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现,这个外显子在求和时只被包含一次。即使部分重叠的外显子共享相同的区域,重叠的外显子以其总长来计算。 Mapped reads: The sum of all the numbers in the column with header Totalgene reads. The Total gene reads for a gene is the total number ofreads that after mapping have been mapped to the region of the gene. Thus thisincludes all the reads uniquely mapped to the region of the gene as well asthose of the reads which match in more places (below the limit set in thedialog in figure18.110) that have been allocated tothis gene's region. A gene's region is that comprised of the flanking regions(if it was specified in figure 18.110), the exons, the introns andacross exon-exon boundaries of all transcripts annotated for the gene. Thus,the sum of the total gene reads numbers is the number of mapped reads for thesample (you can find the number in the RNA-Seq report).map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯一映射到这个区域上的reads。

举例:比如对应到该基因的read有1000个,总reads个数有100万,而该基因的外显子总长为5kb,那么它的RPKM为:10

9*1000(reads个数)/10

6(总reads个数)

5000(外显子长度)=200或者:1000(reads个数)/1(百万)

5(K)=200这个值反映基因的表达水平。

FPKM(fragments per kilobase of exon per million fragments mapped). FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments,而RPKM计算的是reads。Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。

什么是转录本重构

用测序的数据组装成转录本。有两种组装方式:1,de-novo构建; 2,有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有参考基因组重构,是指先将read贴回到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、cufflinks。

什么是genefusion

将基因组位置不同的两个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因,或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋白。

什么是表达谱

基因表达谱(geneexpression profile):指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱

什么是功能基因组学

功能基因组学(Functuionalgenomics)又往往被称为后基因组学(Postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等。采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的

分析,新的技术应运而生,包括基因表达的系统分析(serial analysis of gene expression,SAGE),cDNA微阵列(cDNA microarray),DNA 芯片(DNA chip)和序列标志片段显示(sequence tagged fragmentsdisplay。

什么是比较基因组学

比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。

什么是表观遗传学

表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。表观遗传的现象很多,已知的有DNA甲基化(DNAmethylation),基因组印记(genomicimpriting),母体效应(maternaleffects),基因沉默(genesilencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。

什么是计算生物学

计算生物学是指开发和应用数据分析及理论的方法、数学建模、计算机仿真技术等。当前,生物学数据量和复杂性不断增长,每14个月基因研究产生的数据就会翻一番,单单依靠观察和实验已难以应付。因此,必须依靠大规模计算模拟技术,从海量信息中提取最有用的数据。

什么是基因组印记

基因组印记(又称遗传印记)是指基因根据亲代的不同而有不同的表达。印记基因的存在能导致细胞中两个等位基因的一个表达而另一个不表达。基因组印记是一正常过程,此现象在一些低等动物和植物中已发现多年。印记的基因只占人类基因组中的少数,可能不超过5%,但在胎儿的生长和行为发育中起着至关重要的作用。基因组印记病主要表现为过度生长、生长迟缓、智力障碍、行为异常。目前在肿瘤的研究中认为印记缺失是引起肿瘤最常见的遗传学因素之一。

什么是基因组学

基因组学(英文genomics),研究生物基因组和如何利用基因的一门学问。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学,和工业领域的重大问题。

什么是DNA甲基化

DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。正常情况下,人类基因组“垃圾”序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100—1000 bp左右且富含CpG二核苷酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1 Mb就有5—15个CpG岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系[9]。由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲基化所致抑癌基因转录失活问题,DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。

什么是基因组注释?

基因组注释(Genomeannotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。

什么是Q30?

Q30是指一个碱基的识别可靠性等于99.9%,或者说出错可能性是0.1%。Q20则是指碱基识别的可靠性等于99%。

Q30数据量是指一批数据中,质量高于等于Q30的数据的量的总和。

测序数据的PF data/PF reads是什么意思?

PF是pass filter的意思。也就是质量合格的意思。Illumina的测仪序会自动地对一个read(序列)的质量可靠性进行打分。

对于前25个碱基中的是否有两个碱基的识别可靠性低于0.6,是PF的判断标准。这句话翻译成较容易理解的话: 就是前25个碱基中,如果低质量的数据有2个或更多,则这条read被判定为不合格,PF就不通过。反之,则质检通过。

PF是国际公认的质检标准。

你们给的数据是什么质量的?

对于哺乳动物基因组重测序、外显子测序,我们保证数据质量是Q30的比例高于80%。对于mRNA测序,smRNA测序,我们保证对照Lane的数据质是Q30的比例高于80%。

一般情况下:

哺乳动物基因组重测序、外显子测序,GC比例在40%左右,Q30的比例是80~95%

RNA-seq,GC比例在50%左右,Q30的比例是~80%。如果Poly(A)特别多的情况下,Q30会更低一些

SmRNA-seq,因为有许多的read读通之后,只剩下一串的A,质量会更低,我们的实验结果%Q30在70~75%

测序中的Duplication是什么,如何避免,一般会有多少Duplication

所谓Duplication是指起始与终止位置完全一致的片段。

引起Duplication的主要原因是因为在测序中有PCR过程,来源于同一个DNA片段PCR的产物被重复测序,就会是Duplication。次要原因是正巧两个片段的头和尾的位置完全一致。

一般通过控制PCR的循环数来控制Duplication。我们一般控制PCR的循环次数在10~12个循环。

在药明康德外显子测序中,如果用illumina的捕获试剂盒Duplication的比例约为10%,如果用Nimblegen的捕获试剂盒Duplication的比例波动较大,在5~50%范围 ,平均为30%。

在RNA-seq中,Duplication的比例约为40%。RNA-seq中,因为高丰度的mRNA集中在几个基因上,集中度很高,所以Duplication的比例也就高。

测序的插入片段一般是多长?

测序的插入片段一般是100bp到600bp.

因为Hiseq测序过程中有一个桥式PCR的过程。如果插入片段过长,测桥式PCR产生的Cluster就会太大,而且光强也会减弱。所以插入片段的长度是有限制的。

PhiX文库有什么用?

PhiX文库是一种用病毒基因组做的文库。其基因序列已精确知晓,GC比例约为40%,与人类、哺乳类的基因组的GC比例接近。其基因序列又与人类的基因序列相去甚远,在与哺乳类基因组一些测序时,可以轻松地通过基因序列比对而将之去除。

在测四种碱基不平衡(A、G、C、T四种碱基的含量远远偏离25%)的样本时,可以加入大量的PhiX文库,以部分抵消样本的不平衡性。例如ChIPed DNA测序,或者亚硫酸氢盐处理过的DNA文库,或者扩增子测序(PCR样测序),都可以加入PhiX,以部分弥补碱基不平衡性。

也可以少量地加入样本,以作为control library来验证测序质量。

在一个细菌中用知的蛋白钓出能与其结合的未知DNA的方法,求指点,能说明原理更好!

优质回答1.凝胶阻滞实验:在凝胶电泳中,由于电场的作用,裸露的DNA分子向正电极移动距离的大小是同其分子量的对数成反比。如果某种DNA分子结合上一种特殊的蛋白质,那么由于分子量的加大它在凝胶中的迁移作用便会受到阻滞,于是朝正极移动的距离也就相应的缩短,因而在凝胶中出现滞后的条带,这就是凝胶阻滞实验的基本原理。

2.DNaseI足迹试验(DNaseI footFIrinting assay) DNaseI足迹试验是一种测定DNA结合蛋白在DNA上的准确结合位点的技术。 当DNA分子中的某一区段同特异的转录因子结合之后便可以得到保护而免受DNaseI 酶的切割作用,而不会产生出相应的切割分子,结果在凝胶电泳放射性自显影图片上便出现了一个空白区,俗称为“足迹”。

3. 甲基化干扰实验(Methylation interference assay)是根据DMS(硫酸二甲酯)能够使DNA分子中裸露的鸟嘌呤(G)残基甲基化,而六氢吡啶又会对甲基化的G残基作特异性的化学切割这一原理设计的另一种研究蛋白质同DNA相互作用的实验方法。

4.Pull-down实验: 拉下实验又叫做蛋白质体外结合实验(binding assay in vitro),是一种在试管中检测蛋白质之间相互作用的方法。其基本原理是将某种小肽(例如生物素、6-His标签以及谷胱甘肽转移酶等)的编码基因与诱饵蛋白的编码基因重组,表达为融合蛋白。分离纯化融合蛋白并与磁珠结合,使之固相化之后,再与表达目的细胞提取物混合保温适当时间,例如在4℃下保温过夜,使目标蛋白同已经固定在磁珠表面的融合蛋白中的诱饵蛋白充分的结合。然后回收磁珠,pull出目的片段

5.生物芯片技术是基于生物大分子间相互作用的大规模并行分析方法,使得生命科学研究中所涉及的样品反应、检测、分析等过程得以连续化、集成化和微型化,现已成为当今生命科学研究领域发展最快的技术之一

6.染色体沉淀:用细菌基因组与目的蛋白孵育,然后用甲醛交联,随机断裂,然后WB分析。

7.酵母单杂交: 酵母单杂交(Yeast one-hybrid)是根据DNA结合蛋白(即转录因子)与DNA顺式作用元件结合调控报道基因表达的原理,克隆与靶元件特异结合的转录因子基因(cDNA)的有效方法。其理论基础是:许多真核生物的转录激活子由物理和功能上独立的DNA结合区(DNA-binding domain BD)和转录激活区(Activation domain AD)组成,因此可构建各种基因与AD的融合表达载体,在酵母中表达为融合蛋白时,根据报道基因的表达情况,便能筛选出与靶元件有特异结合区域的蛋白。理论上,在单杂交检测中,任何靶元件都可被用于筛选一种与之有特异结合区域的蛋白。

m6A甲基化

优质回答表观遗传学,包括组蛋白共价修饰(covalent histone modification)、DNA甲基化修饰(DNA methylation)、RNA甲基化修饰(RNA methylation)、基因组印记(genomic imprinting)、基因沉默(gene silencing)、RNA编辑(RNA editing)及非编码RNA(noncoding RNA)等,是 指在核苷酸序列不发生改变的情况下,生物表型或基因表达发生了稳定的可遗传变化

RNA甲基化 作为表观遗传学研究的重要内容之一,是指发生在RNA分子上不同位置的甲基化修饰现象, 6-甲基腺嘌呤(N6-methyladenosine,m6A) 5-甲基胞嘧啶(C5-methylcytidine,m5C) 是真核生物中最常见的两种RNA转录后修饰。RNA甲基化在调控基因表达、剪接、RNA编辑、RNA稳定性、控制mRNA寿命和降解等方面可能扮演重要角色。 相对于DNA甲基化,RNA甲基化更加复杂、种类繁多、普遍存在于各种高级生物中。

已知绝大部分真核生物中,mRNA在5’ Cap处存在甲基化修饰,作用包括维持mRNA稳定性、 mRNA前体剪切、多腺苷酸化、 mRNA运输与翻译起始等。而3’ polyA发生的修饰有助于出核转运、翻译起始以及与polyA结合蛋白⼀起维持mRNA的结构稳定。但是这些修饰只发生mRNA的头部和尾部,关于RNA的内部修饰(internal modification)在许多种类的RNA中都有发⽣。无论是mRNA还是lncRNA,都大量存在m6A修饰。m6A能够加速mRNA前体的加工时间,加快mRNA在细胞中的转运和出核。主要学习研究较多的m6A。RNA的m6A甲基化⼀共有大三类酶参与: Writers、 Erasers和Readers ,需要相关研究的可以学习相关文献。

检测m6A的方法非常多,如包括MeRIPseq、 miCLIP-seq、 SCARLET、 LC-MS/MS等。2012年之后,两篇发表于Nature和Cell上的论⽂可以说是第⼀次从转录水平上,大范围高通量地鉴定了人和小鼠m6A的甲基化水平(Dominissini 2012和Meyer 2012)。这两篇独立发表的论文采用的 核心方法就是<u style="box-sizing: border-box; user-select: text !important;">将m6A抗体与带有m6A的mRNA片段相结合</u>后进行高通量测序 。通过对下机数据的分析,来鉴定mRNA上m6A程度较高的区域,分辨率约为100nt。这种方法我们称之为MeRIP-seq( me thylated R NA i mmuno p recipitation sequencing)或m6A-seq。

MeRIP-seq建库步骤

1. 提取total RNAs,并用Oligo-dT磁珠对total RNAs带有polyA的mRNA进行富集(通常要求Total RNA 300ug,人鼠可以做微量2ug 但结果可能会出现map率低dup率高 建库步骤与常量也有区别);

2. 用磁珠进行富集,得到带有polyA的mRNA。之后加入片段化试剂,将完整的mRNA进行片段化。或者使用超声波仪直接进行片段化;

3. 将片段化后的RNA分成两份。⼀份加入带有m6A抗体的免疫磁珠,对含有m6A甲基化的mRNA片段进⾏富集。另⼀份作为control,直接构建类似常规的转录组测序文库(这一步就是IP步骤,片段化程度、抗体抓取效率都会影响到后期实验结果;这里的control通常称为Input);

4. 对m6A抗体免疫磁珠进行富集,带有m6A的mRNA片段进行回收后,按照转录组的建库流程构建常规的测序文库;

5. 分别将构建好的2个测序文库,即m6A-seq library和RNA-seq library分别进行高通量测序。测序平台保持一致,推荐Hiseq X ten或Novaseq;

6. 对下机数据进行生物信息学分析,对发生m6A甲基化程度较高的区域进行peak calling。由于不能做到单个碱基的分辨率,所以只能对大致的区域进行分析。从下图中我们可以发现,与右侧常规的转录组测序结果相比,在基因上有两处区域存在非常明显的高甲基化峰;

7.接下来会进行一些常规分析,如peak区域基因注释,差异peak分析。

就是关于m6A-seq的标准步骤,现在是不是对m6A-seq有了一个非常直观的认识呢? 再次强调下,这种测序方法只能鉴定高甲基化的区域,并不能做到单碱基的分辨率。

思路1 老数据挖掘

第一步:先从原有的转录组数据中,挖掘到差异表达的甲基化酶;

第二步:对挖掘到的甲基化酶如METTL3或FTO等进⾏qPCR验证,并进行m6A-seq分析哪些基因甲基化水平发生改变;

第三步:在细胞(动物模型可选)中对这些酶进行敲低和过表达,进行常规的qPCR和WB检测相关酶表达情况,并用LC-MS/MS法检测RNA整体m6A水平;

第四步:继续对这些敲低和过表达的细胞进行转录组测序/小RNA测序或表达谱芯片/小RNA芯片,分析哪些基因出现差异表达变化和可变剪切变化;

第五步:找到甲基化酶调控的靶基因,进行敲低和过表达,看甲基化酶缺陷的细胞或动物模型表型能否补救;

第六步:在确定上一步靶基因确实受到甲基化酶调控后,对靶基因上的motif进行点突变后进行验证;

第七步:鉴定新型的甲基化酶(可选)。

思路2 研究甲基化修饰差异基因

第一步:直接进行m6A-seq和转录组测序,找到时间顺序或差异表达的基因并用qPCR、 WB等⽅法验证,此外找到m6A有差异的基因;

第二步:对甲基化酶进行敲低和过表达,检测RNA整体的m6A水平,之后可进行转录组或小RNA测序等方法检验甲基化酶敲低和过表达对mRNA或miRNA整体的影响,并着重研究第⼀步中感兴趣的m6A有差异的靶基因;

第三步:对靶基因进行敲低或过表达,是否能够对甲基化酶异常表达后的表型进⾏恢复;

第四步:对靶基因上motif进行点突变后进⼀步确认直接受到甲基化酶调控;

第五步:鉴定新型的甲基化酶(可选)。

当然根据不同的研究目的还有许多其他的研究思路,可根据自身实验设计进行延申和拓展。m6A相关SCI论文根据不同实验手段IF2~20不等,实验手段:m6A-seq、转录组测序/表达谱芯片、 LC-MS/MS 或 m6A 比色法、小RNA 测序/小RNA芯片、qPCR、 WB、敲降/过表达、靶基因验证、动物实验、临床实验/药物实验等。

今天的内容先分享到这里了,读完本文《二代测序文库构建-概述与挑战(1)》之后,是否是您想找的答案呢?想要了解更多,敬请关注www.zuqiumeng.cn,您的关注是给小编最大的鼓励。