完全不懂,就为督促自己学习。
翻篇综述先,主要是10.1038/nrg.2016.49(我不懂的会标注)综述没有本科导师课讲得细致但没办法了
(从传统测序学到Hi-C再到分析方法根本看不到3年学会的希望好气啊)
完全不懂,就为督促自己学习。
翻篇综述先,主要是10.1038/nrg.2016.49(我不懂的会标注)综述没有本科导师课讲得细致但没办法了
(从传统测序学到Hi-C再到分析方法根本看不到3年学会的希望好气啊)
从03年人类基因组计划完成以来,基因测序技术已有极大的进步,使得每十万碱基的费用的降低及所测基因组数量和种类的增多。基因组结构的高度复杂性的揭示,给这些测序技术带来更大进步。一些方法能在最短时间内最大化所测碱基数目,产生了大量可用以理解愈加复杂的表型的数据。而另一些旨在对更长的邻近DNA片段测序,以解释结构复杂区域。各种方法提供给科研和临床工作者一系列深度探究基因组的工具,加深了对基因组序列差异如何影响表型的理解。
自DNA结构的发现,人们在理解健康与疾病时基因组的复杂性和多样性上取得了很大进展。许多试剂与器材的创新支撑了人类基因组计划。计划的完成揭示了回答其激起的复杂生物学问题需要更好更多的技术和数据集;然而,测序的有限通量和高价依然是主要障碍。05年左右第一个真正的高通量测序平台的发布,使人类基因组测序费用相对人类基因组计划以来降低了五万倍,并有了二代测序(NGS)这一名字。在过去十年里,NGS技术继续发展——增加了100-1000倍容量——运用了革命性的创新以应对基因组的复杂。这些进步使读长扩展到整个基因组,使人类基因组测序费用降低到约1000美元,使测序成为临床工具。这些进步尽管令人兴奋,但仍然有限制。随着新技术的出现,现有问题加剧或新问题也产生。NGS平台带来了大量数据,但相关错误率(0.1-15%)更高了,读长一般也比传统桑格测序平台短(短读法35-700bp),针对各种发现和临床应用,需要对结果的仔细考察。长读测序克服了其他NGS方法的缺陷,但相对其他平台仍昂贵且通量不足,因而不如其他较廉价方法应用广泛。另外,NGS仍然在与能完成类似任务的传统技术(通常更低价)竞争;不同方法不久后如何与组学、药学和科研结合目前仍不清楚。
这篇综述考察了NGS使用的不同方法及这一领域的新技术正如何改变基因学研究。讨论了各个方法的细节及优劣。最后探讨了NGS各种应用及其未来。
注:
Read:单分子DNA碱基序列。高通量测序平台产生的序列标签就称为reads
Sanger测序:
标记dNTPs和双脱氧dNTPs混合,PCR,双脱氧的停止延伸。跑胶,末端碱基由激光激发及发射光谱分析确定。
传统基因组学方法1 DNA 微阵列
80年代起DNA微阵列就被用于遗传学研究。其中单链DNA探针固定于50μm大小的离散点阵上,目标DNA带上荧光标签与阵列杂交。信号强度被用于监测结合分子数。
微阵列的应用有:SNP阵列监测疾病(心血管疾病、肿瘤、病原、种族和GWAS分析)或表型相关的常见多态性,低分辨率阵列用于识别结构变异,CNV和DNA-蛋白质互作。表达阵列测量特定基因cDNA来测表达。
微阵列在基因组学研究中仍被广泛使用。在SNPs检测中它比NGS便宜得多。在表达研究中,阵列可以很省钱得测得几千基因的表达水平。杂交和标准化存在的问题使一些人相对会选择RNA测序。
注:微阵列原始数据是图像数据,需要转化为基因表达格式,该数据处理过程可能有由于物理或化学染料处理差异带来的系统误差,因而需要标准化荧光信号。
传统方法2 NanoString
一个探针连接荧光素“条形码”,另一个捕获目标分子以成像。计数条码的数目和种类。NanoString的特殊之处在于其探针连接的分子顺序能改变,以创造数百种标签。
nCounter的应用和微阵列及定量PCR类似,包括表达分析、CNV和SNP检测,及融合基因检测。其分辨率高(小于1拷贝/细胞),敏感度远低于微阵列和TaqMan.和大多数NGS应用不同,模板丰度和反转录都不需要。同时可测约800个目标分子,远低于微阵列或NGS.
传统方法3 qPCR
实时定量PCR应用PCR技术检测研究目标。
使用基因特异的引物,引入双链DNA特异染料或在聚合酶5’-3’外切酶活性作用下TaqMan FRET的释放检测目标分子。
qPCR在90年代早期出现,在临床及基因型、基因表达分析、CNV和病原检测等研究中应用广泛。qPCR快速稳定,适用于医疗照护。它灵敏度及特异性高,因而作为集中FDA测试中的临床基因检测标准。同时检测的目标数量可达数百(微阵列和NGS数千)。它仍需引物和或特定探针。
传统方法4 optical mapping
光学图谱结合了长读技术和低分辨率测序。最初通过消化和分离用于限制酶切位点排序,现在使用荧光标记测长达1Mb的DNA片段。结果成像并相互(或与参照)比对,以对相邻探针位置作图。
此技术的主要应用是在从头组装或缺口填充中生成基因图谱。可用于检测长达kb的结构变异。几百kb大小的单倍域也能被识别。
光学图谱可作为NGS的替代或补充。作为替代,它是理解结构和拷贝数变异的低价选择,但不具有碱基水平的分辨率。作为补充技术,光学图谱可以其比对短读数据的长程架构来从头进行基因组组装。
注:(单倍域)在域片段内,连锁不平衡很强且只有几种单倍体型(一组数学上相关的SNP等位基因),认为一些该类等位基因的发现可辅助其他的发现。
单倍域即成组遗传的SNP域。
在遗传学内相关的数学还有待学习 /asnowwolf-upset 。
long-range scaffold 不知道是啥 /asnowwolf-upset 。
短读NGS
1 克隆模板生成方法概览
短读测序方法分为两大类:连接测序(SBL)和合成测序(SBS)。SBL中,连接荧光素的探针序列与DNA片段杂交,连接到相邻寡核苷酸上成像。荧光分子的发射光谱指示了与探针内特定位置互补的碱基。SBS中,聚合酶参与,信号(如荧光分子或离子浓度变化),显示了延长链中核苷酸的加入。在大多SBL和SBS方法中,DNA在固相上克隆扩增。在确定区域上成千的相同DNA拷贝保证了信号能与背景噪音区分。几百万各有其克隆DNA模板的SBL或SBS反应中心也带来了高的平行性。测序平台能同时收集几百万反应中心的信息,平行测序几百万个DNA分子。
注:
模板:所测DNA片段。通常连接一个或几个起始测序的接头序列。
模板扩增方法有如基于油滴,固相和DNA纳米球。
样本DNA片段化→连接常用接头以扩增测序。
油滴制备中一个接头与固定在油滴上的寡核苷酸片段互补。使用乳液PCR,DNA模板扩增多达百万的克隆DNA片段固定到一个液滴上。这些液滴分散到玻璃表面或列阵到PicoTiterPlate (Roche)上。
注:
片段化:将大DNA片段打断为小片段。可机械(通过窄道)、超声或酶解。
固相扩增直接在薄片上扩增而不用emPCR。其中正向和反向引物随机或定型共价结合到薄片表面。这些引物的互补末端供单链DNA结合。模板浓度的精确控制使其成为定点、无重复的克隆簇,保持空间完整性。最近,一些NGS平台使用了定型的流室。通过精确确定引物结合位置,空间上更多的DNA模板能得到处理,提高反应中心簇密度并增加测序通量。
注:
流室:测序发生位置,含8条lane。模板DNA固定于流室中,流动相实际能流入小室冲走。(一次性)
固相扩增直接在薄片上扩增而不用emPCR。其中正向和反向引物随机或定型共价结合到薄片表面。这些引物的互补末端供单链DNA结合。模板浓度的精确控制使其成为定点、无重复的克隆簇,保持空间完整性。最近,一些NGS平台使用了定型的流室。通过精确确定引物结合位置,空间上更多的DNA模板能得到处理,提高反应中心簇密度并增加测序通量。
BGI(北京基因组中心)使用的全基因组技术是目前唯一在溶液中进行模板富集的。DNA进行连接→成环→断裂循环,形成有4个接头区域的环形模板。滚动扩增过程可生成多达2百亿独立DNA纳米球。纳米球混合物分散到可使单个纳米球与相应位置相连的定型薄片表面。
注:
RCA:使用环状模板进行扩增。DNA聚合酶结合环状DNA模板的引物区。聚合酶完成一圈合成,碰上双链模板,便分开而不降解模板,形成多拷贝模板序列的长单链DNA片段。
2 连接测序(SOLiD和Complete Genomics)
基本上,SBL方法包括标签探针和锚序列与一条DNA链的杂交和连接。探针包括(编码)1或2个已知碱基和一系列简并或通用碱基,以使探针和模板互补结合,而锚片段包含与接头序列互补的已知序列,提供起始连接位点。连接后,模板成像,并识别探针中已知碱基。锚-探针复合物完全去除或切除荧光素后开始新循环,重置连接位点。
注:通用碱基可与四种标准碱基配对。
SOLid平台利用编码双碱基探针,每个荧光信号代表两个碱基。因此,原始输出并非直接与其中一个已知碱基与有关。16种可能的双碱基组合不能在光谱上逐个分辨,使用四种荧光信号,各代表4种双碱基组合。因此,每个连接信号代表几种可能的双碱基之一,即“色彩空间”,在数据分析时需去卷积。SOLiD测序过程包括一系列探针-锚结合、连接、成像和切割循环来延长互补链。在循环中,采用单核苷酸抵消来保证模板序列中每个碱基被测序。
注:
详见https://en.wikipedia.org/wiki/2_base_encoding
注意2-base encoding 探针的特点:3' -OH,5'荧光素,5、6碱基间一个切割位点。前两碱基与被测核苷酸互补,3-5简并,6-8简并但被切除。切除后5'-P,可继续连接。即n+1、n+2正确配对,而后n+6、n+7正确配对。(后续轮测到345)
single nucleotide offset应该是anchor加一个碱基。(但是应该加两个就够每个碱基被测序啦)
Complete Genomics 使用组合探针-锚连接或组合探针-锚合成进行基因测序。cPAL中,锚序列(与四种接头序列之一互补)和探针与DNA纳米球的不同位置杂交。每个循环中,杂交探针是编码单碱基探针池中的一个,具有一个在相同位置的已知碱基和相应的荧光素。成像后,去除整个探针-锚复合物,杂交上新的复合物。后续循环的探针在n+1位有已知碱基。后续循环使用不同长度和化学的接头,使得接头序列的上下游都被测到。cPAS方法在cPAL基础上增大了读长。
所以说,已知碱基咋来的啊。 /asnowwolf-upset
拓扑结构域上游部分高度倾向于与下游互作, vise versa.
→ 识别这种biase以识别拓扑结构域位置和基因组边界。
DI: 定量给定bin的上下游bias:
\(DI=(\frac{B-A}{\left | B-A \right |})(\frac{(A-E)^{2}}{E}+\frac{(B-E)^{2}}{E})\)
A: 给定40kb bin与上游2Mb map 的reads 数,
B:下游
E: 零假设下的期望reads数:\( \frac{(A+B)}{2}\)
DI 基于卡方检验, 零假设: 每个bin与上下游区域互作的概率相等。
具有方向偏向的bins的方向指数与bias度正相关。
选bin size(40kb) 和2Mb是因为DI的重复性最高(注:重复还是优化算法??),并且保持足够高的分辨率,以再找到结构域的同时能识别结构域和边界区域。
生成随机方向指数:对每个map 到给定bin的read pair随机给方向,计算方向指数。大的随机方向指数的bins几乎不存在(<1%的随机DI绝对值>6.57)
(由数据计算的方向指数)应该是一种观察数据,真实的隐方向偏向应该可以通过隐马尔科夫模型得到。HMM假定方向指数观测值服从混合高斯分布,从而预测“上游偏向”,“下游偏向”或“无偏”状态。
观察方向指数: \([Y_1,Y_2..Y_n]\)
隐真实方向偏差: \([Q_1,Q_2..Q_n]\)
混合\([M_1,M_2..M_n]\) ?每个状态服从正态分布,每个位置的观测值服从不同的混合高斯?
每个状态i的高斯 混合得到概率 \(P(Y_t|Q_t=i,M_t=m)\)
$Y_t$和$M_t$点的条件概率分布
\(P(Y_t=y_t|Q_t=i,M_t=m)=N(y_t;\mu _t,\sum _{i,m})\)
\(P(M_t=m|Q_t=i)=C(i,m)\), C代表状态i的混合权重
Baum-Welch算法计算最大似然估计和转换及输出概率的参数估计(平均值,方差和权重表示)。用Forward-backward算法估计后验边际值。
每条染色体,1到20个混合,用AIC标准选最大适合度的。
估计区域的后验概率中值,一个区域都是同种状态(后验边际概率≥0.99或长度≥80kb)
在全基因组得到的HMM状态用以推断结构域和边界。结构域起始于单个下游偏向HMM状态且在所有连续的下游偏向状态连续,终止于最后一个上游偏向状态。
定义>400kb的区域为无结构染色质,<400kb为拓扑边界。
(在mESC中,76.33%的拓扑边界小于50kb)
注:
卡方检验:
小的统计量指观察数据与期望数据符合(有关)
卡方统计量:
\(\chi _{c}^{2}=\sum \frac{(O_{i}-E_{i})^{2}}{E_{i}}\)
下标c:自由度。O:观测值。E:期望值。
若总体无关系,观察数目和期望数目差异的期望。
变式:
\(C^2=\sum_{i=1}^k \frac{(O_i -E_i)^2}{E_i}\)
显著性:临界值;p-value: <5%显著差异
只用于numbers
形成特定染色体结构的四种机制:
@yenagra 可以插楼吗(小声)
请问15楼是参考哪处
Epigenetics and Systems Biology
DOI: 10.1016/B978-0-12-803075-2.00010-6
2017年版
Chapter 10
From Chromosome Conformation Capture to Polymer Physics and Back: Investigating the Three-Dimensional Structure of Chromatin Within Topological Associating Domains