新的机器学习算法揭示了DNA的真相
科学家被细菌愚弄了吗?新的机器学习算法揭示了DNA的真相
以前对基因开关的研究可能会被污染所混淆,但西奈山的科学家们创造了一种新工具,可以准确地确定它是否在人类疾病中发挥作用。
几十年来,一小群尖端医学研究人员一直在研究一种可以打开或关闭基因的生化DNA标记系统。许多人已经在细菌中研究过它,现在有些人已经在植物、苍蝇甚至人类脑肿瘤中看到了它的迹象。然而,根据西奈山伊坎医学院研究人员的一项新研究,可能存在一个障碍:它存在于高等生物中的大部分证据可能是由于细菌污染,而使用目前的实验很难发现这种污染方法。
为了解决这个问题,科学家们创建了一种量身定制的基因测序方法,该方法依靠一种新的机器学习算法来准确测量标记 DNA 的来源和水平。这有助于他们将细菌 DNA 与人类和其他非细菌细胞的 DNA 区分开来。虽然发表在《科学》杂志上的结果支持这一系统可能在非细菌细胞中自然发生的观点,但其水平远低于以前的一些研究报告,并且很容易受到细菌污染或当前实验方法的影响。对人脑癌细胞的实验产生了类似的结果。
“突破医学研究的界限可能具有挑战性。有时这些想法是如此新颖,以至于我们不得不重新考虑我们用来测试它们的实验方法,”伊坎西奈山遗传学和基因组科学副教授方刚博士说。“在这项研究中,我们开发了一种新方法,可有效测量多种物种和细胞类型中的这种 DNA 标记。我们希望这将有助于科学家发现这些过程可能在进化和人类疾病中发挥的许多作用。”
西奈山伊坎医学院的研究人员开发了一种先进的方法来确定细胞是否可以使用一种模糊的 DNA 标记系统来打开或关闭基因。图片由纽约州西奈山的 Do lab 提供
该研究的重点是 DNA 腺嘌呤甲基化,这是一种生化反应,将一种称为甲基的化学物质连接到腺嘌呤上,腺嘌呤是用于构建长 DNA 链和编码基因的四种构件分子之一。这可以“表观遗传”激活或沉默基因,而无需实际改变 DNA 序列。例如,众所周知,腺嘌呤甲基化在一些细菌如何防御病毒方面发挥着关键作用。
几十年来,科学家们认为腺嘌呤甲基化严格发生在细菌中,而人类和其他非细菌细胞依赖于不同结构单元——胞嘧啶——的甲基化来调节基因。然后,从 2015 年左右开始,这种观点发生了变化。科学家们在植物、苍蝇、小鼠和人类细胞中发现了高水平的腺嘌呤甲基化,这表明该反应在整个进化过程中发挥了更广泛的作用。
然而,进行这些初步实验的科学家们面临着艰难的权衡取舍。一些使用的技术可以精确测量任何细胞类型的腺嘌呤甲基化水平,但无法识别每条 DNA 来自哪个细胞,而另一些则依赖于可以发现不同细胞类型的甲基化但可能高估反应水平的方法。
在这项研究中,方博士的团队开发了一种名为 6mASCOPE 的方法,克服了这些权衡。在其中,从组织或细胞样本中提取 DNA,并被称为酶的蛋白质切成短链。将这些链放入显微孔中,并用酶处理,生成每条链的新副本。然后,先进的测序仪实时测量每个核苷酸构件添加到新链中的速率。甲基化腺嘌呤会稍微延迟这个过程。然后将结果输入机器学习算法,研究人员训练该算法从测序数据中估计甲基化水平。
“DNA 序列使我们能够确定哪些细胞(人类或细菌)发生了甲基化,而机器学习模型分别量化了每个物种的甲基化水平,”Fang 博士说,
对简单的单细胞生物体(如绿藻)的初步实验表明,6mASCOPE 方法是有效的,因为它可以检测两种都具有高水平腺嘌呤甲基化的生物体之间的差异。
该方法似乎还可以有效地量化复杂生物体中的腺嘌呤甲基化。例如,以前的研究表明,高水平的甲基化可能在果蝇黑腹果蝇和开花杂草拟南芥的早期生长中发挥作用。在这项研究中,研究人员发现这些高水平的甲基化主要是污染细菌 DNA 的结果。实际上,这些实验中的果蝇和植物 DNA 只有微量的甲基化。
同样,对人体细胞的实验表明甲基化在健康和疾病条件下都以非常低的水平发生。从患者血液样本中获得的免疫细胞 DNA 只有微量的甲基化。
从胶质母细胞瘤脑肿瘤样本中分离的 DNA 也观察到了类似的结果。这一结果与之前的研究不同,之前的研究报告了肿瘤细胞中更高水平的腺嘌呤甲基化。然而,正如作者指出的那样,可能需要更多的研究来确定这种差异在多大程度上可能是由于肿瘤亚型的差异以及其他潜在的甲基化来源造成的。
最后,研究人员发现,科学家经常用来操纵基因的质粒 DNA 可能被源自细菌的高水平甲基化污染,这表明该 DNA 可能是未来实验中的污染源。
“我们的结果表明,腺嘌呤甲基化的测量方式会对实验结果产生深远的影响。我们并不是要排除某些人体组织或疾病亚型可能具有高度丰富的 DNA 腺嘌呤甲基化的可能性,但我们确实希望 6mASCOPE 能够通过排除细菌污染的偏差来帮助科学家全面研究这个问题,”Gang 博士说。“为了帮助解决这个问题,我们向其他研究人员广泛提供了 6mASCOPE 分析软件和详细的操作手册。”
Reference: “Critical assessment of DNA adenine methylation in eukaryotes using quantitative deconvolution” by Yimeng Kong, Lei Cao, Gintaras Deikus, Yu Fan, Edward A. Mead, Weiyi Lai, Yizhou Zhang, Raymund Yong, Robert Sebra, Hailin Wang, Xue-Song Zhang and Gang Fang, 3 February 2022, Science.
DOI: 10.1126/science.abe7489
这项工作得到了美国国立卫生研究院 (GM139655、HG011095、AG071291) 的支持;伊坎基因组学和多尺度生物学研究所;Irma T. Hirschl/Monique Weill-Caulier 信托基金;纳什家庭基金会;和西奈山伊坎医学院的科学计算系。质谱方法验证得到了中国科学院 (XDPB2004) 和中国国家自然科学基金 (22021003) 的合作者的支持。