2024-04-14 14:12 来源:本站编辑
还记得领域,王国,门,类,目,科,属,种以及我们在高中生物学中学过的达尔文的生命之树比喻吗?这种描述生物谱系的方式只是科学上关于基因如何随着时间的推移而突变和分裂,从而将生物变成今天的样子的最好猜测。
随着科学在识别蛋白质和基因变化方面的进步,生物被重新分类到另一个属中并不罕见;例如,最近不同种类的细菌、植物和珊瑚的分类发生了变化。
如果你能建立一个更好的进化变化模型,尽管可能不是100%准确——考虑到复杂生物体已经进化了数十亿年——但能给你一个比以往任何时候都更清晰的画面,那会怎么样?
弗吉尼亚大学工程学院生物医学工程和计算机科学副教授、弗吉尼亚大学公共健康基因组学中心的常驻教员克里斯汀·纳格尔(Kristen Naegle)和她以前的博士生罗曼·斯劳斯基(Roman Sloutsky)已经做到了这一点,他现在是马萨诸塞大学阿姆赫斯特分校的博士后研究员。他们的工作展示了如何建立比以往更准确地重建进化变化的模型,这有望在理解疾病如何在人体中起作用方面取得突破。
他们的论文《ASPEN,一种利用集合模型以更高的精度重建蛋白质进化的方法》发表在10月17日的《eLife》杂志上。ASPEN代表“通过蛋白质进化亚采样的准确性”。他们的研究突出了弗吉尼亚大学在生物医学数据科学方面的优势。
为了更好地理解他们在模拟进化变化方面的工作的复杂性,纳格尔提供了一个类比:“如果我让你预测某人从旧金山到纽约走哪条路线,这将是一个模型。但如果我让1000个人预测某人走的路线,那么这条路线中被所有1000个人分享最多的部分最有可能是正确的。这是因为大多数人可能都认为两个城市之间的某条高速公路是最有效的交通方式,所以这段高速公路的权重或概率非常大。
“如果我看到在这1000条路线上没有人对任何事情达成一致,那就告诉我,我对任何一个模型的准确性都没有信心。相反,如果每个人都同意所有的事情,或者路线的大部分部分,我很有信心在这两点之间一定有一个最好的旅行方式。我可以想出一个新的路线,它不是1000个人给我的,而是在所有1000个建议中捕获了最共享的路线,这个模型可能比给我的任何一个模型都更接近真实的路线。最后,它可能仍然不是完全准确的——除非我问实际旅行的人,否则我永远不可能知道真正的路线——但它可能比他们自己的任何路线建议都要好得多。
“进化就像这样,只不过它像是在猜测穿越时间而不是空间的路线。”
重建进化分支是很棘手的,尤其是当许多物种共享一种相似的蛋白质时,这种蛋白质可能已经进化到执行一些不同的功能。从数学上讲,这个问题很快就会变得非常大,但发现这种蛋白质进化的含义可能会让我们更好地理解我们的身体是如何应对癌症和其他疾病的。
斯劳茨基在研究许多不同物种中常见的细胞信号中的一种重要蛋白质时,想到了解决这个问题的办法。他想知道这种蛋白质是如何随着时间进化而在不同物种中具有不同功能的。这个问题太大了,他决定只从几个序列中取样来重建进化分歧。
尽管尝试了1000次,但他说:“重建的结果并不一致。”“这本身并不是一个大问题——我并不指望他们都同意。但我预计一个模型会在大多数时候被重复,或者至少在很多时候被重复。”
他很惊讶,于是决定看看所有不同意的模型有什么共同之处。他说:“我知道我必须想出一些方法来结合所有这些模型的信息,因为我不能只使用最常见的模型。”“这是一种意想不到的挑战,导致了这项工作。”
在几个月的时间里,Naegle和Sloutsky对软件进行了改进,并对越来越大的蛋白质重建问题进行了测试,他们能够开发出开源软件,该软件可以结合多个模型来非常准确地重建进化变化。
“我们身体所做的一切都是由蛋白质完成的,”斯劳茨基说。“这是一个强大的工具,可以了解分子生物学是如何工作的,蛋白质是如何工作的,以及当事情出错时,它们是如何出错的。”
Naegle和Sloutsky的原始数据和代码包含在eLife的出版物中,以便其他研究人员可以使用它进行更精确的建模。
专注于生命和生物医学科学的《eLife》杂志在科学期刊中独树一帜。同行审稿人评估研究和文章的质量,审稿人的问题和作者的回答都包含在出版物中。该杂志的理念是知识应该是开放和可获取的。
例如,研究人员将能够使用Naegle和Sloutsky的新工具来了解高度相似的蛋白质是如何进化的,然后设计更好的药物来更具体地针对蛋白质。纳格尔还想象了一名医生试图利用医学成像来识别隐藏在病人身体深处的肿块的确切位置和形状;这种更精确的建模工具可以帮助医生更好地了解肿块,而无需切开病人。
纳格尔说:“乔治·e·p·博克斯(George E.P. Box)被多次引用的关于模型的哲学与此相关:‘本质上,所有模型都是错误的,但有些模型是有用的。’”“我们现在有了一种量化的方法来询问一个模型有多好,通过在许多模型中使用最有用的部分,我们可以构建更好的模型。”