长标题:美国病毒学家Bloom新冠溯源研究恢复、依据的基础数据,是武汉大学“纳米孔靶向测序检测”技术研发、测试过程中输出的欠缺准确度、可靠度的新冠病毒基因序列片断。
对美国病毒学家Jesse Bloom的新冠溯源论文作了初步研究,发现了一些疑点、不当和可能的错误。本文整理的是与基础研究数据相关的问题。成文仓促,请广大网友批评、指正。
本文将说明:
1、美国病毒学家Bloom恢复的基因序列,来自武汉大学“纳米孔靶向测序检测”技术研发、测试过程;
2、武汉大学完成相关研发后,向NIH请求撤回、删除了他们在研发、测试阶段产生的,提交到SRA存储、备份的新冠病毒基因序列片断;
3、“纳米孔靶向测序检测”技术的核心功能是病毒检测,而非病毒测序。即检测病毒才是这一技术的首要目的,对病毒进行部分测序并输出基因序列片断是其辅助功能。这一技术测序、输出的不是新冠病毒的全基因组序列,而只是与检测功能相关的全基因组序列的两个片断;
4、相比可将测序结果向国际生物数据库正式提交的专门测序,“纳米孔靶向测序检测”技术输出的基因序列,允许更大误差和更高错误率,不应将其输出的序列等同于专门测序得到的权威性的基因序列;将这些基因组片断用于对准确性要求极高的基因科学研究,特别是新冠溯源研究,应当非常审慎,以免被可能的测序错误误导。
5、Bloom把武汉大学“纳米孔靶向测序检测”技术测序功能输出的欠精确、可靠的基因序列,用作了自己溯源研究的基础数据。即使在研究中可能规避了基础数据中的测序错误,未受其误导,Bloom也应对基础数据的准确性、可靠性,以及它们对研究过程及结论可能造成的影响进行讨论、评估。但我未在论文中发现相关内容。
2021年6月22日,美国西雅图贺勤森癌症研究中心(Fred Hutchinson Cancer Research Center)的病毒学家杰西·布鲁姆(Jesse Bloom)在生物学预印本发布平台biorxiv发布了如下论文:Recovery of deleted deep sequencing data sheds more light on the early Wuhan SARS-CoV-2 epidemic(恢复删除的深度测序数据为新冠病毒在武汉的早期流行提供了更多信息)
https://www.biorxiv.org/content/10.1101/2021.06.18.449051v1
https://www.biorxiv.org/content/10.1101/2021.06.18.449051v1.full
Bloom在论文中说,他通过谷歌云恢复了去年6月被删除的一些测序数据,他通过这些数据重建了13个新冠病毒的基因序列。Bloom重建的这些序列都不是完整的全基因组序列,它们都是新冠全基因组序列中的一大一小两个片断。这些序列是武汉大学“纳米孔靶向测序检测”技术研发、测试过程中产生、输出的,检测、测序的病毒样本来自武汉大学人民医院。
所恢复的数据原先存放在NIH(美国国立卫生研究院)的SRA数据库中。SRA(Sequence Read Archive,序列读取档案)是NIH管理、维护的两个生物学数据库之一,另一个是GenBank。
Bloom所恢复数据的对象时间戳都是2020年2月15日。Bloom推测,对象时间戳可能是指数据上传到SRA的时间。即,Bloom恢复的数据应该都是2020年2月15日这一天上传到SRA的。武汉大学上传了多批项目代号为PRJNA612766的类似数据,Bloom恢复的只是其中一小部分。
Bloom论文提供了武汉大学“纳米孔测序”研究的相关论文:Nanopore target sequencing for accurate and comprehensive detection of SARS-CoV-2 and other respiratory viruses(纳米孔靶向测序可准确、全面检测 SARS-CoV-2 和其他呼吸道病毒)
https://www.medrxiv.org/content/10.1101/2020.03.04.20029538v1.full-text
这一论文投稿到预印版平台medRxiv的时间是2020年2月29日,正式发布时间是2020年3月6日。
2020年3月4日,中国人民日报和新华网报道了这一新技术: 武汉大学研发纳米孔靶向测序检测方法
http://www.xinhuanet.com/science/2020-03/04/c_138841605.htm
容易想见,武汉大学在研发、试验过程中以SRA为测试数据的存储平台,并将研究过程中得到的新冠病毒基因序列片断提交到SRA存储、备份。
有必要简单了解一下武汉大学“纳米孔靶向测序检测”技术的功能特点,这将有助于我们作出进一步的正确判断:
1、相比标准的qPCR(实时逆转录聚合酶链反应)病毒检测30%~50%的阳性检出率,该技术的阳性检出率提升了43.8%,达到约75%~94%;
2、该技术可在测序后4小时内高敏感性、高准确性地同时检测SARS-CoV-2和其他10大类、40余种呼吸道病毒;
3、其最低检测敏感度是当时广泛使用的qPCR的100倍;
4、该方法还可输出检测样本中病原体(如新冠病毒)的基因组序列片断,可用于考察新冠病毒基因组的变异情况,监控病毒变异引起的毒性与传播能力改变。这是qPCR所没有的功能,qPCR病毒检测只作基因比对,不作基因测序,不记录、输出任何基因组序列。
在我看来,第4组功能是锦上添花性质的,可能有夸大其词的噱头成份。一个仓促研发的产品,如果号称有众多强大功能,很可能意味着,它的相当一部分功能是不尽善尽美的。
Bloom论文中提到,2020年6月向NIH请求撤回、删除数据的人叫Aisi Fu,但Bloom不知道这个Aisi Fu是什么人,也没有他的联系方式。Aisi Fu的中文名为付爱思,是武汉臻熙医学检验实验室有限公司的总负责人,他与武汉大学药学院刘天罡教授,武汉大学人民医院李艳教授、余锂镭教授是相关技术的共同研发者,这一信息查自武汉大学新闻网的以下报道:武汉大学新闻网- 重磅!武汉大学联合团队开发纳米孔靶向测序 大幅提升新冠病毒阳性检出率
https://news.whu.edu.cn/info/1002/57753.htm
付爱思也是上面提到的武汉大学medRxiv预印本论文的第二作者。
武汉大学应该是在“纳米孔靶向测序检测”技术研发完成后,向NIH申请撤回、删除了他们在研发过程中产生的测试数据。
我认为,科学研究、学术论文应该专注于事实,有一说一,有二说二,力求客观中立,避免充当政治工具;想当然地妄加揣测,轻率地陷人以罪不仅有违科学精神,而且是不道德,不负责任的。在溯源论文的讨论部分,Bloom对中国科学家进行了如下指控:“对样本进行完全测序比偷偷删除部分序列更能提供科学信息”;“这些序列似乎很可能被删除以掩盖它们的存在”。
这些指控是强词夺理、自相矛盾、逻辑错乱的。
首先,Bloom恢复的基因序列片断并非来自专门测序工作,它们是“纳米孔靶向测序检测”研发、测试过程中产生的非正式数据,而相关研究主要是用于医学检测、临床诊断的,其输出的基因序列不是用于严肃科学研究的。
第二,武汉大学在相关研究中没有进行完全测序,不是他们故意不进行完全测序,而是因为“纳米孔靶向测序检测”技术不需要进行完全测序,只需要对基因组的某些关键片断进行测序就很充分了。事实上,“纳米孔靶向测序检测”的序列比对范围,远远超过传统的qPCR,相当于撒下了十几张大网,同时捕捉病毒样本中的可疑基因片断。 这是该技术阳性检出率大大提高的根本原因。
第三,Bloom的溯源研究论文基于一个最基本的假设:新冠病毒是自然演化产生的。如果这一假设不成立,Bloom的论文就崩溃了。Bloom一方面以武汉大学的数据作为自己自然演化理论的基础数据,基本依据,一方面又指控武汉大学的科学家偷偷删除这些可支持其自然演化理论的数据。其逻辑非常错乱。武汉大学的科学家为什么要删除“自然演化”的证据?删除这些数据能掩盖什么真相?删除这些数据对谁有利?
我不认为武汉大学撤回研发、测试数据的做法有什么不正常或隐藏着什么不良动机。
由研发目的、用途及功能特点可判断,“纳米孔靶向测序检测”技术的首要目的是病毒检测,而非病毒测序。即确定样本中是否存在目标病毒是它的首要功能,测序并输出序列片断只是它的辅助功能。这一技术与以测序为基本目的的专门测序是不同的,它允许比专门测序更大的误差。将其检测过程中输出的基因序列片断视同专门测序得出的权威基因组序列,并将之用于对精确度、可靠度要求极高的新冠溯源研究,我认为是不恰当的。
“纳米孔靶向测序检测”的阳性检出率虽大大提高,达到约75%~94%,但仍远远称不上高度精准,可以想见,它的测序功能的精准程度也是有限的;同时,“纳米孔靶向测序检测”技术是疫情发生后短期内开发出来的,数据上传的2月15日,该项技术尚在研发阶段,输出的基因序列更可能存在误差、偏差甚至错误。以这样的数据为基础数据进行溯源研究,其研究的科学性,结论的正确性可想而知。
“纳米孔靶向测序检测”技术测序功能精确度欠佳这一点,还可由Bloom论文中的相关数据来证明。
Bloom在论文中说:I aligned the recovered deep sequencing data to the SARS-CoV-2 genome using minimap2。。。
即:我使用minimap2比对了恢复的深度测序数据与新冠病毒基因组的一致性。minimap2是一种基因组序列比对工具。
稍作间隔后,Bloom提供了如下表格:
表格第一列的新冠病毒sample一共有14个,其中13个对应Bloom从SRA恢复、重建的基因序列片断,另外一个来自某个2月住院的患者。
表格中的第二列应该是14个sample与“参考新冠病毒”的基因序列一致性比对结果。Bloom所选用的“参考新冠病毒”是天普大学(Temple University)科学家Kumar提出的虚拟新冠祖病毒proCov2。祖病毒proCov2与最早发现的新冠病毒样本之一WuHan-hu-1(NCBI ID:ASM985889v2)只相差三个核苷酸,将WuHan-hu-1进行以下三个单核苷酸的更改:C8782T、C18060T和 T28144C,就得到了proCov2。C8782T代表:将基因序列中8782位点的胞嘧啶C对应的核苷酸(碱基对)改为胸腺嘧啶T对应的核苷酸。
注:一些有关WuHan-hu-1的背景信息。WuHan-hu-1的基因序列是上海复旦大学张永振团队2020年1月5日上传的,是第一个上传到国际生物信息数据库的新冠病毒全基因组序列。WuHan-hu-1的病毒样本由武汉市中心医院采集提供,采集时间是2019年12月30日或26日,采集自一名41岁的陈姓华南海鲜市场个体经营者。
proCov2与Wuhan-hu-1只相差3个核苷酸,而二者基因组序列(核苷酸序列)长度均为29903(含近3万个核苷酸)。易知,二者基因组序列的差异度约为0.01%(万分之一),即一致性约为99.99%。所以,Table-1中病毒sample与proCov2的基因序列一致性比对结果,可视为sample与Wuhan-hu-1的一致性比照结果。
要注意的是,由于Bloom恢复的基因序列,也就是武汉大学“纳米孔靶向测序检测”技术输出的基因序列不是全基因组序列,而只是全基因组序列的片断,因些,Table-1显示的不是病毒间全基因组序列的一致性,而是对应的基因组片断的一致性。Table-1标题栏已标明,比对的序列区间是21570~29550,这一区间含近8000个核苷酸。
观察各个病毒sample与Wuhan-hu-1或proCov2的一致性,可知:Table-1所列14个病毒sample中,8个与新冠病毒一致性差别超过1%,6个超过2%,4个超过3%,3个超过4%。
由于比对的基因片断含近8000个核苷酸,因此,如果序列一致性差别超过1%,那就意味着该病毒Sampe与Wuhan-hu-1至少有80个核苷酸不同;
如果一致性差别超过2%,就至少有160个核苷酸不同;
如果一致性差别超过3%,就至少有240个核苷酸不同;
如果一致性差别超过4%,就至少有320个核苷酸不同。
比对区间外还有2万多个核苷酸位点,如果考虑这些位点,那么这些病毒sample与Wuhan-hu-1的核苷酸差异可能会更多。
新冠病毒的变异速度是:一个病毒平均一年产生约25个核苷酸突变。产生上述规模的突变,正常情况下需要几年、十几年的时间。在疫情早期的2月15日前,武汉大学人民医院的13位患者,其体内的新冠病毒同时发生了如此显著的突变,这可能吗?
对比一下迄今为止,新冠病毒的实际变异情况:
英国Alpha变种B.1.1.7的核苷酸变异位点约为28~32个;
南非Beta变种B.1.351变异位点约为23个;
巴西Gamma变种P.1约有17个变异位点;
印度Delta变种B.1.617.2变异位点约为13~17个。
可见,疫情发展至今,四个最重要的新冠病毒变种,其变异位点数都小于40个核苷酸;相比之下,Bloom恢复的数据却呈现出了超过80个核苷酸位点的不同,甚至超过320个核苷酸位点的不同。
这些核苷酸位点的差异都是突变造成的吗?如果是的话,如此超常的突变,Bloom怎么会视而不见呢?这个困惑昨天未能解决。今天,我返回Bloom的论文,下载了几个Bloom恢复、重建的基因序列,用NCBI Blast工具将它们与Wuhan-Hu-1的基因序列进行比对,而后发现:绝大多数核苷酸差异都对应着Bloom重建序列中的核苷酸缺失。
这些核苷酸缺失要么是Bloom重建序列时产生的,要么是武汉大学相关研究的测序错误造成的。
对所采用的基础数据的准确性、可靠性问题,以及它们对研究过程、论文结论可能造成的影响,Bloom在论文中没有进行讨论和评估。
(正文完)
附录:
Bloom重建的基因序列片断示例(序列片断的一部分)。该示例对应Table-1中的C9,即第四个病毒Sample。序列中的N代表核苷酸缺失的位点。