微生物群落差异丰度分析方法在38个数据集上产生不同结果-阿南达文事网

微生物群落差异丰度分析方法在38个数据集上产生不同结果

识别差异丰度微生物是微生物组研究的常见目标，多种方法交替用于此目的，但很少有大规模研究系统探讨这些工具交替使用的适宜性及差异的程度和重要性。今天我们要学习的这篇论文比较了14种差异丰度检测方法在38个两组样本的16S rRNA基因数据集上的表现，检测组间扩增子序列变异和操作分类单元（ASVs）差异。结果显示，工具识别的显著ASVs数量和集合差异大，结果依赖数据预处理，许多工具识别特征数量与数据多方面相关，如样本大小、测序深度和群落差异效应大小。ALDEx2和ANCOM-II在各研究中结果最一致，与不同方法结果交集最吻合，但建议研究人员采用多种差异丰度方法综合，确保生物学解释可靠性。

标题：Microbiome differential abundance methods produce different results across 38 datasets 网址：

下面我们就一起来学习!

引言

微生物群落常通过DNA测序特征分析，16S rRNA基因测序是常见微生物组分析形式，用于比较不同样本分类群相对丰度。分析这类数据时，常见问题是：哪些分类群在不同样本组间相对丰度有显著差异？但微生物组领域对如何最好解决此问题无共识，差异丰度（DA）测试最佳实践存在争议，包括是否稀疏化处理读数计数表、过滤稀有分类群、选何种统计分布及如何考虑测序数据组成性等问题。由于缺乏金标准比较DA工具结果，评估这些工具困难。此前评估研究存在不一致性，且分析的工具和数据集类型有限，因此本文对常见DA工具在38个两组16S rRNA基因数据集上进行额外评估，以阐明当前DA方法性能。

结果

显著ASV数量的高变异性

为研究不同DA工具对微生物组数据集生物学解释的影响，我们在38个不同的微生物组数据集（共9405个样本）上测试了14种DA测试方法（表1）。

表1 本研究中比较的差异丰度分析工具

Tool (version)	Input	Norm.	Trans.	Distribution	Covariates	Random effects	Hypothesis test	FDR Corr.	CoDa	Dev. For
ALDEx2 (1.18.0)	Counts	None	CLR	Dirichlet-multinomial	Yes*	No	Wilcoxon rank-sum	Yes	Yes	RNA-seq, 16S, MGS
ANCOM-II (2.1)	Counts	None	ALR	Non-parametric	Yes	Yes	Wilcoxon rank-sum	Yes	Yes	MGS
Corncob (0.1.0)	Counts	None	None	Beta-binomial	Yes	No	Wald (default)	Yes	No	16S, MGS
DESeq2 (1.26.0)	Counts	Modified RLE (default is RLE)	None	Negative binomial	Yes	No	Wald (default)	Yes	No	RNA-seq, 16S, MGS
edgeR (3.28.1)	Counts	RLE (default is TMM)	None	Negative binomial	Yes*	No	Exact	Yes	No	RNA-seq
LEFse	Rarefied Counts	TSS	None	Non-parametric	Subclass factor only	No	Kruskal–Wallis	No	No	16S, MGS
MaAsLin2 (1.0.0)	Counts	TSS	AST (default is log)	Normal (default)	Yes	Yes	Wald	Yes	No	MGS
MaAsLin2 (rare) (1.0.0)	Rarefied counts	TSS	AST (default is log)	Normal (default)	Yes	Yes	Wald	Yes	No	MGS
metagenomeSeq (1.28.2)	Counts	CSS	Log	Zero-inflated (log-) Normal	Yes	No	Moderated t	Yes	No	16S, MGS
limma voom (TMM) (3.42.2)	Counts	TMM	Log; Precision weighting	Normal (default)	Yes	Yes	Moderated t	Yes	No	RNA-seq
limma voom (TMMwsp) (3.42.2)	Counts	TMMwsp	Log; Precision weighting	Normal (default)	Yes	Yes	Moderated t	Yes	No	RNA-seq
t-test (rare)	Rarefied Counts	None	None	Normal	No	No	Welch’s t-test	Yes	No	N/A
Wilcoxon (CLR)	CLR abundances	None	CLR	Non-parametric	No	No	Wilcoxon rank-sum	Yes	Yes	N/A
Wilcoxon (rare)	Rarefied counts	None	None	Non-parametric	No	No	Wilcoxon rank-sum	Yes	No	N/A

*ALR代表加性对数比，AST代表反正弦平方根变换，CLR代表中心对数比，CoDa代表组成数据分析，CSS代表累积和缩放，FDR Corr.代表错误发现率校正，MGS代表宏基因组测序，RLE代表相对对数表达。

这些数据集涵盖多种环境，包括人类肠道、塑料圈、淡水、海洋、土壤、废水和建筑环境。我们还研究了在分析前对每个数据集进行流行度过滤（10%流行度过滤，去在少于10%样本中出现的ASV）对结果的影响。这些数据集涵盖多种环境，包括人类肠道、塑料圈、淡水、海洋、土壤、废水和建筑环境。我们还研究了在分析前对每个数据集进行流行度过滤（10%流行度过滤，去除在少于10%样本中出现的ASV）对结果的影响。

Fig. 1

图1：不同差异丰度方法和数据集下显著特征比例的变化

结果发现，在未过滤和过滤分析中，每种DA方法识别出的显著ASV百分比在不同数据集间差异很大，平均值分别在3.8%-32.5%和0.8%-40.5%之间。一些工具在不同数据集上表现差异明显，如limma voom (TMMwsp)、limma voom (TMM)、Wilcoxon (CLR)、LEfSe和edgeR等倾向于识别出较多的显著ASV，而ALDEx2和ANCOM-II识别出的显著ASV较少。我们还发现，所有工具识别出的ASV数量与测试组间的效应大小呈正相关，在过滤数据集中，还与中位数读数深度、读数深度范围和样本大小显著相关（图2）。此外，ALDEx2、ANCOM-II和DESeq2识别出的显著特征往往具有较高的相对丰度。在过滤数据集中，ALDEx2或ANCOM-II识别出的ASV的平均AUROC（接受者操作特征曲线下面积）最高，但在某些数据集上，这些工具可能无法识别出任何显著ASV，而其他工具识别出的ASV的平均AUROC较高。

Fig. 2

图2：与显著扩增子序列变异百分比相关的数据集特征

显著ASV重叠的高变异性

我们研究了每个数据集中不同工具识别出的显著ASV的重叠情况。基于未过滤数据，limma voom方法识别出的显著ASV集与大多数其他工具不同，但与Wilcoxon (CLR)方法有较多重叠。ALDEx2和ANCOM-II识别出的特征大多也被其他方法识别，而edgeR和LEfSe输出的未被其他工具识别的ASV百分比最高（图3a）。基于流行度过滤数据的结果总体与未过滤数据相似，但limma voom方法识别出的与其他工具重叠的ASV比例更高（图3b）。通过主坐标分析发现，edgeR和LEfSe在第一主坐标上聚类在一起，与其他方法分离；在第二主坐标上，未过滤数据的主要异常值是limma voom方法和Wilcoxon (CLR)，而过滤数据的主要异常值是ANCOM-II（图3c、d）。

Fig. 3

图3：工具间显著特征的重叠和工具聚类

微生物群落差异丰度工具的假发现率取决于数据集

我们通过对8个数据集进行随机重分组（将同一元数据分组中的样本随机分配为病例或对照样本），评估了DA工具在预期无显著差异情况下的表现。结果表明，在未过滤和过滤数据中，某些工具（如limma voom方法在未过滤数据中，edgeR和LEfSe在过滤数据中）具有较高的假发现率（FDR），而大多数其他工具识别出的假阳性较少（图4）。对Wilcoxon (CLR)方法的异常值重复分析发现，测试组间读数深度的平均差异与显著ASV比例较高的重复相关，而limma voom方法的异常值重复中不存在这种差异。

Fig. 4

图4：未过滤和过滤数据的假发现率模拟重复分布

工具在腹泻病例对照数据集上的一致性存在差异

我们针对腹泻相关的5个数据集，在属水平上研究了不同工具在跨数据集上的一致性。结果显示，不同工具识别出的显著属数量差异很大。通过比较观察到的属在不同研究中被识别为显著的分布与随机数据的预期分布，发现所有工具在这些数据集上的表现均显著优于随机预期，但ALDEx2、limma voom (TMM)、MaAsLin2的两种工作流程和ANCOM-II表现更优（图5）。在肥胖相关的5个数据集上进行类似分析时，发现大多数工具的一致性不高于随机预期，只有MaAslin2（包括非稀疏化和稀疏化数据）、t-test (rare)方法、ALDEx2和limma voom (TMMwsp)方法表现优于随机预期，其中MaAsLin2 (rare)方法产生的结果最一致。

Fig. 5

图5 腹泻数据集上显著属的观察一致性总体高于随机预期

讨论

本研究比较了常用DA工具在16S rRNA基因数据集上的性能，发现不同工具结果差异显著，这表明基于微生物组数据分析的生物学解释可能因工具选择而不可靠。DA工具可分为两组，一组（如limma voom、edgeR等）倾向于识别出较多显著ASV，另一组（如ALDEx2和ANCOM-II）则较为保守，识别出的ASV较少但可能精度更高、灵敏度较低。limma voom方法在未过滤的高度稀疏数据上表现不佳，edgeR和LEfSe的假发现率较高。ANCOM-II在腹泻相关数据集上表现较好，但在不同数据集间的一致性不如ALDEx2和MaAsLin2。总体而言，我们不建议单独使用limma voom、corncob和DESeq2等工具，而应采用更保守的方法，如ALDEx2和ANCOM-II，或者结合多种工具进行分析，并关注大多数工具都识别出的显著特征。同时，建议在分析前进行流行度过滤，但需进一步研究确定最佳过滤阈值。此外，虽然一些需要稀疏化数据的工具在本研究中表现并不差，但不能就此判定这类工具不可靠。

方法

研究使用了38个数据集评估微生物群落差异丰度工具的特性，另外3个数据集用于腹泻和肥胖相关微生物组数据集的差异丰度一致性比较。大多数数据集已为表格格式，少数原始序列数据经QIIME 2、cutadapt、VSEARCH和Deblur等软件处理得到ASV丰度表，并使用UCHIME2和UCHIME3算法识别嵌合体。利用自定义shell脚本结合R语言运行14种差异丰度检测工具，包括ALDEx2、ANCOM-II、corncob、DESeq2等，对数据进行分析，并使用多种R包进行数据处理、统计分析和绘图。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-03-29，如有侵权请联系 cloudcommunity@tencent 删除工具数据性能异常测试

微生物群落差异丰度分析方法在38个数据集上产生不同结果