Hotdry.

Article

CRISPRi 基因沉默效率评估:RNA-seq 差异表达分析流水线的工程实践

构建基于 RNA-seq 的 CRISPRi 效果评估流水线,覆盖实验设计、标准化、差异表达分析与脱靶检测的完整工程参数。

2026-04-16mlops

在 CRISPR 基因编辑技术生态中,CRISPRi(CRISPR 干扰)通过将失活的 Cas9(dCas9)与转录抑制因子融合,实现了对目标基因的可逆沉默。与传统 CRISPR-Cas9 切割不同,CRISPRi 不引入 DNA 双链断裂,因而在基因功能研究和潜在治疗场景中具有更高的安全性。然而,如何从 RNA-seq 数据中准确评估 CRISPRi 的沉默效率,同时有效识别脱靶效应,仍是生物信息学分析中的一个关键工程问题。本文将从实验设计、数据处理、差异表达分析与可视化四个层面,阐述完整的流水线构建方案与关键参数选择。

实验设计阶段的质量控制

CRISPRi 效果评估的可靠性在很大程度上取决于实验设计的合理性。在样本层面,每个目标基因应设计至少三个独立的 sgRNA(guide RNA),而非依赖单一引导序列。原因在于:不同 sgRNA 的敲降效率存在显著差异,单一引导的结果可能偏离真实效果;同时,多个独立 sgRNA 产生的共同差异表达信号有助于区分 on-target(靶向)效应与 sgRNA 特有的脱靶噪声。对照组的设计同样关键:非靶向 sgRNA(non-targeting guide)作为阴性对照,用于建立背景表达基线;而对于涉及拷贝数变异的样本(如 21 三体综合征细胞模型),还需纳入等基因对照组以排除染色体剂量效应带来的假阳性。

生物学重复的数量直接影响统计效力。业界推荐每个条件至少设置三个生物重复(biological replicates),且这些重复应来自独立的细胞转染或克隆挑选过程,而非技术重复。若研究涉及时间序列动力学,可考虑在多个时间点采样,但需在后续分析中通过设计矩阵(design matrix)明确建模时间效应。样本量的下限不应低于每组三个重复,因为在差异表达分析中,过少的重复会导致过度拟合和假阳性率失控。实验设计阶段还应预留一份独立的验证集,用于后续 qPCR 或靶向 RNA-seq 的正交验证。

数据预处理与表达量定量

原始测序数据的质量控制是整个流水线的基础。使用 FastQC 或 fastp 对原始读数进行质量评估,重点关注碱基质量分布、GC 偏差、接头污染比例和读数复杂度。对于 RNA-seq 数据,测序质量低于 Q30 的读数应当过滤,接头序列需使用 Trimmomatic 或 cutadapt 予以 Trim 处理。 eukaryotic 转录本的比对需要使用支持可变剪接的比对工具,如 STAR 或 HISAT2,后者在大规模数据集上具有更快的运行速度和更低的内存占用。

表达量定量可在基因水平和转录本水平两个维度进行。基因水平的定量推荐使用 featureCounts 或 htseq-count,这两者均能输出简洁的基因计数矩阵,适合下游差异表达分析。转录本水平的定量则可采用 Salmon 或 Kallisto,基于伪比对(pseudo-alignment)策略实现快速定量,适用于 isoform 层面的效应检测。对于 CRISPRi 评估场景,基因水平的定量通常已能满足需求;但若怀疑目标基因存在可变剪接调控导致的沉默效率差异,转录本水平定量能提供更精细的分辨率。

样本聚类分析是质量控制的关键步骤。使用主成分分析(PCA)或层次聚类,检查样本是否按照实验条件而非技术批次聚类。批次效应(batch effect)是 RNA-seq 分析中的常见干扰因素,若存在明显批次效应,需在后续差异表达模型中加入批次协变量进行校正。一种推荐的实践是:在实验设计阶段即采用随机化布局,避免将同一批次的样本集中于某一实验条件。

沉默效率的量化评估

CRISPRi 沉默效率的核心指标是目标基因在处理组与对照组之间的表达量差异。标准化是差异表达分析的第一步:DESeq2 使用的 median-of-ratios 方法和 edgeR 使用的 TMM(Trimmed Mean of M)方法均能有效校正文库大小和组成差异。值得注意的是,CRISPRi 实验中的沉默效率评估应排除管家基因作为内参,因为 CRISPRi 可能通过间接调控网络影响部分管家基因的表达;更稳妥的做法是使用 DESeq2 内置的 size factor 标准化,或在分析前确认内参基因的稳定性。

对于每个目标基因,计算其在 CRISPRi 处理组与对照组之间的 log2 fold-change(对数倍数变化)和统计显著性 p-value。log2 fold-change 的绝对值可直接转化为敲降百分比:log2 (fold-change) = -1 对应约 50% 敲降,-2 对应约 75% 敲降,-3 对应约 87.5% 敲降。在实际操作中,80%–90% 的敲降效率(即 log2 fold-change 在 -2.3 至 -3.3 之间)被视为高效沉默的阈值。低于 50% 的敲降可能提示 sgRNA 效率不足或目标基因表达补偿机制活跃,需考虑更换 sgRNA 或提高转染效率。

每个 sgRNA 的敲降效果应独立评估,并以箱线图或小提琴图的形式可视化目标基因在不同 sgRNA 之间的表达分布。这种可视化不仅能展示沉默效果的异质性,还能帮助识别表现异常的 sgRNA—— 若某一 sgRNA 的敲降效果显著偏离其他两个,可能暗示该 sgRNA 存在特异性脱靶或设计缺陷。

脱靶效应的检测与验证

脱靶效应(off-target effect)是 CRISPRi 安全性评估的核心议题。与 DNA 层面的脱靶不同,RNA-seq 分析主要关注的是转录层面的脱靶效应 —— 即 CRISPRi 在非预期位点引发的基因表达改变。这些改变可能源于 sgRNA 与部分同源序列的结合导致的非特异性沉默,也可能源于基因敲降后的次级调控反应(如反馈激活或补偿性通路激活)。

差异表达分析是脱靶检测的主要手段。使用 DESeq2 或 edgeR 对 CRISPRi 处理组与对照组进行全基因组差异表达分析,筛选显著差异表达基因(differentially expressed genes, DEGs)。筛选阈值通常设定为调整后 p-value(Benjamini-Hochberg 校正)小于 0.05,且 |log2 fold-change| 大于 1。值得注意的是,这一阈值下的差异表达基因可能包含大量 on-target 效应(即目标基因的沉默引发的下游调控),因此需要进一步区分。

区分 on-target 与脱靶效应的关键策略是比较多个独立 sgRNA 的差异表达谱。若某一非目标基因在针对不同基因的 sgRNA 处理组中均表现出差异表达,更可能是实验处理引入的全局性干扰(如转染试剂毒性或 dCas9 表达负担);若某差异表达基因仅在靶向特定基因的 sgRNA 组中出现,则需评估其与目标基因的已知调控关系。可采用交集分析法:仅当一个差异表达基因在至少两个针对不同目标基因的 sgRNA 组中都被检测到显著变化时,才将其标记为候选脱靶效应。

另一种辅助验证手段是将差异表达基因与 sgRNA 的预测脱靶位点进行交叉比对。sgRNA 设计工具(如 Benchling 或 CHOPCHOP)通常会列出具有 ≤ 2–3 个错配的潜在结合位点。若差异表达基因中有显著比例落在这些预测位点的邻近区域,可作为脱靶效应的有力证据。

质控检查点与参数建议

整个流水线应在关键节点设置质控检查点。实验设计阶段检查:sgRNA 是否覆盖目标基因的不同区域、是否包含足够的阴性对照和生物学重复。数据预处理阶段检查:FastQC 报告中是否存在系统性偏差、样本聚类是否符合预期。差异表达分析阶段检查:目标基因的敲降是否显著、阴性对照的表达是否稳定、全局差异表达基因的数量是否在合理范围内。

以下参数可作为默认推荐:比对使用 STAR,默认参数即可满足 RNA-seq 需求;表达定量使用 featureCounts,最小映射质量阈值设为 10 以排除多映射读数;差异表达分析使用 DESeq2,模型设计包含 sgRNA 批次和处理条件两个因素;显著性筛选使用 BH 校正后的 p-value 阈值 0.05,log2 fold-change 阈值 1。对于 21 三体综合征样本,还需要额外考虑染色体 21 上基因剂量效应的影响 —— 建议在分析模型中加入染色体 21 基因表达量作为协变量,或在可视化时单独标注染色体 21 上的差异表达基因。

可视化与结果报告

分析结果的可视化应覆盖多个维度。沉默效率热图展示目标基因在不同 sgRNA 处理组中的表达变化,颜色梯度直观反映敲降幅度。火山图(volcano plot)展示全基因组差异表达分析的总体结果,目标基因和显著差异表达基因应予以高亮标注。sgRNA 一致性散点图比较不同 sgRNA 之间的 log2 fold-change 相关性,高相关性提示 on-target 效应的一致性,低相关性则需进一步调查原因。

报告附录应详细记录软件版本、参数选择和质控指标,包括但不限于:测序数据量和 Q30 比例、比对率、每个样本的标准化因子、差异表达分析使用的统计模型和假设检验方法。这种可追溯性对于结果复现和同行评审至关重要。

资料来源

本文部分技术细节参考 NIH PMC 发表的 RNA-seq 数据分析流程(PMC6373869)和 CRISPRi 基因沉默相关研究。

mlops