一、背景
RNA-Seq实验设计中的“重复”包括:技术重复和生物学重复,重复是为了检测组间和组内的变异,对于假设检验至关重要。
- 技术重复为了估计测量技术(RNA-Seq)的变异。
- 生物学重复是为了发现生物组内的变异。简单的说,两组的基因表达的变化只有比组内变异还大时才能认为时显著的。
RNA-Seq试验中,抽样得到的raw read counts服从泊松分布。并且同一样本在两次试验中的结果不同,这称为shot noise。这种变异在RNA-Seq技术重复间成为Possion noise。生物学上不同的样本间的差异服从负二项(negative binomial)分布,有时称gamma-Poisson分布。由于RNA-Seq count数据也表现出zero inflation(大量值为0)的特征,所以很难拟合到负二项分布,所以有文章认为要用Poisson-Tweedie family建模。