Alu重复序列是哺乳动物基因组中SINE家族的一员,约有50万份拷贝。也就是说平均4~6 kb中就有一个Alu序列。由于这种DNA序列中有限制性内切核酸酶Alu工的识别序列AGCT,所以称为Alu重复序列。典型的人基因组Alu序列长282 bp,由两个同源但有差别的亚基构成。亚基来源于有缺失突变和点突变的7SLRNA基因。两个亚基间由腺嘌呤核苷酸密集的序列连接。右边的亚基中有无关的31 bp插入片段,称为IH。Alu序列两端各有一个正向重复序列,末端有一个poly(A)尾。
Alu序列一般散在分布,少数呈簇状分布。在细胞遗传学水平上观察,Alu重复序列集中在基因转录最活跃的染色体区段内。在所有已知的基因内含子中,几乎都发现了Alu序列。
与Alu序列亚基有很高同源性的7SLRNA是7SRNA的一部分,是将蛋白质运送到内质网以便分泌出胞外的信号识别颗粒(signal—recognition particle,SRP)的组成部分。7SRNA5,端的90个核苷酸同Alu序列左端同源,中间的160个核苷酸与Alu序列没有同源性,而3,端的40个核苷酸与Alu序列右端同源。7SRNA基因是由RNA聚合酶Ⅲ转录的。人体Alu重复序列绝大多数要由RNA聚合酶Ⅲ转录成RNA,而且Alu 3,端有polyA尾,这些都提示Alu重复序列是通过RNA为中介,反转录成DNA后整合在基因组新位置上的。这里要提及的是,所有真核细胞里都含有3种RNA聚合酶;RNA聚合酶I负责转录rRNA基因,产生核糖体RNA(ribosomal RNA,rRNA);RNA聚合酶Ⅱ负责转录所有编码蛋白质的基因,产生信使RNA(messenger RNA,mRNA),再由多聚腺嘌呤核苷酸聚合酶(poly(A)polymerase)负责加上poly(A)尾;RNA聚合酶Ⅲ负责转录转移RNA(transfer RNA,tRNA)以及细胞核和细胞质内的各种小RNA,这些被转录的基因一般长300bp左右,且在基因组的重复拷贝数可达几千份甚至上百万份。
Alu家族不同成员之间的一致序列(consensus sequence)的同一性平均达87%。小鼠基因组内约有5万份拷贝的B1重复序列,长130 bp,与Alu的一个亚基的同源性达70%--80%。
哺乳动物基因组中为什么有这么多重复拷贝的DNA序列,目前还不是很清楚。现已发现,Alu序列中有一个14 bp的区段同乳多空病毒(papova virus)如SV40病毒,以及乙型肝炎病毒的复制起始序列几乎完全相同。这提示Alu序列很可能同真核生物基因组中的复制起始有某种相关,但这也存在争论。因为Alu重复序列的拷贝数比复制起始点的预期数多出几十倍。此外还发现,中国仓鼠的Alu类家族(Alu-equivalent family)的一些成员,当位于其他转录单位附近时,能在体内被转录生成单独的RNA分子。