不同物种GATA—2基因编码区生物信息学分析

工作总结 |

时间:

2021-07-04 01:14:31

|

摘要:利用生物信息学方法分析了小家鼠(Mus musculus)、褐家鼠(Rattus norvegicus)、人(Homo sapiens)、黑猩猩(Pan troglodytes)、大猩猩(Gorilla)、倭黑猩猩(Pan paniscus)、猿(Nomascus leucogenys)、狨(Callithrix jacchus)、亚马逊松鼠猴(Saimiri boliviensis)、家马(Equus caballus)、小耳大婴猴(Otolemur garnettii)、家猫(Felis catus)、东非狒狒(Papio Anubis)、猕猴(Macaca mulatta)、犬(Cains lapus)、野猪(Sus scrofa)、大熊猫(Ailuropoda melanoleuca)等17个物种GATA-2基因编码序列(Coding sequence,CDS),并对该基因的遗传多样性、信号肽、导肽、跨膜结构域、疏水性/亲水性、蛋白质二级结构、氨基酸序列进行了分析和预测。结果表明,在17个物种52条基因序列中共检测到344个多态位点,有25种单倍型,GATA-2 基因序列编码区的种内、种间存在丰富的遗传多样性。GATA-2蛋白N端无信号肽,不具有导肽,没有跨膜结构域,表现为亲水性,蛋白质二级结构主要结构元件是无规卷曲和α-螺旋,理论等电点为9.43,GATA-2蛋白呈碱性。

关键词:GATA-2基因;物种;生物信息学分析;遗传多样性

中图分类号:Q786 文献标识码:A 文章编号:0439-8114(2013)24-6182-05

GATA家族是一类能识别GATA基序(motif),并能与之结合的转录调节因子,在动物、真菌、植物等生物中存在比较广泛。脊椎动物中已发现6种GATA结合蛋白,分为GATA-1/2/3和GATA-4/5/6两大类,前者与红细胞、淋巴及性腺的发育有关,后者控制心、肠及外胚等组织分化的转录[1,2]。GATA-2的cDNA大小为2.6 kb,编码的转录因子为474个氨基酸。GATA-2属于锌指结构家族,可调控造血干/祖细胞的增殖和分化,在整个造血过程中对细胞的系统分化十分重要[3]。GATA-2还可调控其他造血相关因子的表达,与多种造血系统疾病相关。另外,GATA-2可作为胚胎发育过程中原肠胚期外胚层腹部的分子标记,还表达于胚胎发育时期和成年个体垂体中的[4],GATA-2失活后胚胎会因为造血功能的缺失而在怀孕中期死亡。GATA-2还可以与其他因子交互作用,从而在多方面发挥调控造血作用[5]。本研究利用生物信息学方法分析了GATA-2基因编码区种内和种间变异,研究了该基因不同种内及种间的遗传分化,为更好地研究该基因及GATA家族中其他成员的结构和功能奠定了基础。

1 材料与方法

1.1 序列来源

1.2 方法

2 结果与分析

2.1 不同物种GATA-2基因核苷酸分析

2.1.1 多态位点、单倍型及核苷酸多样性分析 在所分析片段长度为1 443 bp的52条序列中,发现344个多态位点,百分率为23.84%,其中单一多态位点65个,百分率为4.50%,简约多态位点279个, 百分率为19.33%;共发现25种单倍型,单倍型的多样性为0.967,说明GATA-2基因种间和种内变异较大。不同物种的多态位点数和单倍型多样性不一致,表明GATA-2基因的种间存在遗传变异。17个物种种间的平均核苷酸差异数(k)为76.676,核苷酸多样性为0.053。其中,人的GATA-2基因平均核苷酸差异数和核苷酸多样性最高,与其他物种差异较大,这表明人的GATA-2基因存在丰富的遗传多样性(表2)。

2.1.2 核苷酸歧异度、遗传分化和净遗传距离分析 不同物种GATA-2基因遗传分化(Gst)在0.093~1.000之间,核苷酸歧异度(Dxy)和净遗传距离(Da)都在0.001~0.109之间(表3)。不同物种间核苷酸歧异度和遗传分化、净遗传距离的变化范围均很大,说明了不同物种间遗传分化明显。其中黑猩猩和倭黑猩猩、大猩猩、人的核苷酸歧异度、净遗传距离最小,说明黑猩猩与倭黑猩猩、大猩猩、人之间的亲缘关系较近,小家鼠、褐家鼠与其他物种间的核苷酸歧异度、净遗传距离最大,说明小家鼠、褐家鼠与本研究中其他物种间亲缘关系较远。

2.2 不同物种GATA-2基因氨基酸多样性分析

2.2.1 密码子偏爱性 ENC值是评价基因整体密码子偏爱性,其取值范围为20(每个氨基酸只使用1个密码子的极端情况)~61(各个密码子均被平均使用),其值越低说明偏爱性越强,越高则说明偏爱性越低[6]。CBI值反映了一个基因中高表达优越密码子的组分情况,说明外源基因在目的宿主中可能的表达情况[7]。所选不同物种GATA-2基因序列编码区中密码子有效值(ENC)为42.383 (<61),偏爱指标(CBI)为0.494(>0),说明GATA-2基因对密码子有较强偏爱性。

2.2.2 同义替换和非同义替换 17个物种52条GATA-2基因序列编码区中同义替换平均位点数为365.80个,非同义替换平均位点数为1 071.20个。不同物种同义替换位点数(SS)为364.50~367.50(表4),同义替换核苷酸多样性均值[π(s)]为0.189;非同义替换位点数(NSS)为1 072.50~1 075.50,非同义替换核苷酸多样性均值[π(a)]为0.006。GATA-2基因的非同义替换位点数均明显高于同义替换位点数,亚马逊松鼠猴的非同义替换位点数较其他物种多,其次是家猫、小家鼠,说明亚马逊松鼠猴GATA-2基因编码区的非同义替换较其他物种高,家猫、小家鼠分别为第二、第三。由于达尔文的正向选择有些基因中非同义替代速率远远高于同义替代[8],因此推测本研究中的GATA-2基因在进化过程中可能受到了正向选择的影响。

2.2.3 不同物种GATA-2基因遗传关系分析 根据不同物种间的核苷酸歧异度(Dxy),用MEGA5.0软件的UPGMA方法进行聚类分析,构建不同物种分子聚类图(图1)。由图1可以看出,人与黑猩猩、倭黑猩猩、大猩猩的亲缘关系较近,小家鼠与褐家鼠与其他物种的亲缘关系较远,基本上与NCBI中的动物学分类相符合。

2.2.4 不同物种GATA-2基因的G+C含量 亲缘关系相近的生物,核苷酸的碱基组成中的G+C含量相似,若生物之间G+C含量差别大,则表明它们的亲缘关系远。本研究中的GATA-2基因的碱基组成,发现它们之间的G+C含量的均值为64.60%,不同物种的G+C含量在62.20%~66.10%之间(表4),说明GATA-2基因在不同物种间发生了遗传变异。小家鼠和褐家鼠GATA-2基因的G+C含量分别为62.60%、62.20%(表4),与其他物种GATA-2基因的G+C含量相差较大,说明小家鼠和褐家鼠与本研究中的其他物种亲缘关系最远,与本研究之前的结果相符。

2.3 不同物种氨基酸序列预测和分析

2.3.1 信号肽的预测与分析 一般认为,每一个需要运输的多肽都含有一段氨基酸序列, 称为信号肽序列(Signal peptide,SP),引导多肽至不同的转运系统[9]。信号肽帮助蛋白质穿膜,与蛋白质的细胞定位有关,通过分析蛋白序列N端信号肽的有无, 可以初步判断某个蛋白是否为分泌蛋白[10]。利用蛋白分析专家EXPASY 工具里的SignalP 4.0 Server对17个物种GATA-2氨基酸序列进行预测,结果显示所研究17个物种的GATA-2氨基酸序列均无信号肽,推测GATA-2不是分泌蛋白,在游离核糖体上起始合成后就于合成处发挥作用,可能不存在运输,而保留在细胞基质中合成,运输到细胞器中起作用的蛋白质。

2.3.2 导肽的预测和分析 导肽促使前体蛋白和细胞器膜相互作用,穿越过膜后被细胞器的蛋白酶切下转运,继续使整个蛋白穿越过膜,或直到中部导致转运停止。利用在线工具TargetP1.1 Server 对13个物种GATA-2氨基酸序列进行预测,结果显示本研究中17个物种的GATA-2氨基酸序列均没有氨基酸残基裂解位点,故推断GATA-2氨基酸序列不具有导肽。

2.3.3 跨膜结构域的预测和分析 蛋白的跨膜结构域主要是膜内在蛋白和细胞膜的膜脂相结合的部位,一般是由以α-螺旋形式存在的20个左右疏水氨基酸残基构成[11],利用在线工具TMHMM 2.0 Server对17个物种GATA-2氨基酸序列的跨膜结构域进行预测,结果显示本研究中17个物种的 GATA-2氨基酸序列均不存在跨膜结构域,整条肽链位于细胞外,推测该蛋白不是定位于生物膜的膜蛋白。结合信号肽的预测,说明GATA-2蛋白质属于定位在细胞基质中的蛋白质,不属于膜蛋白或分泌蛋白。

2.3.4 疏水性/亲水性的预测和分析 疏水性和亲水性分析对于预测蛋白质的二级结构和功能域具有重要的生物学意义。疏水性的氨基酸倾向于远离周围水分子,将自己包埋进蛋白质的内部,亲水氨基酸通常处于蛋白质分子的表面[12]。利用在线工具 ProtScale 对17个物种GATA-2氨基酸序列的疏水性/亲水性进行预测,结果显示本研究17个物种的GATA-2氨基酸序列最低分值为-4.500,亲水性最强;最高分值为4.500,疏水性最强。总体上看,亲水区域大于疏水区域,故整条多肽链表现为亲水性,因此认为GATA-2蛋白是亲水性蛋白,处于蛋白质分子的表面。

2.3.5 二级结构的预测和分析 二级结构主要指多肽链依赖氢键排列成在一维方向上具有周期性结构的构象,对其进行预测与分析,有助于认识蛋白的空间结构[13]。用 PBIL LYON-GERLAND信息库对17个物种GATA-2氨基酸序列的二级结构进行预测,结果显示本研究中17个物种的GATA-2蛋白质二级结构的主要结构元件是无规卷曲(72.71%~75.83%),其次α-螺旋(11.46%~13.33%)、β折叠(7.29%-9.38%)、β转角(3.75%~5.83%)。

2.3.6 氨基酸序列的组成成分及生化特性分析 用ProtParam在线工具分析17个物种GATA-2基因编码的氨基酸序列,结果表明,理论等电点为9.43,GATA-2蛋白呈碱性,Pro是17个物种中最主要的氨基酸,含量在11.2%~11.7%;其次是Ala,含量在10.8%~11.5%;再次是Ser,含量在10.0%~11.0%。17个物种 GATA-2 蛋白的不稳定系数在57.11~62.63之间,表明这种蛋白质不稳定[14]。

3 小结与讨论

不同物种间GATA-2基因的核苷酸歧异度、净遗传距离和单倍型间的遗传距离差异都较大,种内及种间遗传分化明显。GATA-2基因对密码子有较强的偏爱性,非同义替换位点数均明显高于同义替换位点数,GATA-2基因在进化过程中可能受到正向选择的影响。GATA-2基因物种间的亲缘关系与动物学分类相符。

GATA-2蛋白N端无信号肽,无导肽,无跨膜结构域,整个多肽链表现为亲水性,蛋白质二级结构的主要元件为无规则卷曲和α-螺旋,除此之外还有少量β折叠和β转角,GATA-2蛋白质不属于膜蛋白或分泌蛋白,应定位在细胞基质。

参考文献:

[1] MORRISEY E E, IP H S, TANG Z, et al. GATA-4 activates transcription via two novel domains that are conserved within the GATA-4/5/6 subfamily[J]. Journal of Biological Chemistry,1997,272(13):8515-8524.

[2] ONODERA K, YOMOGIDA K, SUWABE N, et al. Conserved structure, regulatory elements, and transcriptional regulation from the GATA-1 gene testis promoter[J]. Journal of Biochemistry,1997,121(2):251-263.

[3] IKONOMI P, RIVERA C E, RIORDAN M, et al. Overexpression of GATA-2 inhibits erythroid and promotes megakaryocyte different iat ion[J]. Exp Hematol,2000,28(12):1423-1431.

[4] SUH H, GAGE P J, DROUIN J, et al. Pitx2 is required at multiple stages of pituitary organogenesis: Pituitary primordium formation and cell specification[J]. Development,2002,129(2): 329-337.

[5] 吴秀丽,李扬秋.转录因子GATA-2的研究进展[J]. 现代临床医学生物工程学杂志,2003,9(5):387-389.

[6] WRIGHT F. The‘effective number of codons’ used in a gene[J]. Gene,1990,87(1):23-29.

[7] NOVEMBRE J A.Accounting for background nucleotide composition when measuring codon ussge bias[J]. Mol Biol Evol,2002,19(8):1390-1394.

[8] GUO Z P . Introduction to Population Genetics[M]. Beijing: Agricultural Press,1993.298-332.

[9] 彭佳师,龚继明.信号肽与蛋白质的分选转运[J].植物生理学报,2011,47(1):9-17.

[10] 孙翰昌,杨 帆,徐敬明,等.草鱼含信号肽分泌蛋白的预测分析[J].水产科学,2011,30(3):164-167.

[11] 张 耿,王 赞,关 宁,等.中间偃麦草Na+/H+逆向转运蛋白的分子克隆及生物信息学分析[J].遗传,2007,29(10):1263-1270.

[12] 胡秀珍.蛋白质规则二级结构中亲疏水氨基酸紧邻关联特性[J].内蒙古大学学报(自然科学版),2002,33(4):395-400.

[13] 徐 飞,成述儒,罗玉柱. 绵羊DRB1基因生物信息学分析[J]. 生物技术通报,2011(1):113-118.

[14] 张雨良,张智俊,杨峰山,等.新疆盐生植物车前PmNHXl 基因的克隆及生物信息学分析[J].中国生物工程,2009,29(1):27-33.

延伸阅读
公司面试自我介绍范文  自我介绍要围绕岗位胜任力模型展开。80%要围绕与应聘岗位所需要的专业胜任能力
2023-06-16
新公司年度工作计划范文3篇  个好的年度经营计划应该是连结企业战略规划与年度财务预算的桥梁,是企业日
2023-06-16
公司前台辞职报告范文3篇  在某个公司做时间长了,我们可能会因为某些原因离开职位,为此很有必要写好辞
2023-06-15
公司会计人员个人工作计划3篇  工作计划是,对一定时期的工作预先作出安排和打算时,工作中都制定工作计
2023-06-15
公司人力年度总结  对服务行业不感兴趣的我,渐渐对服务行业充满浓厚的兴趣,服务作为一个大众化消费群体
2023-06-15