高等植物启动子研究进展
启动子是RNA聚合酶能够识别并与之结合,从而起始基因转录的一段DNA序列,通常位于基因上游。一个典型的启 动子包括CAAT-box和TATA-box,它们分别依赖DNA的RNA聚合酶的识别和结合位点,一般位于转录起始位点上游几十个碱基处。在核心启动子上 游通常会有一些特殊的DNA序列,即顺式作用元件,转录因子与之结合从而激活或抑制基因的转录。一旦RNA聚合酶定位并结合在启动子上即可 启动基因转录,因此启动子是基因表达调控的重要元件,它与RNA聚合酶及其他蛋白辅助因子等反式作用因子的相互作用是启动子调控基因转录的实质。
根据启动子的转录模式可将其分为3类:组成型启动子、组织或器官特异性启动子和诱导型启动子。
1 组成型启动子
在组成型启动子调控下,不同组织器官和发育阶段的基因表达没有明显差异,因而称之组成型启动子,双子叶植 物中最常使用的组成型启动子是花椰菜花叶病毒(CaMV)35S启动子,它具多种顺式作用元件。其转录起始位点上游-343~-46bp是转录增强区 ,-343~-208和-208~-90bp是转录激活区,-90~-46bp是进一步增强转录活性的区域,在了解CaMV 35S启动子各种顺式作用元件的基础上,人 们利用它的核心序列构建人工启动子,以得到转录活性更高的启动子,Mitsuhara等利用CaMv 35s核心启动子与CaMV 35S启动子的5'端不同区段 和烟草花叶病毒的5'非转录区(omega序列)相连,发现把两个CaMV 35S启动子-419~-90(E12)序列与omega序列串联,在转基因烟草中GUS有 最大的表达活性,把7个CaMV35S启动子的-290~-90(E7)序列与omega序列串联,非常适合驱动外源基因在水稻中的表达。用这两种结构驱动 GUS基因表达,在转基因烟草和水稻中GUS活性比单用CaMV 35S启动子高20~70倍。
另一种高效的组成型启动子CsVMV是从木薯叶脉花叶病毒(cassava vein mosaic virus )中分离的。该启动子 -222~-173bp负责驱动基因在植物绿色组织和根尖中表达,其中-219/-203是TGACG重复基序,即as1 (activating sequence 1),-183/-180为 GATA(又称为as2),这两个元件的互作对控制基因在绿色组织中表达至关重要。该启动子-178~-63bp包含负责调控基因在维管组织中表达的 元件。CsVMV启动子在转基因葡萄中驱动外源基因的转录能力与使用两个串联的CaMV35S启动子相当,两个串联的CsVMV启动子转录活性更强。 Rance等利用CoYMV(commelina yellow mosaic virus),CsVMV启动子区和CaMV 35S启动子的激活序列(as1,as2)人工构建高效融合启动子,瞬 时表达实验表明该启动子可驱动报告基因在双子叶植物烟草中高效表达,在单子叶植物玉米中其驱动能力比通常使用的γ玉米蛋白启动子高6倍。因此用这种人工构建的高效 启动子驱动抗病基因或目的蛋白基因,在双子叶和单子叶植物中均可达到较理想的效果。
人们高度重视从植物本身克隆组成型启动子,并初见成效,例如肌动蛋白(actin)和泛素(ubiquitin)等基因的启 动子已被克隆。用这些启动子代替CaMV 35S启动子,可以更有效地在单子叶植物中驱动外源基因的转录。Naomi等分别从拟南芥的色氨酸合酶β 亚基基因和植物光敏色素基因中克隆了相应启动子,用其代替CaMV 35S启动子,在转基因烟草中也取得了很好的表达效果。
由于组成型启动子驱动的基因在植物各组织中均有不同程度表达,应用中逐渐暴露出一些问题。例如外源基因在 整株植物中表达,产生大量异源蛋白质或代谢产物在植物体内积累,打破了植物原有的代谢平衡,有些产物对植物并非必需甚至有毒,因而阻 碍了植物的正常生长,甚至导致死亡。另外,重复使用同一种启动子驱动两个或两个以上的外源基因可能引起基因沉默或共抑制现象。因此, 人们寻找更为有效的组织、器官特异性启动子代替组成型启动子,以更好地调控植物基因表达。
2 组织或器官特异性启动子
这类启动子调控下的基因转录一般只发生在某些特定器官或组织中,目前已发现这类启动子中一般同时存在几种 控制组织特异性表达的元件,其表达特异性由这些元件的种类、数目及相对位置等共同决定。深入研究这些启动子不仅有助于阐明植物形态、 发育、代谢途径等基础理论,而且具有广泛的应用价值。
21 根特异启动子
根的发生和发育是植物发育过程中的重要问题,研究根中特异表达基因及其启动子无疑是重要的。拟南芥根中特异表达的黑芥子酶(myrosinase)是由Pyk10基因编码的。Pyk10启动子中存在若干器官特异性表达和 植物激素应答的特异元件,如ACGT-核心序列、CANNTG-motifs、GATA-motifs、诱导物(elicitor)应答元件W-box((T)TGAC(C))、植物激素应答 元件(如as-1元件、生长素和脱落酸应答元件、Myb元件)和细胞特异表达元件等。其中ACGT,CANNTG,GATA等顺式作用元件是决定组织器官特异 表达的转录因子结合位点,Myb元件在控制植物次生代谢、调节细胞形态建成及信号传导通路中起作用。
根特异表达系统可用于研究转基因植物的高渗胁迫耐受、植物修复和根际分泌等问题。BoriSjuk等用根特异启动 子mas2',GFP和烟草钙网蛋白(calreticulin)基因构建融合表达载体,水培转基因烟草结果表明,根细胞不仅能够高效生产GFP,而且可将目的 蛋白质分泌到液体培养基中。因此利用该启动子与其他有用的能编码蛋白质的基因融合,不仅可大量生产目的蛋白质,且更便于回收产物。
22 茎特异启动子
Trindade等利用cDNA-AFLP技术从马铃薯中分离了一个与乙醇脱氢酶非常相似的TDF511(transcript derived fragment),其基因Stgan可能参与植物体内影响赤霉素水平的复合物的合成。在NCBI数据库中,比较Stgan启动子与马铃薯的patatin Ⅰ和Ⅱ、 蛋白酶抑制子、nodulin 22K和23K等编码蛋白质基因的启动子,发现它们包含一些可能与蔗糖应答反应有关的共有序列;该启动子还包含植物 中几个保守的转录因子(如Dof1,Dof2,Dof3和PBF)的结合位点。构建Stgan启动子-GUS融合表达载体转化烟草,GUS组织化学染色显示该启动子 驱动基因在茎结节处特异表达,可能参与块茎形成过程。
研究在茎中特异表达基因的启动子,不仅可从分子水平了解茎的发生、分化过程,更重要的是利用这些启动子调 节植物代谢可满足人类需求,如人们对木质素生物合成及其调控的研究。木质素是植物体内仅次于纤维素的一种含量丰富而重要的有机大分子 物质,它的存在对于增加植物机械强度、远距离水分运输和抵抗外界不良环境的侵袭都是非常有益的。然而,木质素的存在也有一定的负面作 用。因此,人们希望通过调节木质素的合成以降低其含量。目前多使用CaMV35S启动子驱动目的基因,近年来已分离一些木质素生物合成途径中 关键酶基因的启动子,如4CL,F5H等基因的启动子,人们正在尝试利用这些特异性启动子来调节木质素的生物合成。Bell-Lelong等已从拟南芥 中分离了肉桂酸羟-4-基化酶(cinnamate-4-hydroxylase,C4H)基因的启动子,本实验室首次从毛白杨中分离了C4H启动子,并对该启动子的功 能进行了初步鉴定。GUS组织化学染色和GUS荧光测定结果表明。G4H启动子驱动外源基因在烟草茎的维管组织中丰富表达,有望将来利用该启动 子驱动功能基因调控木质素的生物合成过程。
23 叶特异启动子
Marraccini等从咖啡(coffea arabica)中克隆了1,5-二磷酸核酮糖羧化酶/加氧酶(rubisco)小亚基基因RBCS1, 该基因在一年生植物咖啡的叶中特异表达。研究发现RBCS1启动子上游GTGGTTAAT序列与豌豆RBCS3A启动子的BoxⅡ核心序列相同;在其启动子G -box(GCCACGTGGC)两侧分别有一个类I-box(核心序列为GATAAG),形成I-G-I结构,推测G-box十个碱基的回文结构可能结合某个转录因子;其AT-1 box(AGAATTTTTATT) 与其他RBCS和CAB基因的AT-1 box(AATATTTTTATT)相比只有两个碱基不同;类L-box(AAAATTAACCAA)与马铃薯RBCS1和RBCS3A启动子的相同。由此 可见,植物叶特异表达顺式元件具高度保守性。
有趣的是Taniguchi等在玉米中发现了一个双元启动子系统(dual promoter system)。PPDK(pyruvate, orthophosphate dikinase)是C4植物光合反应中的一个叶绿体酶,该酶基因Pdk具有一个双元启动子系统(C4Pdk启动子和细胞质Pdk启动子)。这 两个启动子的区别在于起始密码子和拼接方式的差异,C4Pdk启动子驱动Pdk转录成较长的mRNA。基因产物定位在叶绿体中;细胞质Pdk启动子在 Pdk基因的第一个内含子中,驱动Pdk转录成较短的mRNA,它所编码的蛋白质定位于细胞质中,又称为细胞质Pdk启动子。C4Pdk启动子是受光诱 导的强启动子,驱动基因在玉米叶肉细胞中特异表达;而细胞质Pdk启动子是个弱启动子,且不具有组织特异性。大多数C4植物的光合作用相关 基因的表达具有细胞特异性,且主要在转录水平调节基因表达活性,因此,可利用该启动子在C4植物叶肉细胞中高效表达外源基因。
24 花特异启动子
高等植物发育过程中花器官的形成是一个十分复杂的过程,它包括一系列器官分化及严格控制的细胞及生化变化 ,同时伴随大量基因的协同表达。目前人们最为关注的是花药中特异表达的基因,抑制或破坏这些基因的表达可导致雄性不育,即可利用基因 工程的方法创造雄性不育系。
人们克隆了许多花药特异表达的基因,如在花药绒毡层特异表达的TA29,A9、在花粉壁特异表达的Bp4A等,但这 些基因都是在花药营养细胞中表达,与生殖细胞的分化无关。Singh等从百合(Lilium longiflorum)中克隆了一个LGC1基因的启动子,该启动子 驱动的基因只在雄配子细胞中表达。LGC1启动子-242~-183 bp之间可能包含某种顺式作用元件,它的缺失会导致细胞特异性表达特性丧失,由 此可知LGC1在生殖细胞中的表达特异性可能是由于其他细胞中存在某些转录因子抑制该基因表达的结果。这是迄今为止发现的第一个有关雄配 子细胞特异性的启动子,在研究花药发生和受精作用中将会是一个有用的工具。
25 果实、种子特异性启动子
利用果实或种子等器官特异性启动子调控基因表达,不仅可提高基因在这些部位的表达量,将生物能耗降到最低 ,利于表达产物的分离,而且可有目的地提高转基因植物果实或种子的营养或改善其品质。
番茄E8启动子是成熟果实中乙烯应答性基因的启动子,其-409~-263bp可控制E8基因在果实成熟过程中特异表达 ,-2181~-1088bp为乙烯应答激活域。Sandhu等利用E8启动子驱动呼吸道合胞病毒F抗原基因成功转化番茄植株,用果实特异表达抗原喂饲小鼠,可诱导小鼠产生特异 的粘膜免疫反应、血清学抗体反应及TH1型细胞免疫反应。基因表达调控与免疫学的有效结合,使得转基因植物口服疫苗可在不久的将来问世。 2A12是番茄中另一种果实特异性启动子,毛自朝等利用该启动子驱动ipt调节果实内源激素的含量,不仅可获得无籽果实,还能改善果实的品质 。
种子特异性启动子中研究较多的是胚乳特异性谷蛋白基因启动子。谷蛋白占水稻种子储藏蛋白总量的70%~80% ,早在1986年Takaiwa等就克隆了第一个水稻谷蛋白基因的cDNA。该基因转录起始位点-261~-1 bp之间有若干控制种子特异性表达的顺式作用元件,如AACA-box、种子凝集 素-box、未成熟种子核因子结合位点等。此外,启动子更上游处还有若干增强子和调节元件,如-300bp处的RY重复序列,它是核蛋白的结合位 点。Yoshihara等研究发现水稻谷蛋白启动子上游-104~-60bp之间有两个顺式作用元件AACA和GCN4,GCN4能增强启动子的活性,而启动子的组织特异性则须两者协同作用。
虽然植物食物中包含人类营养所需的绝大多数矿物质和有机养分,但日常摄入的食物往往不足以提供人体所需的 营养。因此人们希望通过植物基因工程提高植物中所含的营养物质。水稻谷粒中含有铁蛋白,但多积累在糊粉层,在谷粒加工过程中会失去很 多铁。Vasconcelos等用水稻胚乳特异性谷蛋白基因启动子驱动大豆铁蛋白基因,使转基因水稻谷粒中铁和锌的含量都有所增加,而且铁蛋白主 要积累在胚乳中,不会在食品加工过程中丢失。无独有偶,Datta等利用水稻谷蛋白特异启动子驱动八氢番茄红素合酶基因PSY,在水稻胚乳中 成功合成维他命原A。
以植物为生物反应器生产生物可降解塑料是本实验室研究目标之一。叶梁等使用大豆7S种子特异性启动子,构建 二价和三价种子特异性表达载体转化油菜。这样将产物聚-3-羟基丁酸酯(PHB)定位与种子质体中,不仅增加了底物供应,也减少PHB对植物生长 发育的影响。为优化已有表达框架,减小基因沉默发生几率,Zhang等从油菜H165基因组DNA中分离到napinB启动子的部分序列——nap300。序 列分析表明,napinB启动子包含一些在进化上保守性很高的序列,如AT-rich sequenc,TACACAT保守序列、RY重复序列、G-box等,这些顺式作 用元件可能对种子特异性表达起重要的调控作用。将nap300与GUS基因融合转化烟草,GUS在胚和胚乳中均有表达;GUS荧光检测显示nap300启动 子具有驱动基因在种子发育晚期表达的能力。
3 诱导型启动子
与组织器官特异性启动子相比,诱导型启动子有着独特的优点:它可根据需要在植物特定的发育阶段、组织器官 或生长环境下,快速诱导基因转录的“开”与“关”。根据来源,可将诱导型启动子分为天然存在的启动子和人工构建的启动子。
31 天然的诱导型启动子
长期进化过程中,植物通过启动不同基因的表达可在一定范围内适应光、温、水等环境的变化。这些基因的启动 子通常包含比较保守的顺式作用元件,利用这些保守元件可以推测新基因的可能功能,也可用这些环境应答基因的启动子与抗逆基因融合,从 而使转基因植物更好地适应逆境。
天然诱导型启动子包括光、温度、激素应答启动子等。光应答启动子中通常存在GT-1-motif,I-box,G-box和 AT-rich sequence等顺式作用元件;温度应答启动子中多存在HSE-motif,CCAAT-box,CCGAC-motif等;激素应答启动子中则包含各种激素应答 元件。G-box作为蛋白结合的一个高度保守的位点,是植物中通用的受信号诱导的顺式作用元件,在植物和动物中具高度保守的核心序列CACGT 。G-box通常与另外一个顺式作用元件如I-box,H-box等协同作用,在细胞接受外界信号时调节转录起始的频率。这种机制可能是通过G-box及 其结合蛋白相互作用产生一个内部环境,其他调节蛋白与启动子区域有效结合,使细胞准确而有选择地起始转录。
有些诱导型启动子同时具有组织特异性,如RBCS1启动子,既包含叶特异表达元件,又带有几个光应答元件 (LREs),受光的诱导调节。当转基因烟草由光照转入黑暗时,该启动子驱动的GUS活性比在光下低许多,Northern杂交几乎检测不到GUS的表达。
由于植物生长环境及基因表达的复杂性,从外界环境的刺激到启动应答基因的表达之间的信号通路往往是相互交 叉的,这样启动子中包含的顺式作用元件通常也不止一种,如从葡萄中克隆的白藜芦醇合酶基因Vst1启动子,当病虫侵害、UV照射、臭氧环境 或化学物质诱导时均可启动Vst1的表达。Riou等发现该启动子上分别带有乙烯和臭氧的应答元件,可适应不同的外界刺激。拟南芥rd29A基因在 干旱、高盐碱、低温或脱落酸诱导时表达。其启动子-174~-55区域包含干旱应答因子(DRE,TACCGACAT)和ABA应答因子(ABRE,ACGTGG/TC),且 该基因在ABA诱导表达时,DRE和ABRE是相互独立的。
当植物受病虫害侵犯时,受伤部位会立刻启动细胞程序性死亡,即发生所谓超敏反应(hypersensitive response 。HR)。HR通常会启动未受伤部位产生次级防御反应,从而对一般的病虫害产生普遍抗性,这种现象称为系统获得性抗性(systemic acquired resistance,SAR)。烟草中SAR基因是一个至少包含十二个成员的家族,SAR也受一些诸如水杨酸(SA),INA(dichloroisonicotinic acid)和 BTH(benzothiadiazole)等化学物诱导。烟草Sat82b基因启动子-205/-201是as-1元件(TGACG),-146/-141和-276/-271为两个GT-1结合序列 (GGAAAT),-97/-94、-322/-318和-761/-758分别是Dof结合基序(AAAG),前两者被认为可以与SA应答的转录因子结合而起关键作用。启动子缺 失实验表明Sar82b启动子-927~-728和-351~-197bp分别包含有SAR高效诱导基因表达所需的顺式作用元件,缺少了这两个DNA片段。转基因烟 草GUS表达活性明显降低。
32 人工构建的诱导型启动子
在开发植物天然存在的诱导型启动子的基础上。人工构建可诱导表达系统以满足不同需求。目前研究最多、最深 入的可诱导表达系统是化学诱导表达系统。自第一次用化学诱导表达系统TetR,通过CaMV35S启动子成功调节cat基因的表达以来已有20多年的 历史,现已发展成日臻完善的植物表达外源基因的可诱导表达系统。该系统包括两个转录单元:一是与化学诱导物结合的转录因子的表达,另 一个转录单元包含一个应答元件,经诱导物处理后,通过它激活转录因子,从而激活或抑制目的基因的表达。
一个理想的化学诱导表达系统应具备以下特点:首先,外源基因在植物体自身不表达或低水平表达,当添加诱导 物后,高效诱导基因表达;其次,诱导物需要有较强的专一性;第三,诱导物可快速启动基因表达的“开”与“关”;而且诱导物对植物无毒 或低毒。根据控制基因表达的方式,可将化学诱导系统分为两大类:阻遏型启动子系统和激活型启动子系统。
321 阻遏型启动子系统
该系统建立在阻遏蛋白与转录因子在空间构型相互作用的基础之上。当诱导物不存在时,激活蛋白与阻遏蛋白结 合,基因正常转录;添加诱导物后,诱导物与激活蛋白结合或阻止其与阻遏蛋白结合,阻遏蛋白则与启动子上的某些顺式作用元件结合,抑制 基因转录,如以四环素抑制子为基础的四环素抑制系统(tTA)。Love等用包含四环素抑制子的启动子Topl0与报告基因GFP相连转化拟南芥,发现 用100 ng/mL的四环素即可抑制GFP的表达,而且改变培养基中四环素的浓度,可调节GFP的表达水平。
322 激活型启动子系统
在抑制型启动子系统中,抑制基因转录所需诱导物的量往往超出植物适应的范围,而且在真核生物中激活基因比 抑制基因转录更容易,近年发展了一些激活型启动子系统,如地塞米松诱导的GR系统、雌二醇诱导的ER系统、杀虫剂诱导的EcR系统等。激活型 启动子系统的优点是只有当诱导物存在时才能启动基因表达,去除诱导物后,基因表达很快被关闭,这样就可以人为地精确、快速控制基因的表 达。
Bohner等研究了一种可双向调控外源基因表达的系统,他们将改造的启动子Top10与报告基因GUS相连,使用转录 激活子TGV作为基因开关。转基因烟草结果表明,用地塞米松处理3小时后基因表达量达到高峰;用四环素处理6小时即可关闭基因表达。该诱导 系统最大的优点在于可迅速调节基因的表达与否,当外源基因可能对植物产生不良影响时这一点显得尤为重要。
为了满足应用需要,人们开始研究便于在大田使用的诱导表达系统,杀虫剂诱导的EcR系统就是一个很好的范例 。Unger等利用欧洲玉米螟(Ostrinia nubilalis)的蜕皮激素配基结合结构域(EcR LBD)、玉米C1激活域(AD)和GAL4 DNA结合结构域(DBD)构建化 学诱导激活子,把它与玉米ms45最小启动子相连,构建成可受杀虫剂诱导的人工启动子诱导系统。他们利用该系统在玉米雄性不育突变株ms45 中成功地诱导了育性恢复基因MS45的表达
1、分析得知:全部人类基因组约有291Gbp,约有39000多个基因;平均的基因大小有27kbp;其中G+C含量偏低,仅占38%,而2号染色体中G+C的含量最多;到目前仍有9%的碱基对序列未被确定,19号染色体是含基因最丰富的染色体,而13号染色体含基因量最少等等(具体信息可参见cmbi
特别报道:生命科学的重大进展)。
2、目前已经发现和定位了26000多个功能基因,其中尚有42%的基因尚不知道功能,在已知基因中酶占1028%,核酸酶占75%,信号传导占122%,转录因子占60%,信号分子占12%,受体分子占53%,选择性调节分子占32%,等。发现并了解这些功能基因的作用对于基因功能和新药的筛选都具有重要的意义。
3、基因数量少得惊人:一些研究人员曾经预测人类约有14万个基因,但Celera公司将人类基因总数定在26383万到39114万个之间,不超过40,000,只是线虫或果蝇基因数量的两倍,人有而鼠没有的基因只有300个。如此少的基因数目,而能产生如此复杂的功能,说明基因组的大小和基因的数量在生命进化上可能不具有特别重大的意义,也说明人类的基因较其他生物体更'有效',人类某些基因的功能和控制蛋白质产生的能力与其他生物的不同。这将对我们目前的许多观念产生重大的挑战,它为后基因组时代中生物医学的发展提供新的非凡的机遇。但由于基因剪切,EST数据库的重复以及一些技术和方法上的误差,将来亦可能人类的基因数会多于4万。
同一个基因的启动子都是可长可短的,只是不同长度可能启动子的活性不一样。真核生物一般都是认为在第一外显子上游的2kb以内(也有2kb以外的)。转录因子不同的预测方法(除了PROMO,还可用Jaspar 、TFSEARCH、TRANSFAC等数据库)结果都不一样,最终只有实验验证的才准确。
做富集分析的网页工具 >
转录因子靶基因计算方法,原理是iRegulon。iRegulon插件主要使用近10000个TFmotifs数据库和1000个ChIP-seq数据集或“tracks”来检测富集的TFmotifs或ChIPseq峰。接下来,它将富集的TFmotifs和“tracks”与靶点基因联系起来。iRegulon作为一个Cytoscape插件,支持人类、小鼠和果蝇基因。
一、绪论及核酸序列分析
1生物信息学:
(1)狭义:将计算机科学和数学应用于生物大分子信息的获取、加工、储存、分类、检索与分析以达到理解这些生物大分子信息的生物学意义的交叉学科。
(2)广义:生物分子信息的存储、获取、分析和利用。
2人类基因组计划是生物信息学的来源
3生物信息学的主要内容:
(1)生物分子数据的收集和管理
(2)数据库:检索与序列比较
(3)基因组序列分析
(4)基因表达数据的分析处理
(5)蛋白质结构预测
(6)生物信息分析软件
4主要研究内容:
(1)获取人和各种生物的完整基因组
(2)新基因的发现
(3)基因单核苷酸多态性(SNP)分析
(4)基因组中非编码蛋白质区域的结构与功能研究
(5)在基因组水平研究生物进化
(6)全基因组的比较研究
(7)蛋白质组学的研究
(8)基因功能预测
(9)新药设计
(10)遗传疾病的研究以及关键基因鉴定
(11)生物芯片
5生物信息数据库分类:
(1)一级数据库(数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释):核酸序列数据库(GenBank数据库、EMBL核酸库、DDBJ库)、蛋白质序列数据库(SWISS-PROT、PIR)、蛋白质结构数据库(PDB)
(2)二级数据库(在一级数据库、试验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理):人类基因组图谱库、转录因子和结合位点库、蛋白质结构家族分类库
6数据库格式: (1)FASTA 格式;大于号是新文件的开始 (2)GBFF格式:按域可以划分为三个部分——描述符(头部包含整个纪录的信息)、注释这一记录的特性、核苷酸序列本身
7核酸相似性搜索工具:(1)ALIGN:给定序列进行比对分析两两比较 (2)ClustalW_mp:多序列比较进行多重比较 (3)FASTAL和 BLAST:给定序列与数据库进行比对分析
8同源性有效的意义判断:(1)相似性和同源性 (2)两个核酸序列必须达到75%或更高的同源性 (3)两个蛋白质序列必须达到25%或更高的同源性
9开放阅读框的识别:由于蛋白质有三联体密码子编码,所以一个双链DNA序列就有6个潜在的阅读框架,其中一条链的3个读框成为“正向”读框,互补链上的3个为“反向”读框(终止密码子:TAA TAG TGA 起始密码子:ATG)
二、蛋白质序列分析
1蛋白质的结构主要分为四级:一级、二级、三级、四级。依据该层次蛋白质数据库分为:蛋白质序列数据库(PIR、NCBI)、蛋白质模体及结构域数据库、蛋白质结构数据库、蛋白质分类数据库
2模体包括:酶的催化位点、酶的结合位点、金属离子结合点、二硫键、小分子或者蛋白质结合区域
三、文献检索
1文献:在存储、检索、利用或传递记录信息的过程中,作为一个单元处理,在载体上或依附载体而存储有信息或数据的载体。
2文献分类:
(1)按文献的媒体形式划分:书本型 、非书资料
(2)按文献信息内容,加工的深浅不同分为:零次文献、一次文献、二次文献 、三次文献
3文献检索的基本步骤:明确信息需求、主题、关键词;了解检索系统,选择检索工具;确定检索途径,选定检索方法;实验检索策略,浏览初步结果;调整检索策略,获取所需信息
四、引物设计原则:
1引物应在核酸序列保守区内设计并具特异性(引物与待扩增序列的同源性不超过70%或不能有连续8个互补碱基同源)
2引物不能形成二级结构(避开二级结构区域且待扩增区域自由能△G°小于5861kJ/mol时,扩增不成功)
3引物长度一般在15-30碱基之间
4G+C含量在40%—60%之间
5碱基要随机分布(3`端要不应有超过3个的连续G或C)
6引物自身不能有连续4个碱基的互补,避免形成引物二聚体
7引物之间不能有连续4个碱基的互补
8引物5`端可修饰(加入酶切位点、引入保护碱基、引入蛋白质结合DNA序列、标记荧光素、引入突变位点等)
9引物3`端不可修饰
10引物3`端要避开密码子的第三位(第三位易发生简并,影响扩增特异性)
现代生物研究中的高通量技术如microarray、蛋白质组学或NGS能够让科学家们检测到几乎所有的mRNA,蛋白质或DNA序列的变异,从而获得成千上万的数据。分析数据结果的复杂程度和所需要的时间也随之直线上升,科学家们往往会陷入如何从海量的实验数据中挖掘到该体系到底发生了什么的泥潭中。想充分挖掘实验数据中的价值,需要科学家多方面的知识和技能,既要从生物学角度去阐释整个实验系统,又要理解系统变化的原因和效应等。科学家们通常只去寻找实验数据中发生差异表达的基因的上游调控子,如转录因子或调控的microRNA。但要完全理解实验结果的效应,科学家们必须进一步分析差异基因所调控的分子通路,生物学功能,已知的毒理学效应并对某些特定的关键分子进行进一步的全面调研(ie 后续靶标或生物标志物)。
以前科学家们可以依赖于个人的生物学专业知识并辅以检索最新文献来进行简单的数据分析。但随着文献的研究领域分类更加细化,知识的积累和文献的调研变得不再那么简单。现在,科学家们开始使用基于互联网的软件工具,包括专业的网站(ie PubMed)和一些免费的或商业化的分析工具(ie DAVID, Ingenuity-IPA)来帮助收集并分析数据。常规的高通量数据的分析和进一步的实验假设,一般均从阅读尽可能多的相关文献并调研实验结果中变化最大的基因开始。然而这样的分析策略往往会大量遗漏关键的信息,很多时候是因为相关的分子数据库和实验数据相关的文献量非常大,以至于科学家们无法面面俱到。而二代测序(NGS,如RNA-sequencing)的数据相当于为microarray实验提供了更加精确的转录本和同源基因信息,使获得信息变得更加复杂。因此,能够深度挖掘实验数据、将各种来源的背景信息整合在一起并提供灵活易用的工具进行查询的软件对理解实验结果变的日益重要。
以上就是关于napin启动子是什么全部的内容,包括:napin启动子是什么、人的基因有多少、如何分析PROMO给出的各转录因子结合参数等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)