用blastn能在nrnt数据库中检索到多少条与之同源的序列_工具

ncbi主页进入 blast 进入 nucleotide blast 将序列粘入窗口中选择nucleotide cllection（nr/nt）选项进行比对就可以了出来的序列相似性最高的就是你的目的序列

我是复制的，希望对楼主能有所帮助

※ Multiplexing：一种同时采用多种样品的测序方法，能够大大提高测序速度。

※ 突变（Mutation）：DNA序列上任一种可以被遗传的变易。

※ 核苷酸（Nucleotide）：DNA和RNA的基本组成部分，通常包含一分子核糖，一分子磷酸和一分子碱基。多个核苷酸通过磷酸二酯键连接成一条链状。

※ 细胞核（Nucleos）：真核细胞中的一种细胞器，内含遗传物质。

癌基因（Oncogene）：一种能够导致癌症的基因。许多致癌基因都直接或间接地控制细胞的成长速度。

※ 噬菌体（phage）：一种以细菌为宿主细胞的病毒。

※ 物理图谱（Physics Map）：物理图谱描绘DNA上可以识别的标记的位置和相互之间的距离(以碱基对的数目为衡量单位)，这些可以识别的标记包括限制性内切酶的酶切位点，基因等。物理图谱不考虑两个标记共同遗传的概率等信息。对于人类基因组来说，最粗的物理图谱是染色体的条带染色模式，最精细的图谱是测出DNA的完整碱基序列。

※ 质粒（Plasmid）：质粒是细菌的染色体外能够自我复制的环状DNA分子。它能够和细胞核中的染色体明显地区别开来，而且并不是细胞生存的必要物质。一些质粒适宜于引入到宿主细胞中去，并利用宿主细胞的DNA大量繁殖，因此我们常常采用质粒作为外源DNA的载体，外源DNA借助于质粒在宿主细胞中大量繁殖。

※ 多基因病（Polygenic Disorder）：有多个基因位点共同决定的遗传病（如心脏病、糖尿病、一些癌症等）。这类疾病的遗传由多个基因位点共同控制，因而比单基因病的遗传更为复杂。

※ 多聚酶链式反应（PCR）：一种体外扩增DNA的方法。PCR使用一种耐热的多聚酶，以及两个含有20个碱基的单链引物。经过高温变性将模板DNA分离成两条链，低温退火使得引物和一条模板单链结合，然后是中温延伸，反应液的游离核苷酸紧接着引物从5‘端到3’端合成一条互补的新链。而新合成的DNA又可以继续进行上述循环，因此DNA的数目不断倍增。

※ 多聚酶（Polymerase）：多聚酶具有催化作用，能够加快游离的核苷酸和DNA模板结合形成新链的反应速度。

※ 多态性（Polymorphism）：多个个体之间DNA的差异称为多态性。DNA变异概率超过1％的变异，比较适宜作为绘制连接图谱的证据。

※ 引物（Primer）：预先制备的比较短的核苷酸链，在新链合成过程中作为引物，游离的核苷酸在引物之后按顺序和模板上的碱基结合，形成新链。

※ 原核生物（Prokaryote）：原核生物没有细胞膜，结构清晰的核以及其他细胞器。细菌是原核生物。

※ 探针（Probe）：是一条DNA单链或者一条RNA链，具有特定的序列，并且使用放射性元素或者免疫特性物质进行标记。探针和克隆库中的某条互补片段结合成一条双链结构，我们可以借助于探针的检测来获知与其互补的链的位置。

※ 启动子（Promoter）：DNA上的一个特定位点，RNA聚合酶在此和DNA结合，并由此开始转录过程。

※ 蛋白质（Protein）：一种由一条或者多条肽链构成的大分子。每条肽链上核苷酸的顺序是由基因外显子部分的碱基序列决定的。蛋白质是细胞、组织和器官的重要组成部分，每种蛋白质都具有特定的功能。酶、抗体和激素等都是蛋白质。

※ 嘌呤（Purine）：一种含氮的单环结构物。是核苷酸的重要组成部分，有腺嘌呤A和鸟嘌呤G两种。

※ 嘧啶（Pyrimidine）：一种含氮的双环结构，是核苷酸的重要组成部分。分为胞嘧啶C，胸腺嘧啶T和尿嘧啶U三种。

※ 重组克隆（Recombinant Clone）：将不同来源的DNA片段合成在一个DNA分子中，这种技术称为重组，得到的分子为重组克隆。

※ DNA重组技术（Recombinant DNA Technology）：在细胞体外将两个DNA片段连接成一个DNA分子的技术。在适宜的条件下，一个重组DNA分子能够被引入到宿主细胞中并在宿主细胞中大量繁殖。

※ 调控序列（regulatory regions and sequence）：一段控制基因表达的DNA片段。

※ 限制性内切酶（Restriction enzyme， endonuclease）：这种酶能够识别出DNA上特定的碱基序列，并在这个位点将DNA酶切。细菌中有400中限制性内切酶，能够识别出100中DNA序列。

※ 酶切位点（Restriction Enzyme cutting site）：DNA上一段碱基的特定序列，限制性内切酶能够识别出这个序列并在此将DNA酶切成两段。

※ 限制性长度多态性（Restriction fragment length polymorphsm）：从不同个体制备的DNA，使用同一种限制性内切酶酶切，切得的片段长度各不相同。酶切片段的长度可以作为物理图谱或者连接图谱中的标记子。通常是在酶切位点处发生突变而引发的。

※ 核糖核酸RNA（Ribonucleic acid）：从细胞的细胞核和细胞质部分分离出来的化学物质。在蛋白质合成和其他生化反应中起着重要作用，RNA的结构和DNA的结构类似，都是有核苷酸按照一定顺序排列成的长链。RNA可以分为信使RNA、转运RNA、核糖体RNA以及其他类型的RNA。

※ 核糖体RNA（Ribonsomal RNA rRNA）：存在于核糖体中的RNA。

※ 核糖体（Ribonsome）：细胞质中含有rRNA和相关蛋白质的细胞器，是蛋白质的合成场所。

序列位置标签（Sequence Tagged Site, STS）：一段短的DNA序列（200－500个碱基对），这种序列在染色体上只出现一次，其位置和碱基顺序都是已知的。在PCR反应中可以检测处STS来，STS适宜于作为人类基因组的一种地标，据此可以判定DNA的方向和特定序列的相对位置。ETS是cDNA上的STS。

※ 性染色体（Sex Chromosome）：在人类细胞中是X或者Y染色体，性染色体决定了个体的性别。雌性细胞中含有两个X染色体，而雄性细胞中含有1个X染色体和1个Y染色体。

※ 鸟q法（Shotgun method）：使用基因组中的随机产生的片段作为模板进行克隆的方法。

※ 单基因病（Single Gene Disorder）：一个基因的等位基因之间发生了突变造成的疾病。

※ 体细胞（Somatic Cells）：个体中除了生殖细胞及其母细胞之外的细胞，都是体细胞。

※ 串联重复序列（Tandem repeat sequences）：在染色体上一段序列的多次重复，称为串联重复序列。常用来作为物理图谱中的标记子。

※ 端粒（Telomere）：是染色体的末端部分，这一特殊结构区域对于线型染色体的结构和稳定起重要作用。

※ 转录（Transcription）：以某一DNA链为模板，按照碱基互补原则形成一条新的RNA链的过程，是基因表达的第一步。

※ 转运RNA（tRNA）：转运RNA具有特殊的结构，其一端包含3个特定的核苷酸序列，能和信使RNA上的密码子按照碱基配对原则进行结合。另一端则带有一个氨基酸。因此转运RNA能够同细胞质中游离的氨基酸结合并运到核糖体上，核糖体按mRNA上的遗传信息将氨基酸装配成蛋白质。

※ 转化（Transformation）：将外源DNA整合到某一细胞基因组中的过程。。

※ 翻译（Translation）：mRNA上携带的遗传信息指导蛋白质的合成过程，称为翻译。

※ 病毒（Virus）：一种不具备细胞结构的生物体。只能寄生在宿主细胞中才能生存。病毒一般包含核酸以及外壳蛋白，有些动物的病毒的外面也偶尔覆盖一层细胞膜。病毒进入宿主细胞之后，利用宿主的合成机制复制出大量的后代。。

※ 酵母菌人工合成染色体（Yeast Artificial Chromosome）：一种能够克隆长达400Kb的DNA片段的载体，含有酵母细胞中必需的端粒、着丝点和复制起始序列。

(卜东波、伍树明翻译整理)

生物信息名词

§§§ BLAST （Basic Local Alignment Search Tool），基本的基于局部对准的搜索工具；一种快速查找与给定序列具有连续相同片断的序列的技术。

§§§ Entrez 美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。

§§§ NCBI 美国国立生物技术信息中心（National Center for Biotechnology Information），1988年设立，为美国国家医学图书馆（NLM）和国家健康协会（NIH）下属部门之一。提供生物医学领域的信息学服务，如世界三大核酸数据库之一的GenBank数据库，PubMed医学文献检索数据库等。

§§§ Conserved sequence 保守序列。演化过程中基本上不变的DNA中的碱基序列或蛋白质中的氨基酸序列。

§§§ Domain 功能域。蛋白质中具有某种特定功能的部分，它在序列上未必是连续的。某蛋白质中所有功能域组合其起来决定着该蛋白质的全部功能。

§§§ EBI 欧洲生物信息学研究所（European Bioinformatics Institute）。 The National Center for Biotechnology Information (NCBI) at the NationalLibrary of Medicine (NLM), National Institutes of Health (NIH)

§§§ EMBL 欧洲分子生物学实验室（uropean Molecular Biology Laboratory）。

§§§ GenBank 由美国国家生物技术信息中心提供的核酸序列数据库。

§§§ Gene 基因。遗传的基本的物理和功能单位。一个基因就是位于某条染色体的某个位置上的核苷酸序列，其中蕴含着某种特定功能产物（如蛋白质或RNA分子）的编码。

§§§ DUST A program for filtering low complexity regions from nucleic acid sequences

§§§ Gene expression 基因表达。基因中的编码信息被转换成行使特定功能的结构产物的过程。

§§§ Gene family 基因家族。一组密切相关的编码相似产物的基因。

§§§ Gene mapping 基因作图。对DNA分子（染色体或质粒）中基因的相对位置和距离进行确定的过程。

§§§ Genetic code 遗传密码。以三联体密码子的形式编码于mRNA中的核苷酸序列，决定着所合成蛋白质中的氨基酸序列。

Genome 基因组。某一物种的一套完整染色体组中的所有遗传物质。其大小一般以其碱基对总数表示。

§§§ Genomics 基因组学。从事基因组的序列测定和表征描述，以及基因活性与细胞功能关系的研究。

§§§ HGMP 英国剑桥的人类基因组绘图计划（Human Genome Mapping Project）。

§§§ Informatics 信息学。研究计算机和统计学技术在信息处理中的应用的学科。在基因组计划中，信息学的内容包括快速搜索数据库方法的开发、DNA序列信息分析方法的开发和从DNA序列数据中预测蛋白质序列和结构方法的开发。

§§§ Physical map 物理图谱。不考虑遗传，DNA中可识别的界标（如限制性酶切位点和基因等）的位置图。界标之间的距离用碱基对度量。对人类基因组而言，最低分辨率的物理图谱是染色体上的条带图谱；最高分辨率的物理图谱是染色体中完整的核苷酸序列。

§§§ Promoter 启动子。DNA中被RNA聚合酶结合并从此起始转录的位点。

§§§ Proteome 蛋白质组。一个基因组的全部蛋白产物及其表达情况。

§§§ Regulatory region or sequence 调控区或调控序列。控制基因表达的DNA碱基序列。

§§§ Ribosomal RNA 核糖体RNA。简写为rRNA。是一组存在于核糖体中的RNA分子。

§§§ Sequence tagged site 序列示踪位点，简写为STS。在人类基因组中只出现一次的位置和序列已知的长约200到500bp的短DNA序列片断。由于可以通过PCR检测到，STS在将来源于许多不同实验室的基因图谱和测序数据进行定位和定向时非常有用，并且STS在人类基因组的物理图谱中也具有界标的作用。表达的序列标签（ESTs）就是那些得自cDNAs的STSs。

§§§ Single-gene disorder 单基因病。由单个基因的等位基因的突变所导致的遗传病（如杜兴肌营养不良和成视网膜细胞瘤等）。

§§§ UniGene 美国国家生物技术信息中心提供的公用数据库，该数据库将GenBank中属于同一条基因的所有片断拼接成完整的基因进行收录。

§§§ 非蛋白质编码区（“Junk”DNA）占据了人类基因组的大部分，研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体，它们至少包括以下类型的DNA成份或由其表达的RNA成分：内含子（intron）、卫星（Satellite）DNA、小卫星（minisatellite）DNA、微卫星（microsatellite）DNA、非均一核RNA（hmRNA）、短散置元（short interspersed elements）、长散置元（long interspersed elements）、伪基因（pseudogenes）等。除此之外，顺式调控元件，如启动子、增强子等也属于非编码序列。

双重序列对比两序列间的对比分析。最常见的方法为Needle-Wunsch方法。能够利用的软件如BLAST、FASTA等。

§§§ Autosome 常染色体。与性别决定无关的染色体，人双倍体染色体组含有46条染色体，其中22对常染色体，一对与性别决定有关的性染色体（X和Y染色体）。

sex chromosome 包括序列（核酸与蛋白）搜索，结构比较，结构预测，蛋白质域，模体（Motif ），测序，发育与进化分析，双向电泳成像分析，质谱蛋白质鉴定，三维蛋白结构模建与成像，基因组图谱比较，基因预测，非编码区功能位点识别，基因组重叠群集装，后基因组功能分析，结构基因组学以及药物基因组学等等。

在BLAST20，205新版中启用了gapped BLAST、PSI-BLAST 和PHI-BLAST。gapped BLAST是比原BLAST 更灵敏更快的局部相似联配（俗称局部同源）搜索法；PSI- BLAST用迭代型的剖面打分算法，每次迭代所费时间与前者相同，它可检索弱同源的目标；PHI-BLAST 98年刚出台，是模体（Motif ）构造与搜索软件，是更灵敏的同源搜索软件。例如线虫§§§ 的CED4是apoptosis 的调控蛋白，含有涉及磷酸结合的P 环模体，在各种ATP 酶和GTP 酶中可发现。在用gapped BLAST搜索NR数据库时，CED4仅跟人凋亡调控蛋白Apaf-1显著同源或相似（其中含有P-loop保守区）。但PHI- BLAST搜索，另有一个显著同源（E=0038 ）目标，是植物抗病蛋白Arabidopsis thaliana T7N918，证实此动物与植物蛋白确实在apoptosis 中有相似的功能。另有，按PHI- BLAST搜索在MutL DNA修复蛋白中的ATP 酶域，II型拓扑异构酶，组氨酸激酶和HS90家族蛋白，发现一个新的真核蛋白族，共有HS90型ATP 酶域。再有在古核tRNA核苷酸转移酶中发现核苷酸转移酶域，在细菌DNA 引物酶的古核同源体中发现螺旋酶超家族II的模体VI。用以往的搜索法这些是得不到的。

深层事项：

后基因组时期的主要任务：Data mining ，即从完全测序的基因组中预测功能。

1 、序列、结构和功能自分子生物学产生以来，均相信序列决定结构，结构决定功能。随着基因组学的发展，对此理解已有长足的深化。同源序列（具有共同祖先）未必具有相同的功能；相同功能未必源自同源序列。相异序列可能有相似的结构；序列与结构不相似的蛋白可能会有相似的功能。现在发现存在不相似（在序列与结构水平上）酶催化相同的生化反应。当然亦存在甚至结构水平上很相似的酶催化不同的生化反应。例如人与鼠的3- 羟甾类脱氢酶，1AHH和1RAL；前者是Rossmann折叠，而后者是TIM-桶。肯定，这些相似酶不是共同祖先趋异的结果，而是不同祖先趋同的结果。如结构决定功能还是合理的，那么至少在功能活性位点具有相似结构特征（即3D- 功能模体）。属于今后研究的课题，对了解酶催化机制与功能蛋白的小分子模拟具有很大价值。何谓功能？功能有层次的：表型的，细胞的和分子的。目前开始高层功能预测，分子相互作用、代谢途径和调控网络。目前，已从结构基因组学，功能基因组学和蛋白质组学多种角度研究基因组功能。

2 、结构基因组学中的生物信息学希望大通量地测定和模建完全测序基因组的全部蛋白三维结构。生物信息学可以发挥作用，一方面规划好测定的对象，另一方面可靠地模建结构。

3 、功能基因组学中的生物信息学美国HGP 已编制1998-2003 的新五年计划。提出八项目标：其中目标7 特指生物信息学和计算生物学，其实几乎每项目标都要生物信息学，例如目标4 功能基因组学中的非编码区功能位点预测，基因表达分析（如DNA Chip）以及蛋白质全局分析（如蛋白质组学）。

§§§ 蛋白质组学（Proteomics）

1蛋白质组学研究的目的和任务 20世纪中期以来，随着DNA双螺旋结构的提出和蛋白质空间结构的X射线解析，开始了分子生物学时代，对遗传信息载体DNA和生命功能的主要体现者蛋白质的研究，成为生命科学研究的主要内容。90年代初期，美国生物学家提出并实施了人类基因组计划，预计用15年的时间，30亿美元的资助，对人类基因组的全部DNA序列进行测定，希望在分子水平上破译人类所有的遗传信息，即测定大约30亿碱基对的DNA序列和识别其中所有的基因（基因组中转录表达的功能单位）。经过各国科学家8年多的努力，人类基因组计划已经取得了巨大的成绩，一些低等生物的DNA全序列已被阐明，人类3%左右DNA的序列也已测定，迄今已测定的表达序列标志（EST）已大体涵盖人类的所有基因。在这样的形势下，科学家们认为，生命科学已经入了后基因组时代。在后基因组时代，生物学家们的研究重心已经从解释生命的所有遗传信息转移到在整体水平上对生物功能的研究。这种转向的第一个标志就是产生了一门成为功能基因组学（Functional Genomics）的新学科。它采用一些新的技术，如SAGE、DNA芯片，对成千上万的基因表达进行分析和比较，力图从基因组整体水平上对基因的活动规律进行阐述。但是，由于生物功能的主要体现者是蛋白质，而蛋白质有其自身特有的活动规律，仅仅从基因的角度来研究是远远不够的。例如蛋白质的修饰加工、转运定位、结构变化、蛋白质与蛋白质的相互作用、蛋白质与其它生物分子的相互作用等活动，均无法在基因组水平上获知。正是因为基因组学（Genomics）有这样的局限性，于90年代中期，在人类基因组计划研究发展及功能基因组学的基础上，国际上萌发产生了一门在整体水平上研究细胞内蛋白质的组成及其活动规律的新兴学科——蛋白质组学（Proteomics），它以蛋白质组（Proteome）为研究对象。蛋白质组是指“由一个细胞或一个组织的基因组所表达的全部相应的蛋白质”。测定一个有机体的基因组所表达的全部蛋白质的设想，萌发在1975年双向凝胶电泳发明之时。1994年Williams正式提出了这个问题，而“蛋白质组”的名词则是由Wilkins创造的，发表在1995年7月的Electrophoresis杂志上。蛋白质组与基因组相对应，但二者又有根本不同之处：一个有机体只有一个确定的基因组，组成该有机体的所有不同细胞斗拱享用一个确定的基因组；而蛋白质组则是一个动态的概念，她不仅在同一个机体的不同组织和细胞中不同，在同一机体的不同发育阶段，在不同的生理状态下，乃至在不同的外界环境下都是不同的。正是这种复杂的基因表达模式，表现了各种复杂的生命活动，每一种生命运动形式，都是特定蛋白质群体在不同时间和空间出现，并发挥功能的不同组合的结果。基因DNA的序列并不能提供这些信息，再加上由于基因剪接，蛋白质翻译后修饰和蛋白质剪接，基因遗传信息的表现规律就更加复杂，不再是经典的一个基因一个蛋白的对应关系，一个基因可以表达的蛋白质数目可能远大于一。对细菌，可能为12～13;对酵母则为3;而对人,可高达10。后基因组和蛋白质组研究，是为阐明生命活动本质所不可缺少的基因组研究的远为复杂的后续部分，无疑将成为21世纪生命科学研究的主要任务。

把SQL语句中

VALUES

(

后面的

改成和数据库中`id`字段所有记录都不重复的值。

例如改成：

INSERT

INTO

`fx`

(

`id`

`nr`

)

VALUES

(

2019,

'#体验沙发优惠活动进行中！8888'

)

;

其中，2019是和`fx`表中的所有`id`都不重复的。

原因：数据库中的id是唯一键，不能重复，如果数据库已经存在id是1的记录，那么再插入id是1的值就会报错。

MySQL

#1062

Duplicate

entry

'1'

for

key

。这个错误的意思是重复录入了key是1的数据。

扩展资料

mysql主键或者唯一键都有独一无二的特点。当主键或唯一键出现重复值得时候就会报#1062

Duplicate

entry

这样得错误，如果是主键在错误信息后面还会出现'PRIMARY'这个单词。

1、主键primary

key

，可以保证字段数据唯一性，但是一张表只有一个主键，不可为空。

2、唯一键unique

key，也可以保证字段中的数据唯一的，但唯一键在一张表中可以有多个，可以为空。

楼主可以这样试一下！

insert into c(id,tit) values(select id,tit from a)

insert into b(id,nr) values(select id,nr from a)

不过这个好像只能一条条插入，没试过插入那么多的。楼主可以试一下，如果不可以多插入，建议用代码做个循环解决！

Primer-BLAST，在线设计用于聚合酶链反应（PCR）的特异性寡核苷酸引物。

这个工具整合了目前流行的Primer3软件，再加上NCBI的 Blast进行引物特异性的验证。Primer-BLAST免除了用另一个站点或工具设计引物的步骤，设计好的引物程序直接用Blast进行引物特异性验证。

以上就是关于用blastn能在nr/nt数据库中检索到多少条与之同源的序列全部的内容，包括:用blastn能在nr/nt数据库中检索到多少条与之同源的序列、关于论文前言、导入数据库出现#1062 - Duplicate entry '1' for key 1 怎么解决啊！等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10195435.html

用blastn能在nrnt数据库中检索到多少条与之同源的序列

发表评论

评论列表（0条）