关于序列操作套件V2

序列操作套件是用 JavaScript 1.5 编写的,它是一种轻量级、跨平台、面向对象的脚本语言。 JavaScript 现在由 ECMA(欧洲计算机制造商协会)标准化。 ECMA 标准的第一个版本记录在 ECMA-262 规范中。 ECMA-262 标准也被 ISO(国际标准组织)批准为 ISO-16262。 JavaScript 1.5 与 ECMA-262 第 3 版完全兼容。

提交到序列操作套件的序列不会离开您的计算机,而是由执行 JavaScript 的 Web 浏览器进行操作。 序列操作套件由 Paul Stothard(加拿大阿尔伯塔大学)编写。 将问题和意见发送至stothard@ualberta.ca

 

以下是组成序列操作套件的程序的简短描述:

 

格式转换:

结合 FASTA - 将多个 FASTA 序列记录转换为单个序列。 例如,当您希望使用接受单个序列作为输入的程序来确定序列集合的密码子使用情况时,请使用组合 FASTA。

EMBL 到 FASTA - 接受一个或多个 EMBL 文件作为输入,并以 FASTA 格式返回每个文件的 DNA 序列。 当您希望从 EMBL 文件中快速删除所有非 DNA 序列信息时,请使用此程序。

EMBL 特征提取器 - 接受一个或多个 EMBL 文件作为输入,并读取特征表中描述的序列特征信息。 程序提取或突出显示相关的序列段,并以 FASTA 格式返回每个序列特征。 当您希望从包含许多内含子的基因组序列中提取 cDNA 序列时,EMBL 特征提取器特别有用。

EMBL反式提取器 - 接受一个或多个 EMBL 文件作为输入,并以 FASTA 格式返回文件中描述的每个蛋白质翻译。 当您对 DNA 序列的预测蛋白质翻译比 DNA 序列本身更感兴趣时,可以使用 EMBL Trans Extractor。

DNA过滤器 - 从文本中删除非 DNA 字符。 当您希望从序列中删除数字和空格以使其适用于其他应用程序时,请使用此程序。

过滤蛋白质 - 从文本中删除非蛋白质字符。 当您希望从序列中删除数字和空格以使其适用于其他应用程序时,请使用此程序。

GenBank 到 FASTA - 接受一个或多个 GenBank 文件作为输入,并以 FASTA 格式返回每个文件的完整 DNA 序列。 当您希望从 GenBank 文件中快速删除所有非 DNA 序列信息时,请使用此程序。

GenBank 特征提取器 - 根据 GenBank 发行说明中概述的规则,接受一个或多个 GenBank 文件作为输入,并读取特征表中描述的序列特征信息。 程序提取或突出显示相关的序列段,并以 FASTA 格式返回每个序列特征。 当您希望从包含许多内含子的基因组序列中提取 cDNA 序列时,GenBank 特征提取器特别有用。

GenBank 反式提取器 - 接受一个或多个 GenBank 文件作为输入,并以 FASTA 格式返回文件中描述的每个蛋白质翻译。 当您对 DNA 序列的预测蛋白质翻译比 DNA 序列本身更感兴趣时,应该使用 GenBank Trans Extractor。

一到三 - 将单字母翻译转换为三字母翻译。

范围提取器 DNA - 接受一个或多个 DNA 序列以及一组位置或范围。 与位置或范围相对应的碱基以单个新序列、一组 FASTA 记录、大写文本或小写文本的形式返回。 使用 Range Extractor DNA 获取使用位置信息的子序列。

范围提取器蛋白质 - 接受一个或多个蛋白质序列以及一组位置或范围。 与位置或范围相对应的残基以单个新序列、一组 FASTA 记录、大写文本或小写文本的形式返回。 使用 Range Extractor Protein 获取使用位置信息的子序列。

反向补码 - 将 DNA 序列转化为其反向、互补或反向互补序列。 支持整个 IUPAC DNA 字母表,并保持每个输入序列字符的大小写。 如果序列在反向链上包含 ORF,您可能希望使用该序列的反向补码。

分裂密码子 - 将编码序列分成三个新序列,每个序列由三个密码子位置之一的碱基组成。

拆分 FASTA - 将 FASTA 序列记录划分为您指定大小的更小的 FASTA 序列。 可选的重叠值可用于创建重叠的序列。

三到一 - 将三个字母的翻译转换为单字母的翻译。 数字和空格会自动删除。 非标准三元组被忽略。

窗户提取器 DNA - 接受一个或多个 DNA 序列以及位置和窗口大小。 位于窗口中的碱基以新序列、大写文本或小写文本的形式返回。 使用 Window Extractor DNA 获取使用位置信息的子序列。

窗口提取器蛋白 - 接受一个或多个蛋白质序列以及位置和窗口大小。 位于窗口中的残基以新序列、大写文本或小写文本的形式返回。 使用 Window Extractor Protein 获取使用位置信息的子序列。

 

序列分析:

密码子图 - 接受 DNA 序列并生成由每个密码子的水平条组成的图形图。 条的长度与您输入的密码子频率表中的密码子频率成正比。 使用密码子图查找可能表达不佳的 DNA 序列部分,或查看密码子使用表的图形表示(通过使用由每种密码子类型之一组成的 DNA 序列)。

密码子使用 - 接受一个或多个 DNA 序列并返回每种密码子类型的数量和频率。 由于该程序还比较了编码相同氨基酸(同义密码子)的密码子的频率,因此您可以使用它来评估序列是否显示出对特定同义密码子的偏好。

CpG 群岛 - 使用 Gardiner-Garden 和 Frommer (1987) 描述的方法报告了潜在的 CpG 岛区域。 使用以 1 bp 间隔在序列中移动的 200 bp 窗口进行计算。 CpG 岛定义为 Obs/Exp 值大于 0.6 且 GC 含量大于 50% 的序列范围。 窗口中 CpG 二聚体的预期数量计算为窗口中“C”的数量乘以窗口中“G”的数量,除以窗口长度。 CpG 岛经常出现在脊椎动物基因的 5' 区域,因此该程序可用于突出显示基因组序列中的潜在基因。

DNA 分子量 - 接受一个或多个 DNA 序列并计算分子量。 序列可以被视为双链或单链,以及线性或环状。 计算分子拷贝数时使用 DNA 分子量。

DNA 模式查找 - 接受一个或多个序列以及搜索模式,并返回与该模式匹配的站点的数量和位置。 搜索模式被编写为 JavaScript 正则表达式,类似于用其他编程语言(如 Perl)编写的正则表达式。

DNA统计 - 返回您输入的序列中每个残基的出现次数。 还给出了每个残基和某些残基组的百分比总数,使您可以快速比较不同序列获得的结果。

模糊搜索 DNA - 接受一个 DNA 序列和一个查询序列,并返回与查询相同或相似的位点。 例如,您可以使用该程序来查找可以轻松突变为有用的限制性位点的序列。

模糊搜索蛋白 - 接受一个蛋白质序列和一个查询序列,并返回与查询相同或相似的位点。

Ident 和 Sim - 接受一组对齐的序列(FASTA 或 GDE 格式)并计算每个序列对的同一性和相似性。 同一性和相似性值通常用于评估两个序列是否具有共同的祖先或功能。

变异摘要 - 接受 DNA 序列作为输入,并搜索易于突变的区域以创建感兴趣的限制性位点。 该程序还报告蛋白质翻译,以便您可以查看哪些阅读框被建议的突变改变。 使用 Mutate for Digest 查找可以使用 PCR 或定点诱变转化为有用的限制性位点的序列。

多转反 - 接受蛋白质比对并使用密码子使用表生成简并 DNA 编码序列。 该程序还返回一个图表,该图表可用于在核苷酸水平上找到最小简并区域。 在设计 PCR 引物以与相关物种的未测序编码序列退火时使用 Multi Rev Trans。

开放阅读框查找器 - 在您输入的 DNA 序列中搜索开放阅读框 (ORF)。 该程序返回每个 ORF 的范围,以及它的蛋白质翻译。 ORF Finder 支持整个 IUPAC 字母表和几个遗传密码。 使用 ORF Finder 搜索新测序的 DNA 以寻找潜在的蛋白质编码片段。

成对对齐密码子 - 接受两个编码序列并确定最佳全局比对。 使用 Pairwise Align Codons 寻找保守的编码序列区域。

成对比对 DNA - 接受两个 DNA 序列并确定最佳全局比对。 使用 Pairwise Align DNA 寻找保守的序列区域。

成对比对蛋白 - 接受两个蛋白质序列并确定最佳全局比对。 使用 Pairwise Align Protein 寻找保守的序列区域。

PCR第一统计 - 接受 PCR 引物序列列表并返回描述每个引物特性的报告,包括熔解温度、GC 含量百分比和 PCR 适用性。 使用 PCR Primer Stats 评估潜在的 PCR 引物。

PCR产物 - 接受一个或多个 DNA 序列模板和两个引物序列。 该程序搜索可以产生 PCR 产物的完全匹配的引物退火位点。 任何产生的产物都按大小排序,并给它们一个标题,说明它们的长度、它们在原始序列中的位置以及产生它们的引物。 您可以使用线性或环状分子作为模板。 使用 PCR 产品确定您在实验室中进行 PCR 时可以看到的产品大小。

蛋白质肉汁 - Protein GRAVY 返回您输入的蛋白质序列的 GRAVY(亲水性的大平均值)值。 通过将每个残基的亲水性值相加并除以序列长度来计算 GRAVY 值(Kyte 和 Doolittle; 1982)。

蛋白质等电点 - 计算您输入的蛋白质序列的理论 pI(等电点)。 当您想知道在 2-D 凝胶上大约可以找到特定蛋白质的位置时,请使用蛋白质等电点。

蛋白质分子量 - 接受一个或多个蛋白质序列并计算分子量。 您可以使用提供的列表附加常用表位和融合蛋白的副本。 如果您希望预测目标蛋白质在凝胶上相对于一组蛋白质标准品的位置,请使用蛋白质分子量。

蛋白质模式查找 - 接受一个或多个序列以及搜索模式,并返回与该模式匹配的站点的数量和位置。 搜索模式被编写为 JavaScript 正则表达式,类似于用其他编程语言(如 Perl)编写的正则表达式。

蛋白质统计 - 返回您输入的序列中每个残基的出现次数。 还给出了每个残基和某些残基组的百分比总数,使您可以快速比较不同序列获得的结果。

限制文摘 - 用一种、两种或三种限制酶切割虚拟限制性消化中的 DNA 序列。 生成的片段按大小排序,并给它们一个标题,说明它们的长度、它们在原始序列中的位置以及产生它们的酶位点。 您可以消化线性或环状分子,甚至是分子混合物(通过以 FASTA 格式输入多个序列)。 使用 Restriction Digest 确定您在实验室执行摘要时将看到的片段大小。

限制摘要 - 接受 DNA 序列并返回常用限制性内切酶切割位点的数量和位置。 如果您希望快速确定酶是否切割特定的 DNA 片段,请使用此程序。

反向翻译 - 接受蛋白质序列作为输入,并使用密码子使用表生成代表最可能的非简并编码序列的 DNA 序列。 还返回源自每个氨基酸的所有可能密码子的共有序列。 在设计 PCR 引物以与相关物种的未测序编码序列退火时使用反向翻译。

翻译 - 接受 DNA 序列并将其转换为您指定的阅读框中的蛋白质。 Translate 支持整个 IUPAC 字母表和几个遗传密码。

 

序列图:

颜色对齐保护 - 接受一组对齐的序列(FASTA 或 GDE 格式)并为对齐着色。 该程序检查每个残基并将其与同一列中的其他残基进行比较。 序列中相同的残基被赋予黑色背景,序列中相似的残基被赋予灰色背景。 剩余的残基得到白色背景。 您可以指定要应用的着色必须相同和相似的残基百分比。 使用 Color Align Conservation 增强序列比对程序的输出。

颜色对齐属性 - 接受一组对齐的序列(FASTA 或 GDE 格式)并为对齐着色。 该程序检查每个残基并将其与同一列中的其他残基进行比较。 序列中相同或相似的残基被赋予彩色背景。 颜色是根据残留物的生化特性来选择的。 您可以指定要应用的着色必须相同和相似的残基百分比。 使用颜色对齐特性突出显示具有保守生化特性的蛋白质区域。

DNA组 - 调整 DNA 序列的间距并添加编号。 您可以指定组大小(每组的碱基数)以及每行的碱基数。 这个程序的输出可以作为一个方便的参考,因为编号和间距可以让你快速定位特定的碱基。

蛋白质组 - 调整蛋白质序列的间距并添加编号。 您可以指定组大小(每组的残基数)以及每行的残基数。 这个程序的输出可以作为一个方便的参考,因为编号和间距可以让你快速定位特定的残基。

第一张地图 - 接受 DNA 序列并返回显示 PCR 引物退火位置的文本图。 还可以显示限制性内切酶切割位点和 DNA 序列的蛋白质翻译。 使用该程序生成有用的参考图,特别是当您为特定模板设计了大量引物时。 Primer Map 支持整个 IUPAC 字母表和几个遗传密码。

限制地图 - 接受 DNA 序列并返回显示限制性内切酶切割位点位置的文本图。 在您指定的阅读框中,还给出了 DNA 序列的翻译。 计划克隆策略时,请使用该程序的输出作为参考。 Restriction Map 支持整个 IUPAC 字母表和几个遗传密码。

翻译图 - 接受 DNA 序列并返回显示蛋白质翻译的文本图。 可以指定翻译的阅读框(1、2、3 或全部三个),也可以选择将大写文本作为阅读框。 Translation Map 支持整个 IUPAC 字母表和几个遗传密码。

随机序列:

突变 DNA - 将碱基变化引入 DNA 序列。 您可以选择要引入的突变数量,以及是否保留序列中的第一个和最后三个碱基,以反映选择作用以维持起始和终止密码子。 每个突变的位置是随机选择的,单个位点可以发生多个突变。 突变序列可用于评估序列分析结果的重要性。

突变蛋白质 - 将残基变化引入蛋白质序列。 您可以选择要引入的突变数量,以及是否保留序列中的第一个残基,以反映选择作用以维持起始密码子。 每个突变的位置是随机选择的,单个位点可以发生多个突变。 突变序列可用于评估序列分析结果的重要性。

随机编码 DNA - 生成以起始密码子开始并以终止密码子结束的随机开放阅读框。 您可以选择要使用的遗传密码和要生成的序列长度。 随机序列可用于评估序列分析结果的重要性。

随机 DNA 序列 - 生成您指定长度的随机序列。 随机序列可用于评估序列分析结果的重要性。

随机 DNA 区域 - 用随机碱基替换 DNA 序列区域。 随机序列可用于评估序列分析结果的重要性。

随机蛋白质序列 - 生成您指定长度的随机序列。 随机序列可用于评估序列分析结果的重要性。

随机蛋白质区域 - 用随机残基替换蛋白质序列区域。 随机序列可用于评估序列分析结果的重要性。

样本 DNA - 从指导序列中随机选择碱基,直到构建出您指定长度的序列。 每个选定的碱基都被替换,以便可以再次选择它。

样品蛋白质 - 从指导序列中随机选择碱基,直到构建出您指定长度的序列。 每个选定的残基都会被替换,以便可以再次选择它。

洗牌 DNA - 随机打乱 DNA 序列。 混洗序列可用于评估序列分析结果的重要性,特别是当序列组成是重要考虑因素时。

洗牌蛋白 - 随机打乱蛋白质序列。 混洗序列可用于评估序列分析结果的重要性,特别是当序列组成是重要考虑因素时。