出典(authority):フリー百科事典『ウィキペディア(Wikipedia)』「2016/05/05 23:59:58」(JST)
FASTA は、DNA の塩基配列とタンパク質のアミノ酸配列のシーケンスアラインメントを行うための、バイオインフォマティクスのソフトウェアパッケージである。
FASTA と同様にシーケンスアライメントを行うためのソフトウェアとして、BLAST なども知られる。
最初のバージョンは FASTP という名前であり、デヴィッド・J・リップマンとウィリアム・R・ピアスンが、1985年に開発して論文を発表した[1]。
当初はタンパク質のアミノ酸配列のシーケンスデータベースに対して、アミノ酸配列の類似性 (similarity) の検索を行うように設計された。FASTA の1988年のバージョンでは、DNAの塩基配列の類似性を検索する機能が加えられた[2]。FASTA は FASTP よりも精巧なアルゴリズムで処理を行い、統計上の有意性を評価する。FASTA ソフトウェアパッケージには、タンパク質のアミノ酸配列やDNAの塩基配列のアライメントを行うための、いくつかのプログラムが含まれている。
FASTA は、"FAST-Aye"(ファストエー)と発音する。FASTA は、"FAST-P"(Protein; タンパク質)アライメント と "FAST-N"(Nucleotide; ヌクレオチド)アライメント の総称である、"FAST-All" を意味している。
FASTA ソフトウェアパッケージの現在のバージョンでは、次のようなことができる。なお、シーケンスデータベースに与える検索のシーケンスをクエリーという。
フレームシフト突然変異を考慮した検索も可能である。Smith-Watermanアルゴリズムを実装した SSEARCH でのシーケンスデータベースの検索・比較をすることもできる(処理速度は遅くなる)。
FASTA ソフトウェアパッケージの主な用途は、類似性の精密な統計値を計算することである。類似性の統計値を計算することにより、生物学者は、どのアライメントが妥当性が高いかを判断することや、相同性 (homology) を推測することができる。
FASTA ソフトウェアパッケージは、ヴァージニア大学のFTPサーバから提供されている。
FASTA では、シーケンスデータの記述形式として FASTAフォーマットという形式を使う。FASTAフォーマットはプレーンテキストである。1つのシーケンスのデータは、">" で始まる1行のヘッダ行と、2行目以降の実際のシーケンス文字列で構成される。ヘッダ行では、">" の次にシーケンスデータを識別するための文字列を記述し、続けてそのシーケンスデータを説明する文字列を記述する(両方とも省略してよい)。ヘッダ行の ">" と識別文字列の間にスペースを入れてはいけない。FASTAフォーマットの全ての行は、80文字未満とすることが推奨される。">" で始まる別の行が出現すると、そこでシーケンスデータが区切られ、別のシーケンスデータが始まる。
FASTA ファイルフォーマットの例を示す。
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY
FASTAフォーマットでは、IUB/IUPAC で規定されているアミノ酸コードもしくは核酸コードで、シーケンス文字列を記述する。ただし、小文字で記述した場合は FASTA内部で自動的に大文字に変換される。また、"-"(ハイフン)でギャップを、"U" でセレノシステインを、"*" で翻訳終止を記述する。FASTAでは、クエリーのシーケンスに数字が含まれていると正しく処理をすることができない。FASTAで処理を行う前に、数字は、除去しておくか、適切な文字列("N" は不明な核酸塩基、"X" は不明なアミノ酸 を意味する)に置き換えておく必要がある。
核酸のコード | 意味 |
---|---|
A | Adenosine (アデニン) |
C | Cytidine (シトシン) |
G | Guanine (グアニン) |
T | Thymidine (チミン) |
U | Uracil (ウラシル) |
R | G A (puRine, プリン) |
Y | T C (pYrimidine, ピリミジン) |
K | G T (Ketone, ケトン) |
M | A C (aMino group, アミノ基) |
S | G C (Strong interaction, 強い結合) |
W | A T (Weak interaction, 弱い結合) |
B | G T C (not A) (B, A の次の文字) |
D | G A T (not C) (D, C の次の文字) |
H | A C T (not G) (H, G の次の文字) |
V | G C A (not T, not U) (V, U の次の文字) |
N | A G C T (aNy, 不明) |
- | ギャップ |
アミノ酸コード | 意味 |
---|---|
A | アラニン |
B | アスパラギン酸 もしくは アスパラギン |
C | システイン |
D | アスパラギン酸 |
E | グルタミン酸 |
F | フェニルアラニン |
G | グリシン |
H | ヒスチジン |
I | イソロイシン |
K | リシン |
L | ロイシン |
M | メチオニン |
N | アスパラギン |
P | プロリン |
Q | グルタミン |
R | アルギニン |
S | セリン |
T | スレオニン |
U | セレノシステイン |
V | バリン |
W | トリプトファン |
Y | チロシン |
Z | グルタミン酸 もしくは グルタミン |
X | 不明 (any) |
* | 翻訳終止 |
- | ギャップ |
Developer(s) | Pearson W.R. |
---|---|
Stable release | 36 |
Operating system | UNIX, Linux, Mac, MS-Windows |
Type | Bioinformatics tool |
License | apache2.0 |
Website | [1] |
FASTA is a DNA and protein sequence alignment software package first described (as FASTP) by David J. Lipman and William R. Pearson in 1985.[1] Its legacy is the FASTA format which is now ubiquitous in bioinformatics.
The original FASTP program was designed for protein sequence similarity searching. FASTA added the ability to do DNA:DNA searches, translated protein:DNA searches, and also provided a more sophisticated shuffling program for evaluating statistical significance.[2] There are several programs in this package that allow the alignment of protein sequences and DNA sequences..
FASTA is pronounced "fast A", and stands for "FAST-All", because it works with any alphabet, an extension of "FAST-P" (protein) and "FAST-N" (nucleotide) alignment.
The current FASTA package contains programs for protein:protein, DNA:DNA, protein:translated DNA (with frameshifts), and ordered or unordered peptide searches. Recent versions of the FASTA package include special translated search algorithms that correctly handle frameshift errors (which six-frame-translated searches do not handle very well) when comparing nucleotide to protein sequence data.
In addition to rapid heuristic search methods, the FASTA package provides SSEARCH, an implementation of the optimal Smith-Waterman algorithm.
A major focus of the package is the calculation of accurate similarity statistics, so that biologists can judge whether an alignment is likely to have occurred by chance, or whether it can be used to infer homology. The FASTA package is available from fasta.bioch.virginia.edu.
The web-interface to submit sequences for running a search of the European Bioinformatics Institute (EBI)'s online databases is also available using the FASTA programs.
The FASTA file format used as input for this software is now largely used by other sequence database search tools (such as BLAST) and sequence alignment programs (Clustal, T-Coffee, etc.).
FASTA takes a given nucleotide or amino acid sequence and searches a corresponding sequence database by using local sequence alignment to find matches of similar database sequences.
The FASTA program follows a largely heuristic method which contributes to the high speed of its execution. It initially observes the pattern of word hits, word-to-word matches of a given length, and marks potential matches before performing a more time-consuming optimized search using a Smith-Waterman type of algorithm.
The size taken for a word, given by the parameter ktup, controls the sensitivity and speed of the program. Increasing the ktup value decreases number of background hits that are found. From the word hits that are returned the program looks for segments that contain a cluster of nearby hits. It then investigates these segments for a possible match.
There are some differences between fastn and fastp relating to the type of sequences used but both use four steps and calculate three scores to describe and format the sequence similarity results. These are:
The FASTA programs find regions of local or global similarity between Protein or DNA sequences, either by searching Protein or DNA databases, or by identifying local duplications within a sequence. Other programs provide information on the statistical significance of an alignment. Like BLAST, FASTA can be used to infer functional and evolutionary relationships between sequences as well as help identify members of gene families.
Protein
Nucleotide
Translated
Statistical significance
Local duplications
関連記事 | 「FAS」「FAST」 |
.