正しい配列 - ニュートラルな研究者のメモ

久しぶりに書き込みます。

新しく組換タンパクを作りたいとき、cDNAをPCRで増幅するところからスタートしていました。多く発現していそうな組織のcDNA poolをテンプレートにして、制限酵素をくっつけたプライマーを準備して、、、というような流れのやつです。この作業も一昔前は自分で、ちょっとお金があれば外注でクローニング、というようなこともありましたが、近年はcDNAクローンのラインナップが非常に充実しているのでわざわざ自分でPCRで釣ってくるということはほとんどなくなりましたね。で、クローニングする際に気になっているのは、「何が正しい配列なのか」ということです。一般的にはRefSeq配列がレビューを受けた正しい配列であるとされています。がしかし、RefSeq配列でも複数候補があるケースが少なくありません。そんな時にどうやって候補を絞り込めばよいのでしょうか。

以下、対象遺伝子配列の取得から選抜までの手順を備忘録として書き残しておきます。もし、これを参考にされる方がいらっしゃったら、もっと効率的でコストのかからない方法はあると思いますし、より正しい考え方とかもあると思います。参考程度ということで読んでいただけたらと思います。

遺伝子情報の選抜

NCBIのEntrezGeneから目的の遺伝子を検索します。例として、GAPDH (glycelaldehyde -3-phophate dehydrogenase)。

f:id:cobucchii:20140407090559p:plain

HumanのGAPDHを対象とした場合には一番上のリンクをクリック。

遺伝子の情報がつらつらと並べられている中段辺りに"NCBI Reference Sequences (RefSeq)"という項目が見つかります。

f:id:cobucchii:20140407090946p:plain

ここに記載されているRefSeq sequenceを目的の配列としてクローニングを行います。ただし、ここには数種類のRefSeqが並んでいることが少なからず、あります。渡しの場合は、最も論文で使用されている配列は？という観点で考えて、google scholarでの検索ヒット件数を指標に選抜します。GAPDHのケースで行くと、、、

NM_001256799：43件

NM_001289745：0件

NM_001289746：0件

NM_002046：3540件

というわけで、NM_002046をピックアップします。

配列情報の取得

NM_002046のリンク先には配列情報が載っています。この情報をDNA配列編集ソフト（ApEとか）で閲覧できる形でダウンロードします。

画面右上の"Send" > "Complete Record" > " File" > Formatは"GenBank" > "Create File"ボタンをクリック

とするとGenBankのフォーマットで対象ファイルがダウンロードされます。このファイルをApEで開くと配列情報に加えてORFの領域も簡単に見つけることができます（ApE上部ツールバーのplasmidのアイコン（Graphic Map））。このORFの配列を目的の配列としてcDNAクローンを探していきます。最近はOpenBiosystemsで探して丁度よい配列が見つからなければ、ちょっと高いですがOriGeneのほうで調達する、という感じです。他にもPromegaのFlexiCloneとか、旧invitrogenのUltimate~とかありますけど、どこかおすすめをご存知のかたいらっしゃらないですかね。コメントとかいただけると嬉しいです。