コドン最適化のアルゴリズム

質問

CRISPRのknock-inでPAM配列にサイレント突然変異を入れる際に宿主のコドンを考慮すべき?

結論、すべきです。

コドン表を見るとわかる通り、コドンは冗長性 Redundancy)はあるが、多義性 (ambiguity) はない。この特徴を縮重 (degeneracy)と呼ぶ。例えば、ロイシンをコードするコドンは6つあり、このコドンはロイシンのみをコードする(多義性については例外あり) [1]

この縮重の特徴を利用して、アミノ酸配列を変えずに遺伝子の塩基配列に変異 (サイレント突然変異 (silent mutation))を入れることができます。

今回の質問に対する回答は、

「宿主のコドンの出現頻度(codon usage)が低すぎず、かつ、できるだけ多く変異を入れること」です。

よく使われるコドンとそうでないコドン(レアコドン)があり、その出現頻度(codon usage)は生物種によって異なります。生物種ごとのコドン出現頻度のデータベースは、かずさDNA研究所より公開されています。Codon Usage Database[2]

コドン最適化について

コドン最適化は、人工遺伝子を合成する際に、異種由来のタンパク質を宿主で効率よく発現させるために、宿主の転写翻訳に最適なサイレント突然変異を入れることを指します。

例えば、大腸菌にヒト由来のタンパク質を大量発現させたい場合などに、遺伝子合成を外注するのですが、その際に発注先のツールなどを用いてヒト由来のタンパク質に大腸菌が発現しやすいような変異を加えたものを発注します。

Thermofisher社のコドン最適化ツールのページでは、コドン使用頻度を考慮する場合としない場合で、100倍の発現量の差が出るといった例が紹介されています[3]。うまくいった例しか示されてない、N数が少ないといった出版バイアスはかかっていると考えられ、すべての遺伝子に対して最適に働くかのかはわかりませんが、もし遺伝子発現を上げたいのであれば最適化はすべきでしょう。

コドン最適化アルゴリズム

このアルゴリズムの詳細は企業秘密で詳しく明かされていませんが、今日探せた限りの情報をまとめておきます。

Thermofisherのアルゴリズム[3]は、

潜在的なスプライス部位や RNA を不安定化する配列の除去によるRNAの安定性

mRNA を安定化する配列の追加

コドンと GC 含有率の最適化

イントロンの除去

RNA の二次構造の回避

とあります。あまり具体的ではありませんね。

Integrated DNA technologies [4]では、もう少し詳細に記述がありました。この会社では、宿主における同じアミノ酸をコードするコドンの出現頻度が10%以下だと除去し、残りのコドンを再正規化して宿主の出現頻度に合わせるようなアルゴリズム (codon sampling strategy)を使っているようです。

コドン最適化によってタンパク質の発現量がどの程度増加するかの予測はまだできません(誰か機械学習でやってほしいです)。

特定のタンパク質や宿主の生物種、tRNAコピー、mRNAの安定性、タンパク質の折りたたみ速度、タンパク質の安定性、タンパク質の輸送、発現細胞環境におけるタンパク質の毒性など、さまざまな要因に影響されます。そのため、どのような最適化も、実験による検証が必要となります[4]。

以上、コドン最適化アルゴリズムの技術メモでした。コドンの冗長性、コドン表の例外、コドンと生命の起源との関係、遺伝暗号表解読の歴史的背景など、またどこかでまとめます。

[1]Genetic code - Wikipedia

[2]Codon Usage Database

[3]多様なパラメータで遺伝子を最適化する GeneArt® GeneOptimizer® | Thermo Fisher Scientific - JP

[4]Benefits of codon optimization