マイクロアレイのデータ処理方法の解釈を間違ってた。以前のエントリーでは、聞きかじりでQuantile normalizationの操作を、

  1. シグナル強度を対数変換(底は2)する
  2. 75%点のシグナル強度の対数値でシグナル強度の対数変換した強度を割る
  3. 個々のプローブの価をアレイ間で中央値が0になるようにシフト

と書いてしまったのだが、2.はpercentile shiftという操作で、分布の分位点を揃えるために行うもの。
ステップ3.は、正しくは

  1. アレイごとに、個々のプローブをシグナル強度で順位付けして、同じ順位のプローブのシグナル強度のアレイ間の平均値を求める。
  2. 個々のプローブのシグナル強度データを、同じ順位のシグナル強度の平均値に置き換える。
  3. データをもとの順番に並べ替える。

という操作だった。オリジナルの論文はこちら(フリーアクセス)。

Quantile normalizationについて、この論文では、

1. given n arrays of length p, form X of dimension p × n where each array is a column;
2. sort each column of X to give X sort;
3. take the means across rows of X sort and assign this mean to each element in the row to get X' sort;
4. get X normalized by rearranging each column of X' sort to have the same ordering as original X

こう書いてあった。うーん聞きかじりは良くない。反省。

しかし、こうするとたしかに分布は揃うけど、生物学的には関連のない遺伝子の発現強度で規準化してるのでどうなのだ・・・ま、RT-PCRでもアクチン等をスタンダードにしていることもあるので、そう間違ってはいないのだが、解析するデータセットに依存して発現強度の順番は入れ替わるため、分布の形がグニャグニャかわるというイメージなのであまり気持ちの良いものではない。インフォマティクスの人は気にしないのだろうか。

こういう形で任意の変換(しかも、ほぼ不可逆的)をしてしまうと、変換後のシグナル強度のfold changeにどれほどの意味があるのかと考え込んでしまう。また、分散分析がどうのと言っても算術的には計算できて、統計的に有意かどうかも議論できるが、もとのデータの信頼性を考えるとちょっと心許ない。できるだけ、Normalizationをしないで済むように実験の精度を高める努力をするべきなのかもしれない。

# その場合、系統誤差には目をつぶる他ないが。

−−−

マイクロアレイの散布図を描くとき、なぜデータを対数変換しないと収まりが悪いのか?

話は変わるが、シグナルの分布については、マイクロアレイという検出系の特性で対数変換しないと収まりが悪いのではないか、と考えた時期もあった。しかし、アラビドプシスやイネのMPSSのデータの分布を眺めても、やはり対数変換しないと散布図の収まりが悪い(えーと、収まりが悪いというのは、正規分布に近似できないという意味です)。

異なる原理で測定する検出系で同じデータの分布が見られるのであれば、それは細胞内で行なわれる遺伝子発現において、発現量の少ないmRNAに対して、発現量の多いmRNAは指数関数的にコピー数が多いと考えるべきだろう。

本来、細胞の中である遺伝子の転写が起きるとはどういう状況だろうか。一つの細胞に注目してみると、個々の遺伝子の発現には基本的にはOnとOffの2つの状態としてとらえる(本当は二値的なスイッチングだけではないことは、出芽酵母の同調培養のアレイのデータを眺めればよく分かる)。Onの際にはOffの際と比較して指数関数的にmRNAのコピーが作られると考えられる。つまり、個々の細胞内ではOn/Offの際のmRNA量の比が2倍だの3倍だのという違いではない。

アレイのシグナル強度は、測定時に細胞内に”蓄積している”mRNAのコピー数を反映している。その時の瞬間的な転写の速度ではない。また、分解の速度でもない。

そして、ある遺伝子のシグナル強度はサンプル中に含まれる、ある遺伝子を発現して、そのmRNAを蓄積している細胞の数にも依存する。この割合は試料中の細胞数(一定重量のサンプルに占める割合)に比例するので、fold changeがたかだか数倍でも生物学的には意味がある違いだと考えるべきだろう。問題は、検出系や実験誤差を超えて、何倍位の違いまで確からしいと言えるか・・・だ。経験的には、1回のマイクロアレイの実験で2倍以下の変動は、試料の組織の切り出し方や、生育の度合いというノイズを拾っているのかもしれない。微妙な違いは反復を取ってANOVAで確認するか、実験のコストを勘案して、数十遺伝子以下であればRT-PCR定量するほうが良いのだろう。どこまでもアレイだけで煮詰めなくてはいけない理由はない。

イネを材料にこういう現象を追いかけるのが正しいアプローチか、という疑問はある。イネは多細胞だし、精密な環境制御はしにくいし。しかし、酵母でもこういう”なぜ?”を追いかけた研究は見たことがない。これは、私にとっては、この10年来の解けない謎だ。

人気blogランキングへ←このエントリーの情報はお役に立ちましたか?

クリックしていただけると筆者が喜びます!