質量分析、メタボロミクス、データ解析

ここでは質量分析の結果得られたマススペクトルを解析する方法について解説します。

マススペクトルにはイオン強度と質量電荷比(m/z)という2つの情報が含まれています。
下のマススペクトルはヒトの肝細胞がんから得られたものです。

さて、マススペクトルは得られました。その次は?

一般的にはそれぞれのスペクトルがどのようなピーク(生体分子)から成り立っているのか、
その分子がどの程度存在するのか、などを解析します。

マススペクトルは複数の検体から収集され、
実験群で有意に発現量が変化している分子がないかを探索したり、
多数の分子の存在量変化を次元縮約法を用いて一気に比較したりします。

しかし個別の成分に着目すればするほど、なかなか有意差が見つからなくなります。
実験回ごとの誤差や、検体そのものに内包される多様性など多くの要因が重なるためです。

我々の研究室では複数群のマススペクトルが得られた際には、まずその群間にそもそも差があるのか?
をきちんと判断します。その上で徐々に細かい解析へと掘り下げて行きます。

マススペクトルを解析するにはベースラインの補正や相対値化、Binの設定など、
目的に合わせて種々の前処理を行う必要がありますが、これについての解説は省きます。

マススペクトルに差があるかを解析するには、いくつもの方法がありますが、
汎用されている手法の1つに主成分分析 (Principal Component Analysis, PCA) があります。

下の図はヒトの脳組織から得られた正常部と腫瘍部のマススペクトルを、PCAした結果です。
わかりやすいようにPC1とPC2の2変数のみの散布図で現しました。

PCAを行うと二群のマススペクトルに差があるかを、「目視的になんとなく」確認することができます。
しかしPCAには判別能がないので、二群に差があることを述べるには判別分析を組み合わせる必要があります。
またPCAはその名の通り、変化量の大きい成分から大きな影響を受けるので、
「小さい変化だが意味があるもの」を見つけるのは苦手です。

次に部分最小二乗法 (Partial Least Squares Regression, PLS) と、
多次元尺度構成法 (Multi-dimensional scaling, MDS) で解析してみます。
下の図は先ほどのPCAの場合と同様のデータセットをPLS、MDSで解析した結果です。

同じデータセットでも解析方法が異なると、差の見え方が大きく違ってきます。
PCAでは差を見つけることが難しいデータセットでも、PLSやMDAを用いることで差が見えてくる場合があります。

ここからさらに群間に差があることを証明するには判別分析を行う必要があり、その簡便な方法としては
線形判別分析 (Linear Discriminant Analysis, LDA)、
二次判別分析 (Quadratic Discriminant Analysis, QDA)、
混合判別分析 (Mixture Discriminant Analysis, MDA)、
などが挙げられます。

群間に差があることが分かれば、次にそれぞれのピークの変化を詳細に解析し、有意に変化しているものを見つけます。
必要があればさらに分子同定を行い、疾患を対象とした解析の場合、この分子が疾患マーカーとなり得ます。
また種々の生命現象の分子メカニズム解明や、病態解明にも役立ちます。
詳細はこちら

もう一つの利用方法は機械学習を用いた盲検データの判別です。
上述の正常部および、腫瘍部から得られた脳組織のマススペクトルを用いて機械学習を行えば、
新たな患者より得られた脳の検体が正常か腫瘍かの判別を行うことができます。


機械学習とは簡単にいうと、ヒトが普段行っているような学習を機械にさせることで、
過去の経験から次に起こることを予測したり、起こったことを判別したりすることが可能です。
例えば、Aさんは5年後に心筋梗塞を発症する可能性が85%です、
この細胞では○○シグナルが活性されている可能性が90%です、
などの予測や判別を行えます。

我々の研究室では、
Support vector machine (SVM) サポートベクターマシン
Logistic regression (LR) ロジスティック回帰
Random forest (RF) ランダムフォレスト
などの学習機械を用いており、他の方法に関しても検討を進めています。


HOMEへ