データ解析

ここではPESI-MSで得られた、マススペクトルデータの取り扱いや解析方法について説明します。

前もってガスクロマトグラフ (GC) や、液体クロマトグラフ (LC) による分離を行う質量分析 (GC-MS, LC-MS)では、ピークの面積、保持時間 (retention time, RT)、マススペクトルに存在するピークごとの質量電荷比 (m/z)、さらに個別のピークに対してMS/MSを行なった場合は、コリジョンピークについての情報が得られ、これを基に検出された分子の種類や存在量を解析します。

一方PESI-MSでは、1つの検体から基本的に1つのマススペクトルが得られますので、「ピークのm/z」「イオン強度」のみが変数となります。

肝臓がんから得られたマススペクトルの一例
マススペクトルデータを用いて、疾患の分子メカニズム解明や診断を行うための手順。大きく統計解析と判別分析に分けられる。

複数群のマススペクトルが得られた際には、まずその群間にそもそも差があるのか?をきちんと判断する必要があります。その上で徐々に細かい解析へと掘り下げます。

マススペクトルに差があるかを解析するには、いくつもの方法がありますが、
汎用されている手法の1つに主成分分析 (Principal Component Analysis, PCA) があります。

下の図はヒトの脳組織から得られた正常部と腫瘍部のマススペクトルを、PCAした結果です。わかりやすいようにPC1とPC2の2変数のみの散布図で表しました。

PCAを行うと二群のマススペクトルに差があるかを、「目視的になんとなく」確認することができます。しかしPCAには判別能がないので、二群に差があることを述べるには判別分析を組み合わせる必要があります。またPCAはその名の通り、変化量の大きい成分から大きな影響を受けるので、「小さい変化だが意味があるもの」を見つけるのは苦手です。

次に部分最小二乗法 (Partial Least Squares Regression, PLS) と、多次元尺度構成法 (Multi-dimensional scaling, MDS) で解析してみます。下の図は先ほどのPCAの場合と同様のデータセットをPLS、MDSで解析した結果です。

同じデータセットでも解析方法が異なると、差の見え方が大きく違ってきます。
PCAでは差を見つけることが難しいデータセットでも、PLSやMDAを用いることで差が見えてくる場合があります。

ここからさらに群間に差があることを証明するには判別分析を行う必要があり、その簡便な方法としては
線形判別分析 (Linear Discriminant Analysis, LDA)、
二次判別分析 (Quadratic Discriminant Analysis, QDA)、
混合判別分析 (Mixture Discriminant Analysis, MDA)、
などが挙げられます。

群間に差があることが分かれば、次にそれぞれのピークの変化を詳細に解析し、有意に変化しているものを見つけます。必要があればさらに分子同定を行い、疾患を対象とした解析の場合、この分子が疾患マーカーとなり得ます。また種々の生命現象の分子メカニズム解明や、病態解明にも役立ちます。


マーカー探索

マススペクトルを判別することで、ある生命現象が起こっているのか?疾患であるか否か?を知ることが可能ですが、分子メカニズム解明や、疾患マーカー探索のためには、マススペクトルを構成するピークのうちどれが特異的に変化しているのか、またそのピークはどのような分子から成るのかを知る必要があります。
これには幾つかの方法がありますが、簡単なのは全てのピークに対して有意差検定を行うことです。

2000本のピークそれぞれに対して、二群間で差があるかを検定した結果。
単純に考えるとp値 (-log10) の高いピークほど、発現量が二群間で有意に変化している分子ということになる。
ある程度ターゲットのピークが絞れておりかつ、多群の場合には
イオン強度の変化をヒートマップで確認する。

機械学習を利用した疾患診断

機械学習とは簡単にいうと、ヒトが普段行っているような学習を機械にさせることで、過去の経験から次に起こることを予測したり、起こったことを判別したりすることが可能です。
例えば、Aさんは5年後に心筋梗塞を発症する可能性が85%です、
この細胞では○○シグナルが活性されている可能性が90%です、
などの予測や判別を行えます。

我々の研究室では、
Support vector machine (SVM) サポートベクターマシン
Logistic regression (LR) ロジスティック回帰
Random forest (RF) ランダムフォレスト
などの学習機械を用いており、他の方法に関しても検討を進めています。

論文

PAGE TOP