ようこそインシリコデータのWEBサイトへ
ヘッダーイメージ 本文へジャンプ
 化学多変量解析/パターン認識概要

 
化学多変量解析/パターン認識(ケモメトリックス)とは
 
化学多変量解析/パターン認識(ケモメトリックス)の特徴と、適用上での
    留意点について


   ・創薬におけるデータ解析の実施目的はデータ解析手法の議論でなく、
    データ解析結果の議論である。
   ・議論に必要となる正しいデータ解析結果を得るには?
   ・化学とデータ解析の融合と、正しいデータ解析結果を得るための手続き。

  データ解析実施上での留意点



本HTMLページ内でのキーワード:化学多変量解析/パターン認識概要
 化学多変量解析/パターン認識、ケモメトリックス、構造-活性相関、QSAR、定量的構造-活性相関、



化学多変量解析/パターン認識(ケモメトリックス)とは 
化学データ解析をコンピュータで行なう場合、最初に化学関連データ(情報)をコンピュータに読み込ませることが必要です。この技術として様々なものがありますが、主要な技術としては以下の2種類の技術が存在します。
(1)化学分野特有の情報を1/0しか理解しないコンピュータに乗せる技術
(2)化学情報をデータ解析が出来る形に展開する技術
 この他の主たる技術としては、当面の目的解決に最適かつ必要な情報をどのように取りだして、どのような形の数値データに変換するか等の問題、化学上の諸問題についてどのデータ解析手法を適用するかといったデータ解析手法の選択問題、さらには個々のデータ解析手法の適用限界や制限事項等を理解し、無理/無駄な解析や、限界を超えた解析を行う等の誤りを起こすことを避ける必要があります。これらの情報や基本を総合的に把握し、状況に応じて適用する力がなければ、満足な解析結果が得られない、あるいは間違った解析結果と気がつかないまま傷口を拡大してしまうことになります。
 このような技術を扱う研究分野は通常「ケモメトリックス」と呼ばれています。この研究分野は種々の機器スペクトルデータを処理することから生まれた研究分野で、当初は機器スペクトルを扱う化学分析分野の1研究分野として出発しました。このケモメトリックスを支える技術は汎用性が高いこともあり、現在は化学、生物、医療に関する多種多様な研究分野で個別に展開され、それぞれの分野で別々の名称で呼ばれています。創薬分野では、QSAR(構造-活性相関)、インシリコドラグデザイン、インシリコスクリーニング、バイオ分野では遺伝子/SNP’s解析、遺伝子発現プロフィール解析等の様々な研究分野で展開されています。化学分野でも機能性化合物デザインに、環境も含めた安全性研究分野では化合物の毒性評価/予測が、医療関連分野ではメタボロミクスによる医療診断/要因解析等が、さらに今後は動物保護の観点から実験動物を用いない創薬等が展開されますが、このような「動物実験代替え法」の最有力候補として、インシリコでの予測が注目されています。
 以上のように、化学多変量解析/パターン認識(ケモメトリックス)を学べば多くの研究分野での展開が可能となります。この技術を身につければ、現在展開されていない分野での展開もあなたのアイディア次第で出来るようになるはずです。

化学多変量解析/パターン認識概要」TOP




化学多変量解析/パターン認識(ケモメトリックス)の特徴と、適用上での
  留意点について

 多変量解析/パターン認識/データマイニング等で展開されている個々のデータ解析手法に関する解説は多くの本やインターネット上で展開され、また多くの教育機関でも様々な講義として展開されております。従いまして、個々のデータ解析手法そのものに関する詳細はそれらの資料や受講等で学んでください。データ解析手法説明の例外としては、湯田が開発した分類率が常に100%、フィッテイングでは極めて高い相関/絶対係数を簡単に実現する次世代型データ解析手法となる「KY(K-step Yard sampling)法」。そして、化学上の類似特性をデータ解析に生かすことで予測率の大幅な向上を実現する「テーラーメードモデリング」は、湯田のオリジナル手法なので本ホームページの別ページにて詳しく解説します。

 ・創薬におけるデータ解析の実施目的はデータ解析手法の議論でなく、
  データ解析結果の議論である

 当然ですが、創薬研究で行うデータ解析の目的はデータ解析手法そのものではなく、データ解析の結果得られる情報です。従ってここでは、いかに正しい解析を行い、大きな実りとなるデータ解析結果(即ち、貴重な情報)を得られるかという観点でまとめます。
 データ解析が前面に出てくるとデータ解析手法そのものの議論になることが多くなります。しかし、繰り返しますが、創薬研究におけるデータ解析で重要なことは、いかに正しいデータ解析を行い、正しい結果を得て次の展開に結び付けられるかであり、学会発表等で行われるように、一瞬でも早く話題性の高い手法を使ったかではありません。
 現在はソフトウエアが進歩した結果、データをソフトウエアに入力すればアベンドしない限り結果が出ます。この結果を何らかの指標(分類/予測率、相関/絶対係数、クロスバリデーション結果等)に照らし合わせ、この指標をクリアするか否かで簡単に解析結果の信頼性診断の結論とする。しかしこれは、データ解析結果の信頼性保証の1形態にしかすぎず、これをクリアすれば学会発表等ができるといったレベルでの保障でしかありません。化学データ解析を正しく行うためには、単なる1方向からの基準に照らし合わせるのでなく、化学の観点、メカニズムの観点、実験手法の観点、サンプル調整の観点等の様々な観点からの検証が必要であることを常に理解しておくことが重要です。
 一般的にデータ解析結果の保証を保ちつつデータ解析を進めるのは簡単ではありません。データ解析結果の保障を行いつつデータ解析を行う場合は、このような保障を意識しないで行う通常のデータ解析とは比較にならない程の多種多様な制限事項をクリアすることが求められます。このような手間暇をかけないで得られたデータ解析結果は、多くの場合間違った結論に導かれ、被害を拡大することになります。
 創薬はデータ解析を利用して正しい結果を得ることが目的であることを常に意識してください。また、このような意識を常に持ちつつデータ解析を行っていれば、他人が行ったデータ解析を正しく評価できますし、いい加減な情報に振り回されてアタフタするようなことはなくなります。

・議論に必要となる正しいデータ解析結果を得るには?
 正しいデータ解析結果を得るための作業は、データ解析手法論から見ると、地味で、労多き作業、且つデータ解析作業に多くの制限事項を与えて、データ解析作業自体の進行を妨害するような内容が多いのが現実です。しかし、これらの事項は実際にデータ解析を行なう時に重要で、これらの事項を順守しない解析はデータ解析自体の作業は簡単に進みますが、得られる結果の保証は殆ど無くなります。
 一般的に、このようなデータ解析に負担をかけるような制限事項の多くはデータ解析自体に悪いイメージを与えるせいか、あるいはデータ解析手法を議論する方が楽しいせいか、他の解説書を見ても、またインターネット上でもこれらの制限事項について詳しく解説したものは殆どありません。しかし、データ解析を利用するユーザという観点で考えた場合、正しい解析結果を得るにはどのようなことに注意するかという議論は極めて重要です。本ホームページでは、このような利用者からの観点でまとめます。

・化学とデータ解析の融合と、正しいデータ解析結果を得るための手続き。
 化学多変量解析/パターン認識(ケモメトリックス)は、通常の多変量解析/パターン認識技術を化学分野に適用したもので、基本となるデータ解析部分に大きな変化はありません。しかし、化学分野特有の問題や情報があり、これらを扱う(化学関連情報をデータ解析で扱うことが可能な数値データへと変換する)ための様々な工夫が必要です。この他に、個々のデータ解析手法の特徴や適用限界の把握。データ解析手法と化学特有の事項とのギャップの把握と融合。また、実際にデータ解析を行う前に必要となるサンプル調整、データの調整、パラメータ創出やパラメータ選択等の個々の手続きの実施が必要となります。
 一般的には、データ解析手法を適用する前の前処理に多くの時間が費やされます。 一旦データ解析が進むと、その後はデータ解析の適用対象となっている分野に関する基本的な情報や知識が必要となります。解析結果の評価や情報のフィードバック等には現場の研究者の洞察力が重要となります。即ち、データ解析ではデータ解析実行時というよりも、データ解析を行う前に実施される前処理段階での処理が極めて重要となります。
 ここでいう前処理とは、解析手法を実際のデータに適用する前に実施される手続きであり、データ解析が正しく、且つ解析目的である解析結果をもっとも効果的に取り出す目的で実施されます。この前処理が正しく実施されれば、殆どのデータ解析は成功します。逆に、この前処理が適切に実施されなかった場合、殆どのデータ解析は失敗します。
 一般的に、データ解析結果が望ましくない結果になると多くの研究者は適用限界や手法の特性、解析目的を考えずに、より強力、あるいはブームとなっている解析手法に頼りがちで、あまりノウハウのない状況下で実行することが多くなります。データ解析手法自体の研究では人よりも一瞬でも早く新規性の高い手法を適用することは良いのですが、データ解析結果が重要な場合は、内容が安定化していない新たな手法に頼ることは危険です。概して新しい手法の開発当初は利点ばかり強調され、適用限界や弱点に関する議論はしばらく時間がたってから出てきますし、そのような報告は公の場では殆ど出てきません。さらに、解析結果の矛盾や間違いに気がつけば助かりますが、気づくことがなければ、間違った結果を信頼して、次の手順に移り、より大きなダメージを被る等傷口を大きくしてしまいます。
 コンピュータパワーが強力になり、データ解析ソフトウエアも充実し、安価になってきた現在、ソフトウエアさえ購入すればデータ解析の実行はだれでも簡単にできるようになりました。しかし、データ解析に振り回されることなく、データ解析の真の効果を引き出せるような慎重さと力はお金では買えません。実際にデータ解析を行い、その過程の経験や情報、学習を行い、これらから得られる貴重な経験を積んで、様々なノウハウを獲得していただければと願っています。

 株式会社インシリコデータは、この「化学多変量解析/パターン認識(ケモメトリックス)データ解析」に関する総合的な支援コンサルタントを行なう会社です。

化学多変量解析/パターン認識概要」TOP





 データ解析実施上での留意点

 データ解析実施上留意すべき点と危険な思い込みについて
  本項では、多変量解析/パターン認識を用いてデータ解析を行う時に守るべき重要な事項について簡単にまとめます。単純に、分類率や予測率、相関係数や絶対係数、また最近重要とされているクロスバリデーションの値の大きさだけでは解析結果の評価基準にならないということを自分自身に言い聞かせてください。上記の種々パラメータの値の大きさだけを気にしてデータ解析を行っていると、指標は高い値なのに、実際のデータに適用するとメチャクチャな結果となる、最悪の場合は更なる混迷に落ち込んでゆきます。

 1.偶然性の問題と解決法:データ解析全体を規制する重要な問題
 2.サンプルについて:サンプル数、標本空間
 3.パラメータについて:パラメータ数、出現率、ノイズパラメータ、ミッシングデータ
 4.分類率と予測率:違いと相互関係について
 5.相関係数と決定係数:相関が0でも簡単に1となるケース
 6.線形性と非線形性:パラメータ空間の作成か、パラメータ空間への適合か
 7.その他の留意事項
*一行解説


  特徴抽出(特徴選択)について
 1.パラメータ選択とサンプル選択
 2.統計的指標に基づく手法
 3.解析手法に依存する手法
  ・フィッテイング手法利用
  ・クラス分類手法利用
  ・SIMCA利用
  ・PCA利用
  ・ニューラルネットワーク利用
 4.解析手法を利用する手法
  ・遺伝的アルゴリズム
  ・バリアンス法
  ・ウエイトサイン法
  ・総当たり法

 次元圧縮、次元変換法
  ・PLS/PCA
  ・NLM

  データ解析全般での留意事項
 1.パラメータの依存関係(主パラメータと従パラメータ)
 2.




 現在構築中です。

偶然性(chance correlation)の問題と解決法

偶然性を避けるための制限条件
 データ解析が以下の条件を満たしていれば、偶然性の問題は回避出来ていると見なされます。

 ☆2クラス分類の場合:
(1)総サンプル数と用いたパラメー数との関係
信頼性指標=(サンプル数/パラメータ数)≧4
(2)2クラス分類の場合、これ以外にも個々のクラスのサンプル数に制限事項があります。
  個々のクラスのサンプル数は、クラス分類に利用したパラメータ数よりも大きい事が必要。

 ☆フィッティングの場合:
(1)総サンプル数と用いたパラメー数との関係
信頼性指標=(サンプル数/パラメータ数)≧5~6

 一般の解析では、上記事項を満たしながらデータ解析を行うことが必要となります。上記制限事項が満たされていない場合、どんなに高い分類率、相関係数、決定係数値を達成しても、そのデータ解析自体が無効となりますので、データ解析時には留意してください。

★正しい化学データ解析を行う為の基本的な留意点
 データ解析において、偶然性(chance correlation)の問題が解決されていない場合、たとえどんなに高い分類率/予測率、あるいは高い相関係数や決定係数を達成しても、その解析は無効となります。基本的に総てのデータ解析では、この偶然性の問題が解決していることを前提として議論されます。従って、この偶然性の問題はデータ解析を行う研究者が常に意識することが必要な極めて重要な事項です。しかし、多くの場合、この偶然性の問題を意識して解析する研究者は少ないようです。
 この理由として二つあるようです。一つは、偶然性をきちんと解説した資料が少ないこと。二つ目は、多くのデータ解析では、偶然性が問題となるような条件となることが少ないため、殆どのデータ解析で偶然性を意識する必要が無いという事があります。
 少しでも高い分類率/予測率、あるいは相関係数/決定係数を達成しようと努力する時、例えば新規パラメータを追加する、ノイズサンプルを取りだす等の操作を行うことで前記指標を向上させる場合に、この偶然性の問題が大きな問題となってきます。

★偶然性が解決していない場合の現象
 偶然性問題が解消されていない場合、その多くは内挿性が極端に高いのに、外挿性が極端に低くなるという現象となって現れます。



「データ解析実施留意点」TOP

サンプルについて







「データ解析実施留意点」TOP


パラメータについて







「データ解析実施留意点」TOP


分類率と予測率






「データ解析実施留意点」TOP



相関係数と決定係数

相関が0でも簡単に1となるケース
 このようなケースは誰にでもわかるデータ解析の失敗例であるが、あまり扱われることが少ないので、ここで実際にひとつ簡単な事例を紹介する。

☆化合物の融点とインデックス番号が完全に相関?
 融点の値(目的変数)を持つ化合物を100用意する。勝手な順番で化合物を並べ、1から100のインデックス番号を付ける。パラメータ(説明変数)として100パラメータを用意する。このパラメータはインデックス番号と同じ時に1、それ以外は総て0となるようにする。即ち、目的変数は化合物の融点で、総数100サンプル。説明変数は1個だけが1でそれ以外はすべて0の値を持つ100パラメータ。
 これを用いて線形重回帰を実行すると相関/決定係数の両方ともに1となる。すなわち、化合物の融点と化合物のインデックス番号は完全に相関していることになる。これは明らかに事実と反していることなので簡単に嘘とわかりますが、実際の解析では程度の軽重はありますが、これと類似したことが実施されているのが多々見られます。米国政府の環境関連ホームページでも、これと似たような事例が見られます。これは、単に相関/決定係数を上げることだけに集中するあまり、偶然性の問題が軽視されることにより発生します。



「データ解析実施留意点」TOP

線形性と非線形性

線形解析と非線形解析の特徴(パラメータ空間の作成か、パラメータ空間への適合





☆線形解析と非線形解析の特徴と差異 
 分類手法やフィッティング手法において、線形と非線形の差がデータ解析に及ぼす影響は大きく、かつ様々な項目に及ぶので適用に当たっては留意が必要となります。
線形手法と非線形手法を比較した場合、非線形に有利な事項として、分類率、相関/決定係数が確実に線形の場合よりも向上する事です。
 一方で、線形手法が有利な事は要因解析がしやすく、またその解析信頼性も高いという事があげられます。さらに、データ解析では常に留意しなければならない過剰適合(over fitting)や偶然性(chance correlation)の問題が線形解析では発生しにくいということです。また、内挿性は低いのですが、外挿性が高くなるという特徴があります。以上を簡単にまとめると以下のようになります。
 項目       線形解析       非線形解析
 内挿性      低い(×)       高い(○)
 外挿性      高い(○)       低い(×)
 偶然性      低い(○)       高い(×)
過剰適合      低い(○)        高い(×)
 上記中、グリーンの文字が長所(○)で、赤色の文字が欠点(×)となります。なお、内挿性が高いということは、クラス分類では分類率が高くなり、フィッティングでは相関/決定係数が高くなることを意味します。外挿性が高いという事は、クラス分類とでフィッティングとで、内挿性と外挿性の差が小さいということを意味します。これと逆に外挿性が低いということは内挿と外挿の差が大きくなることを意味します。なお、過剰適合と内挿/外挿性は相互に関連しています。また、この表で記載されている手法の特徴は相対的なものであり、絶対的なものではありません。例えば、非線形解析は外挿性が低いために分類率や相関/決定係数と予測率との差が大きいのですが、線形解析と比較して分類率や相関/決定係数が大きな値を持っていれば、たとえ予測率が大きく下がっても線形解析と比較すればより高い予測率となります。このために、非線形解析が好まれることとなります。

☆線形解析と非線形解析の関係

 前記表を見れば、線形解析と非線形解析とは様々な項目で相補関係にあることがわかります。従って、解析目的やその内容に従って線形手法や非線形手法を使い分けすることがベストの選択となります。
 現在は流行のように非線形解析が盛んに利用されていますが、非線形解析が線形解析を総ての点で凌駕するのではなく、たがいに長所と欠点を有していることを理解して、自分の目的とした解析で最高のパフォーマンスを実現できるようにすることが大事となります。
 データ解析上で、線形手法に加えて非線形手法という選択肢や、可能性が広がったと考えるべきです。

「データ解析実施留意点」TOP


その他の留意事項

多重相関





「データ解析実施留意点」TOP

* 一行解説



化学多変量解析/パターン認識概要」TOP
フッターイメージ