Medidata Blog

臨床開発・研究における高度分析の将来

2019-05-23 - < 1 min read
臨床開発・研究における高度分析の将来

ここ数十年の間に、ライフサイエンス企業が利用できるデータの量は急増し、それは細く穏やかな小川から、いくつもの支流が本流に合流するがごとく、今大きく力強い流れへと移り変わっています。それらデータは、個々の患者の遺伝的およびゲノムの情報、メタボロームおよびプロテオミクスプロファイル、ウェアラブル端末から収集される心拍数の変動、血糖値、さらにはその他電子健康記録(EHR)からわかる患者の病歴などのリアルワールドデータなど多種多様です。こうしたヘルスデータの総量は世界で2020年までに2013年の15倍の2,314エクサバイトに急増すると予測されています。ある予測によると、このデータの総量をタブレットPCに積み上げて表現すると、その高さは82,000マイル(132,000km)に達するといわれています。

データ量や種類の増加に伴い、データ分析も盛んになりました。従来の統計手法と並んで、非標準フォーマットで保存された膨大な数の入力データとキュレートデータを操ることができる強力な人工知能技術が出現しました。例えば、臨床試験において700以上の異なる手法で記録された性別に関するデータなどがあげられます。AIの概念に内包される機械学習は、仮説を立てることなくデータ内のパターンを識別できます。つまり、人間がそこに潜んでいる可能性がある『何か』について事前に仮定する必要がないのです。

新しいAIツールは、ヘルスケアデータのブームと個別化医療の台頭と相まって、臨床試験と創薬に変革をもたらします。 McKinsey Global Instituteは、AIが年間1000億ドルの価値をライフサイエンス業界にもたらすことができると考えています。研究者らはすでに統計分析と組み合わせて機械学習ツールを使用し、オミックスデータや病歴の広大なリポジトリに存在している新しいバイオマーカーやその他のパタ​​ーンを発見しています。

たとえば、メディデータのRave Omicsアプリケーションは、希少疾患研究のための重要な洞察の発見に貢献しました。また、ライフサイエンス企業は、医薬品の承認プロセスを加速化させる、規制品質データ、データ入力エラーの分類と仕分け、外れ値、矛盾、および誤って報告された有害事象等の分析にAIを用いてデータを確実なものにすることができます。

それでも、ほとんどのライフサイエンス企業は、まだデータ分析にAIアプローチを最大限に活用していません。それは、AIが新しい概念であることや、FDAが薬の安全性と有効性の承認においてAIの活用をまだ認めていないことなどが理由となっています。しかしそれはまた、AIができることや、それが統計とどう違うのかについての理解が欠如していることを反映しているとも言えます。

2つの違いを簡潔に説明すると「統計は人間にとって困難でコンピュータにとって簡単なことを達成する」のに対し、「人工知能はコンピュータにとって困難で人間にとって簡単なことに取り組む」と言うことができます。前者はp値を吐き出し、後者は音声認識と画像認識に苦労しています。(「それは亀なのかそれとも銃なのか?」GoogleのAIが亀を銃であると認識することがあるという記事)また、機械学習と呼ばれる研究の1つの分野では、AIと統計を組み合わせて、コンピューターと人間の両方にとって難しいことに取り組んでいます。

統計って何?

統計とは人口、経済、および道徳的行動を研究し、定量化し、そして記述するために、18世紀から20世紀初頭にかけて古典的な統計モデリング技法が開発されました。しかしながら、それらは一般的に現在利用可能なものよりはるかに小さいデータセットに適応されました。この分野は、統計学者が確率を推定することを可能にするベイズモデリングの出現により、1980年代に人気が高まりました。

(米国における)1962年の医薬品改正で、上市の承認を得るためには薬の有効性を示すことが必要になったため、創薬において統計モデリングは必要不可欠となりました。今日の統計は一般に、患者集団を治療するためのプラセボまたは標準的な治療よりも新たな治療がどれほど効果的であるかを評価するために使用されています。

統計は、変数間の関係について推論すること、つまり入力変数が出力変数に与える影響を判断することを目的としています。しかし、変数間の関係が不明な大量の入力データを含む大規模データセットにはあまり適していません。各入力変数の統計的有意性を評価することは面倒です。統計モデリングでは、モデルを実行する前に、統計学者が分析対象の問題または質問、特にデータ分布について厳密な前提を立てる必要があります。

人工知能

人工知能という言葉は、この10年間で流行語大賞の殿堂入りするほどまでに広まりましたが、それは現代のコンピューティングの発明を起源とするので、それは分析的モデリングの分野においては新しいものではありません。 AIは、人間の知能、特に物や音の認識、話す、翻訳、社会的な取引や創造的な仕事の実行などの人間のスキルを理解し、この知能を機械に再現することを目的としています。

ライフサイエンスでは、AIは実験室で癌細胞を区別し、X線のような高品質の医用画像のパターンを識別し、そして複雑なゲノムデータのセットを分析するように教えられます。 AI分析では、消費者データ、治療データ、診断、ラボテスト、およびその他の自然言語で保存された情報をすばやく組み合わせて、予期しない、または新しいパターンを識別し、治療効果や患者行動を予測することもできます。

機械学習

機械学習は、明示的にプログラムされた指示に従うだけではなく、データから学習できるシステムを構築することを目的とした、コンピュータサイエンスと人工知能のサブフィールドです。機械学習は、安価な計算能力と、コンピュータが「学ぶ」ことができる大量のデータが利用できるようになったことで実現しました。

機械学習は統計的推論の基礎に基づいて構築されていますが、コンピュータが洞察を発見し、人間のアナリストが予想できない分類を行い、超人的な精度で予測を生成することを可能にします。

機械学習には、教師あり機械学習、教師なし学習、および強化学習などいくつかの種類があります。教師あり機械学習では、データセットによって提起された問題に対する答えを含むデータがコンピュータに供給されます。将来のデータセットについて予測するようにコンピューターに教えるために使用されます。教師なし学習では、最初に出力データや回答データは含まれませんが、アルゴリズムはデータ内で見つかったパターンについて決定を下すことができます。行動心理学に触発された強化学習は、特定の目的を達成するためにそれを教えるためにコンピュータに報酬と罰を与えることを含みます。これは、GoogleのコンピュータプログラムAlphaGoが人間の囲碁チャンピオンを倒すために使用した手法です。

教師なし学習は、関連性のあるクラスタを生成するためにオミックスデータを処理する、またはデータ内の関連付けの形をとることができます。データ品質のアプリケーションでは、データベース全体を見ながら支援を得ずに関連マッピングを作成し、2つのデータポイント間の関係を識別することができます。これは、そうでなければコンプライアンス問題を引き起こす可能性があるデータセット内の予期しない矛盾を識別するために使用できる可能性があります。

データ量は指数関数的に増加しており、ライフサイエンス企業が追いつくことがますます困難になっています。機械学習アルゴリズムは、データの分析や関連する情報の決定に役立ち、膨大なデータ量から洞察を引き出すのに役立ちます。これはすでに他の分野や業界で使用されているアプローチであり、臨床研究に大きな可能性を秘めています。統計と機械学習の組み合わせが将来の臨床試験を推進することを期待しています。

Medidata NEXT 2019 TokyoではMedidata Rave Omicsについても紹介します。ぜひリンク先よりご登録の上ご参加ください!

(By Japan Marketing)

本ブログ記事は2019年3月26日に公開されたGeeks Talk Clinicalでの英文投稿の抄訳となります。原文はこちらをご参照ください。

 

ニュースレター配信登録