アルコールとデータサイエンス – そもそも機械学習とは? –

最終更新
Category:
記事一覧

contents section

機械学習とは

前回の『アルコールとデータサイエンス – scikit-learn wine datasetの活用 -』では、アルコール飲料であるワインや日本酒とデータサイエンスのかかわりについて触れ、最後にはLightGBMを用いたワインに使われている品種に対する多クラス分類予測を紹介しました。

しかしながら、前回の記事だけでデータサイエンス、特に機械学習のイメージを掴もうとするのは難しかったと思います。そこで今回は、機械学習ってそもそも何なのか?という観点で説明させていただきたいと考えています。

では、 機械学習ってそもそも何なのか? 機械学習とは、次のように定義されることもあります。

機械学習とは、言語やゲームなどをはじめとした人間の様々な知的活動の中で、人間が自然と行っているパターン認識や経験則を導き出したりするような活動を、コンピュータを使って実現するための技術や理論、またはソフトウェアなどの総称である。

IT用語辞典バイナリ

人間は感覚器を通して得られた刺激を、これまでの経験に基づいて、特定のパターンであるとして認識して、過去の経験と紐づけることができます。

例えば、生後間もない赤ん坊に初めて猫を見せてたとき、赤ん坊はそれを視覚から入ってくる新しいパターンであると理解しても、それが何であるか一般的に理解することはできません。その後徐々に年を重ねるにつれて、実物や写真などで猫を見る機会を経て、徐々に『このパターンは猫である』と認知するようになっていくのです。

コンピュータの進化が進むにつ入れて、人工知能というものが作られるのではないかという空想は、フィクションは長い間の中で扱われてきました。

しかしながら、それはフィクションの話であって人間が持つ高度な認知能力を、究極的には単純な回路の組み合わせであるコンピュータによって再現することは、長い間できないとされてきていました。

一方で、人間の知的営みの一つの側面であるパターン認識を、コンピュータで再現できないかと研究と工夫がなされた結果、限定的な問題に対して、そのようなことができる仕組みが作られてきました。これが機械学習であると言えます。

機械学習分野での古典的名著として知られているものの中に、『パターン認識と機械学習』と呼ばれる本があります。これは、機械学習が人間も行っているパターン認識に根差したものであることに基づいていると考えられます。

https://www.maruzen-publishing.co.jp/item/b294524.html
パターン認識と機械学習

つまり機械学習は、『ある一連の情報から特定のパターンを抽出する活動を、コンピュータによって可能にしたものである』といえます。

ではこのコンピュータによって可能になったパターン認識を、どのように活用するかについては。様々な種類、それぞれの目的があります。そこで今回は、機械学習を3つの種類に分類して、説明したいと思います。

機械学習の3つの分類

機械学習を分類するときに、次の3つの種類に分けることが可能です。

  • 教師あり学習
  • 教師なし学習
  • 強化学習

順を追って説明させていただきます。

一つ目の教師あり学習と、二つ目の教師なし学習は、学習データの違いによって分類されます。

教師あり学習とは

教師あり学習概略図

教師あり学習とは、『ラベルや予測値などが与えられるデータや問題に対して、未知データに関する予測をおこなう』機械学習のことを指します。

例えば、同じ微細藻類の仲間であるクロレラとユーグレナのデータを、それぞれどちらがどちらであるかわかる形で予測分類モデルに学習のために渡したとします。

このとき、予測分類モデルは、それぞれのグループにおける特徴的なパターンを抽出して、どちらがなんであるかを判別できるかどうかを学習しようとします。そして、未知のデータ(学習に使ってない)ものに対して、適切に予測分類ができていることが、このモデルの性能を計るものになります。

前回のワインのデータセットに対する学習は、この教師あり学習にあたるものです。また、多変量解析で一般的な回帰分析も、教師あり学習の一種としてみなすこともできます。

教師なし学習とは

教師なし学習概略図

教師なし学習とは、『データ自体の持つ特徴的なパターンを、ラベルや予測値という観点に基づかず、そのまま人間が理解しやすいパターンに変換する』機械学習を指します。

教師なし学習は、教師あり学習に比べると少し抽象的に聞こえるかもしれません。例えば、クロレラとユーグレナのデータを、そのままモデルに入力して、そのモデルが持つアルゴリズムに基づきパターンを抽出しようとするものがあります。

教師あり学習をするためには、①データがそれなりの量が存在する②かつそれらに適切なラベルや予測値がついている、という2つの要素が必要になります。

一方で、世の中には必ずしもそういうデータだけがあるわけではありません。データ量が少ないものもあれば、ラベルを付けることに金銭的時間的コストがかかりすぎて目的に合致しないこともあります。

ですから、ラベルがない状況やデータ量が少ない状況などで、データにどのようなパターンや傾向があるかを見るために、教師なし学習が使われたりすることがあります。

強化学習とは

最後に説明するのが強化学習です。強化学習はこれまでの機械学習とは少し異なったものになります。

強化学習概略図

強化学習とは、『エージェントと呼ばれる存在が、その環境の中で受け取れる報酬を最大化しようとする中で、目的となる状態や解を実現させることを目的としている』機械学習を指します。

先述した2つのものとは異なり、ある環境での最適な振る舞いはどのようなものか、というパターンを学習するものになります。

例えば、仮想的なユーグレナの培養環境があったときに、その環境においてエージェントがユーグレナが増えたときに報酬が与えられるような環境でエージェントに学習をさせると、エージェントがこの環境における最適化を導き出してくれるということが、この強化学習の例になります。

これはもちろん仮想的なもので実際の培養に役立つとは限りません、実際の研究においてはもっと想定していない発見や手法によって研究は進歩していきます。ただ、あるパラメーターや組み合わせの最適化をしたいときには、こういった手法が役立つ可能性もあると考えられます。

最後に

以上が、機械学習についてのまとめになります。重要なことは

  • 機械学習とは、データの中に存在するパターンの抽出、そして活用である。
  • 機械学習には様々なものがあり、目的やデータに合致したものを選択する必要がある。

以上で、機械学習の全体像になります。では次の回で、ユーグレナでおこなったアルコール飲料に対する機械学習の応用について説明させていただきたいと考えています。

Category:
記事一覧