機械学習とは「データから規則性や判断基準を学習し、それに基づき未知のものを予測、判断する技術」と人工知能に関わる分析技術を指しています。
Treasure Data CDPも、機械学習を用いて予測モデルを生成する機能「Predictive Scoring」や機械学習の分野で最もシェアが高いプログラミング言語のPythonを実行できる「Custom Script」を持っており、特定行動をする可能性のある顧客を予測することができるようになります。
ただし当然ながら、大量のデータがあればすぐに精度の高い予測モデルが作られるわけではありません。そこには、予測モデルを開発するためのプロセスが存在します。どのようなプロセスで開発されるのでしょうか。トレジャーデータのデータマネジメントチームで統計モデルの開発・実装を担当している小野が解説します。
トレジャーデータ株式会社
Data Management
予測モデルとは、顧客の購買確率予測や集客予測に利用される統計モデルです。購買確率を予測することで営業先の優先順序を決定したり、集客人数や機械の故障率を予測することで社内のリソースを管理したり、解約率を予測することで将来の収益を推測したりします。近年はAIや機械学習の発展や多量のデータを扱うことにより、その精度を大幅に向上させることができています。
予測モデルは、入力側のデータを入れると予測結果が出力される構造になっています。予測には数値予測、確率予測、カテゴリ予測などがあり、例えば以下のような構造になっています。

機械学習は予測モデルのアルゴリズムとして使われることが多く、そのモデル開発は開発者の流儀や使用するアルゴリズムなどの違いがあるため、誰もがいつも同じプロセスを踏むわけではありません。下記では、私が踏んでいる手順の大枠を説明します。
今回は、私が行っている予測モデル開発のプロセスを大枠で解説しました。プロセスの概要を掴んでいただけたら幸いです。