Supershipの高度な技術力を支えるメンバーそれぞれのスキルの基盤となった「過去」を紐解き、Supershipのテクノロジーの「現在」にどう生かされているのかを分析し、さらに、テクノロジーの「未来」を考えていく連載企画「Inside SuperTech」。
第2回は、Supershipの「データサイエンス&エンジニアリング部」の部長としてデータサイエンティストやデータエンジニアを率いる黒柳 茂が登場。
データアナリストとしてのキャリアのスタートから、現在のSupershipのデータ分析を支える技術の裏側まで、インタビューを行いました。
【過去 -PAST-】
「仮説は?」「検証方法は?」根付いた“データ第一”のカルチャー
Supershipにジョインする前は、Facebook Japanで「SMB Analyst」として中小企業(SMB=Small & Mid Business)向けの広告などの施策を担当していた黒柳。
Facebookページの管理や、QRコードステッカーの企画などを展開する一方、広告の配信データを分析し更なる効率化に向けた提案も行っていました。
「Facebook広告を販売する代理店に対し、その代理店がいくら売り上げていて、前月比でどれくらい伸びたのかなどをSQLやPythonを使って分析し、代理店ごとに提案をしていました。
Facebookの広告には、ページの“いいね”を獲得するための広告やビデオ広告など、さまざまな種類があるのですが、その種類別や、さらに細かくクリエイティブ単位でみるなど、さまざまな角度から広告の配信効果を分析していました。その結果をもとに、Facebookのアルゴリズムに合わせた運用を提案するなど、細かい部分まで中小企業を中心とするクライアントへフィードバックしていました」
Facebookでは、世界中のメンバーを対象に、データを分析するための1ヶ月のトレーニングが提供されるなど、どのような立場のメンバーであっても「データを分析し仮説検証すること」がプロセスとして浸透していました。
この時の経験が、現在Supershipでチームを率いる際にも影響しているといいます。
「Facebookでは、例えば営業職同士のディスカッションであっても、まず最初に『仮説は何ですか?』という問いから始まるなど、仮説という言葉が1日に何十回も出てきます。そして仮説を立てた後は、それを検証する方法はあるのか?という話になります。常に仮説と検証をセットで行うということが文化として根付いていました。
入社当初は、それまで在籍していた会社とカルチャーが全く違ったこともあり戸惑いはありましたが、Facebookではそのカルチャーを浸透させるための工夫がされていたこともあり、徐々に慣れていきました。例えば、『Data Wins Arguments』(データは議論を制する)というFacebookを象徴するフレーズがあるのですが、そのポスターが社内のあちこちに貼られていたり、私の好きな言葉でもある『This Journey 1% Finished』(この旅はまだ1%しか終わっていない)を体現するため、世界中のどのオフィスも天井のダクトがむき出し=未完成になっていたり、そういった形で社内カルチャーを浸透させてメンバーひとり一人に腹落ちさせていました」
「現在のチームには、特に『データ・ドリブンであれ!』といった教育はしていないのですが、基本的に皆『根拠はどこにあるのか』『どうやって検証するのか』というところまでセットで考え、全員動いています。ひとり一人のマインドにちゃんと、私が過去学んだ考え方をインストールできているかなと感じています」
【現在 -NOW-】
「機械学習モデル」の作成工数を大幅に削減
Facebookでの経験を経て、Supershipにジョインした黒柳。
まず、Supershipが保有するペタバイトを超えるデータを分析するための基盤を作り上げるところから「泥水を啜りながら、トライアンドエラーを経て作り上げた」と苦笑混じりで話します。
分析基盤を半年かけて作り上げたあとも、改善のための開発は進んでいき、現在は以下のような強みを持つまでになりました。
「まず1つは、クライアントニーズに合わせ、予測モデルを自動的に作れるようになっていることです。
目的変数/説明変数や、訓練データやテストデータを指定すると、複数の機械学習アルゴリズムとハイパーパラメータの組み合わせを、ツールが自動実行してくれます。
今までは、上記のアルゴリズムとパラメータチューニングはデータサイエンティストの匠の技であり、これらを一つ一つトライアンドエラーを重ねてモデルを組み上げていく作業が必要でした。
しかし今では、このツールが数十〜数百にも及ぶ予測モデルを自動で作ってくれて、その中で一番良いモデルを教えてくれることによって、モデル構築にかかる工数が大きく減少しました。
類似のサービスは他にもあることはあるのですが、結構な費用がかかってしまうので、ならば自社で作ろうと。1人のサイエンティストが半年ほどかけて開発し、今では社内ツールとしてある程度運用にまわってきています。いずれは正式版として外部にまでリリースしたいと考えています」
「もう1つは『特徴量プール』です。クライアントの“申し込みを最大化する”などの要望に応えるために、予測モデル(今後コンバージョンを起こしそうなユーザーを予測する手法)を作ったりするのですが、そのために必要となるのが『特徴量』です。
予測モデルを作る際には、毎回、特徴量を設計しなければなりません。ターゲットとなるユーザーの年代や性別など、特徴を抽出するのですが、この作業を毎回手作業で行っていて、とても手間のかかる作業になっていました。
そこで開発した『特徴量プール』には、ユーザーのアクセスパターンや、性別・年代といったデモグラフィック属性、興味関心などがまとまっています。さらにそれが毎日更新されていくので、予測モデルを作るのがだいぶ楽になりました」
この2つを組み合わせることで、予測モデルの作成にかかるリソースは大幅に削減されたといいます。
「データサイエンティストでも、予測モデルを作るのはそう簡単なことではなく、チームの最前線で開発を進めているメンバーにはある種の“職人技”のようなものが確立されています。1つ目に話した、機械学習モデルを自動に生成できるツールにはそのナレッジが組み込まれているので、ある程度質の高いモデルが誰でも作れるようになっています。
特徴量の選出から、アルゴリズム、学習回数といったパラメーターなどを1個ずつ、私たちが寝てる間に試してくれて、翌朝起きると“このパターンとこのパターンとこのパターンが1番だったのでこれをモデルとして使ってください”という結果が出てきます。これにより、それまで人力で短くても2〜3週間かかっていた作業が3時間程度で完了するようになりました」
【未来 -FUTURE-】
あらゆるリスクを予測し、豊かな暮らしに貢献する
データ分析基盤の改良を進め、工数の大幅な削減には成功しましたが、それでも自らが描くゴールまではまだ到達していないと黒柳は話します。
「まだ道半ば、20〜30%程度だと思っています。ポジティブに考えればまだまだ伸びしろがありますね(笑)。
現状は広告配信を通じたデータをメインに扱っておりますが、今後は様々な企業とアライアンスを組んでいくことで、例えば、カメラ等のコンピュータビジョンやIoTやセンサーデータなど、多様なデータを扱えるようになると考えています。例えばビデオカメラのデータからだと『年代・性別』といった属性データだけではなく、『その人の挙動』や『手の位置がカバンにどれくらい近いか』といった特徴量をもとに、万引きなど犯罪を防止するソリューションも出始めています。万引きの経済損失は年間で4000億円を超えるとも言われているので、防犯など社会貢献につながる事業展開もしていきたいですね。
ほかにも、自動車の運転が丁寧な人は保険料を割安にするなど、データを活用し予測モデルを作っていくことで、マーケティングだけでなく、より上流のサービス設計や戦略の領域へとデータの導入を広げていきたいと思っています」
最後に、今後データ分析で社会に貢献していきたいこととして、黒柳は改めて未来を見据えながら話してくれました。
「機械学習は、ガンの早期発見や慢性疾患による早期死亡のリスクの予測など、人々のより平和な暮らしの実現にすでに大きく貢献しています。
昨年、AIを活用した膵臓癌のより安全な治療方法を13歳の少年が開発したことが話題になっていましたが、今後、優れた技術者がデータ分析を通じ、あらゆる分野でさまざまな常識を大きく変えていくようになっていきます。その中で私自身も、データを通じて人々のより豊かで幸せな暮らしに貢献していきたいと考えています」