Open Data Lakehouse
Financial Services
Japan
株式会社日本総合研究所(JRI)は日本を代表するメガバンクの1つである三井住友フィナンシャルグループの一社で、シンクタンク・コンサルティング・ITソリューションの3つの機能を有する総合情報サービス企業です。企業や社会に対する新たな課題の提示・発信から、課題に対する解決策の提示と解決への取り組み、新たな市場や事業の創出など、多岐に渡る事業により、企業や社会が求める創造的な付加価値を生み出しています。
日本総合研究所は、銀行(SMBC)やクレジットカード会社(SMCC)を含む三井住友銀行(SMBC)グループのIT中核会社として位置付けられます。同社はClouderaのプラットフォームを活用し、クレジットカードの利用状況を分析して、さまざまな洞察を抽出しています。このプロセスにより、データの管理と有効活用が可能になります。
機密性の高い金融サービスのデータを安全性を担保した形で分析したい
SMBCグループでのデータ分析の実例としては、三井住友カード株式会社(SMCC)が提供するサービス「Custella」がよく知られています。Custellaでは、SMCCが保有するキャッシュレス決済のデータを匿名化/統計化し、顧客属性や顧客行動などに基づいて集計した購買実績データをさまざまな切り口で集計・見える化することで企業のマーケティング支援を行うサービスです。Custellaは、JRIのメンバーも参加する形でSMCC社内で2018年にクラウデラベースで構築され、その後クラウデラは2020年からJRIに移管されています。日本総合研究所 データ・情報システム本部(データエンジニアリング)部付部長である小林 直樹氏のチームは、エンハンス開発と言われる機能開発の部分を主に担当するほか、JRI社内で同様のデータ分析基盤を構築/運用してさまざまなサービスの実装に繋げる役割を担っており、クラウデラを日々活用頂いています。
データ分析基盤ではクラウドの活用例も増えていますが、小林氏は「2018年の段階ではククラウドに機密データを置く際の安全性が完全に担保されていませんでしたし、将来の規模拡大なども視野に入れると安心安全にデータを管理できるのはオンプレミスのクラウデラという判断でした。今現時点においても機微情報を本当にクラウドに自由に上げて大丈夫なのかは判断が難しい状況ですので、適切な選択だったと思います」と言います。
スケールアップ:増大するデータ量と分析ニーズへの対応
データの爆発的増大に関してはさまざまなところで言及されていますが、クレジットカードの決済情報に関しても事情は同様で、「かつての5年後の状況が今は1年後に来る、といった加速が繰り返されています」(小林氏)という状況に対応しなくてはなりません。スケールアップ型の大規模なハードウェアを予測に基づいて導入するのも難しく、投資が無駄になってしまうリスクもあります。一方分散型のHadoopの仕組みなら比較的小サイズのサーバを順次追加していくことで対応できる点がメリットとなります。
小林氏のチームが担当しているエンハンス開発では、たとえば地図情報と組み合わせて商圏分析をしたいといったニーズが出てきた場合に上流のシステムから持ってくるデータを増やして新たな分析を可能にする必要があります。そのため、毎回いちいち開発しなくて済むように汎用的な仕組みを用意してデータを取り込めるようにするなど、「データ・パイプラインをさらに快適にしていくという仕事が最近は多くなってきています。」(小林氏)と述べています。そうした仕事を進めていく中で同氏は現状の大きな取り組みとして「既存のデータウェアハウス(DWH)のリプレイス」「基幹系システムからのオフロード」「データの民主化」の3本柱に取り組んでいるそうです。
既存のDWHのリプレイスは、クラウデラが想定以上に高性能だったことから実現した話です。既存のDHWはさまざまな問い合わせに対し、データに基づいて迅速に回答することを目的としたシステムですが、Hadoopは高速応答にはさほど強くないというイメージがあったものの実際にはかなり高速に回答が得られることが分かったといいます。アプライアンス型DWHでは急増を続けるデータ量に対応するためのシステム拡張の規模を決めるのが困難ですが、これを分散型のHadoopに移行することで対応が容易になり、運用コストの削減も実現します。
また、金融サービスの根本を支える基幹系システムはまだまだメインフレームが支えているのが現状ですが、メインフレームはCPU課金なので処理量を増やすとその分利用料が嵩みます。データ量が増大を続けている中、メインフレームの処理量も増えていますが、メインフレームでなくても可能な処理については可能な限りオフロードすることでメインフレームのCPU課金の額を減らすことが可能になります。メインフレームからデータを外に出してもそのセキュリティが担保できるのかが問題ですが、クラウデラのデータ・セキュリティの高さによってそのニーズに応えることができました。
最後のデータの民主化も、クラウデラのセキュリティの高さによって実現した取り組みです。
Clouderaを使用すると、カード番号などの機密情報は、ユーザーの権限に基づいてマスク処理することができ、異なるユーザーに対して異なるレベルのデータ可視性を実現できます。
ClouderaとActive Directoryとの統合により、ネットワーク内のユーザーとリソースの管理と認証を支援し、安全なデータ処理と効率化された管理を行えます。
クラウデラではActive Directoryと連携してユーザーおよびリソース権限を把握します。設定もあらかじめGUIインターフェイスを通じて見えなくしたいデータを指定するだけなので、開発コストも掛からずに誰でもデータを安全に扱える環境が実現します。「アプリケーションレベルで、同様の扱いができる製品もありますがクラウデラの場合はデータのある場所で見えなくできるため、安全性が高いと思います」(小林氏)と高く評価されています。これにより、データを参照する現場の作業者がそれぞれ独自にデータを活用できる民主的な作業環境が実現できる途が拓けました。
技術の進化にキャッチアップ
クラウデラ製品はオープンソース・ソフトウェアをベースに検証済のパッケージとして提供されています。この点に関して日本総合研究所 カード基幹モダナイズタスクフォース 部付部長 兼 データ・情報システム本部 上席推進役の飯尾 佳之氏は「HadoopやApache関連のオープンソース・ソフトウェアでは、ちょっとしたバージョンの違いや参照するライブラリの違いなどによって動かなかったり不整合を起こしたりするので動かすのが面倒ですが、クラウデラ製品では全部稼働保証されていますのでつまらないところで止まってしまうことなく開発できます」と評価しています。同時に、急速な進化を続けているオープンソースの成果をいち早く採り入れることができるため、変化の速い現在の状況において、常に最新技術を活用したシステムを実現できる点がメリットとなります。クラウデラはサポートにも力を入れており、技術者向けの研修プログラムなども提供しています。飯尾氏は、「オープンソースに関してそのような研修を継続的にやって頂けるところは少ないので助かります」と評価しています。
最新技術に関しては、現在オープンソースプロジェクトとして注目されるApache Icebergにもクラウデラは対応しています。Icebergを利用すると、たとえば従来のデータベースであればデータ構造に対して新たに追加のデータ項目を増やしたいとなったらスキーマを再定義して既存のデータを全て作り直して登録し直すような大がかりな作業となってしまうところを、メタデータ部分の変更だけで柔軟に対応できるようになるといいます。JRIでは近々Icebergを導入することを予定しており「これを採用することでまた一段階上のデータ管理が実現するのではないかと考えています」(小林氏)と期待されています。
同様に、近年急速に進化して適用事例が増えているAIに関しても、クラウデラではプラットフォーム側でさまざまなAIモデルと組み合わせた活用が出来るような対応を行っています。クラウドでの対応はもちろん、データ・セキュリティを重視するエンタープライズユーザーのニーズを踏まえてオンプレミスでの対応も同様に強化している点が特徴で、データのある場所に最新のAIモデルを持ってきて活用する、という運用ができるものと期待されます。JRI/クラウデラ両社ともAIの調査研究には深い関心をもっており、共同でPoCを実施するなどの取り組みも行っています。
現在はデジタルデータが人々の日々の暮らしや企業活動全般を支える重要な存在としてますますその価値を高めています。中でも日本有数のメガバンクグループの情報システム全般を手がけるJRIは、クラウデラ/Hadoopをデータ基盤として活用しつつ、各事業会社をデータを通じて連携させ、新たな価値を生み出しています。