データカタログは、自律分散組織を円滑に進める上で重要な役割を果たします。
データカタログ整備を含めたデータマネジメントを専門組織に任せるブームが過去に一時期的にありましたが、この体制があくまで過渡期であり一つの部門に負荷をかけすぎるため、長期的に目指す姿ではありません。
そんな中で、データカタログを中心に置きつつ、各ステークホルダーが自由にデータカタログのプラットフォーム上でGive&Takeし、データの提供と利用へのモチベーションを感じてもらう体制とアーキテクチャづくりこそ持続可能な体制かと思い、今回の記事の執筆に至りました。
背景: データの所在と管理を分散化
データの所有権とマネジメントを分散化することに重点を置いたアーキテクチャ(データメッシュ構造)において、データカタログが中心的な役割を担います。
データカタログの存在により、「データがほしいユーザー」、「データを提供するユーザー」が自由に出会い、「データ管理したいユーザー」が総合的に利用状況、データの質と量を把握することを可能にします。
以下が今回のアーキテクチャ図となります。

必要な時に必要なデータをすべてのユーザーに提供 (Just In Time)
データカタログの価値としては、ユーザーにリアルタイムに情報を提供できる仕組みを可能にすることにあります。さらに日本の労働人口が日々減少し、定型の運用作業に人員を割けなくなっていくなかで、データを探したいユーザーのニーズだけでなく、データを提供したいユーザーやデータを管理する統制部門、システム部門のニーズも今回のアーキテクチャで考慮されております。今回の自助プラットフォームの実装では、様々な連携APIやWebhookを利用しております。

ユーザーにデータ探索と共有の体験を提供
リアルタイム連携することで、データカタログの陳腐化を防げると同時に、定型作業のような「面倒くさい」ことを自動化させつつ、ユーザーに最高なデータ探索・共有の体験を提供できます
あらゆるメタ情報と結びつける
自助プラットフォームの中で、フリーランスのデータエンジニアがコードベースで書いたデータスキーマ、いわゆるデータのメタデータのみならず、データスチュワード/データアーキテクトが定めたテーブル権限定義や運用ルール、定期的に集計されるユーザー利用状況などあらゆる情報も取得できます。各データのステークホルダーが各自プル型で情報を取得するようになります。
※我々の新しい取り組み「フリーランスプラットフォームの活用」について、別の記事を参考していただけるとうれしいです(リンク:https://future-architect.github.io/articles/20241029a/ by フューチャーアーキテクト 高瀬陸)

ユーザーの業務とデータの認知マップ
あらゆるメタ情報を集約しても、まだ不十分です。なぜならば、ユーザーによって職種や今のIT経験にばらつきがあるからです。そういった性質を持ったユーザーを分類し、ユーザー群ごとに一番詳しい業務用語からデータを検索することで、自然とテーブル情報にたどり着けるように設定しております。
それに加え、ITリテラシーによってポータルサイトの入口を細分化するよう工夫しております。
自律分散組織を支えるアーキテクチャ
データカタログの自動処理レイヤについては、スキャニングレイヤとソーシャルレイヤで構成され、GCP内の情報を取得して表示したり、UIからの変更をBigQueryに反映したりできます。今回は、ユーザー側では既存のグループウェアNotionをすでに利用されていることに加え、複数軸で情報のビューを表示できることもあり、そのままNotionをデータカタログのUIとして採用することになりました。

以上が今回の自律分散組織をささえるアーキテクチャとそのポイントを紹介させていただきました。なにかヒントになれたら幸いです!
参考書籍
- 大規模データ管理 ―エンタープライズアーキテクチャのベストプラクティス (kindle)