こんにちは、TIGの玉木です。先日Professional Data Engineer認定資格を取得しました。この記事ではその振り返りをします。
筆者について、受験のモチベーション
新卒から3年半ほど機械学習モデリングを行っており、ここ半年はAWSでサーバーサイドの実装を主に担当しています。業務でGCPを扱ったことはありませんが、社内で「みんなで資格とっていきましょう!」のような機運があり、以前から機械学習とも関係があるデータエンジニアリングに興味があったため、今回Professional Data Engineer認定資格を受けることにしました。
出題範囲
以下公式サイトの認定試験ガイドからのサマリです。
- データ処理システムの設計
- データ処理システムの構築と運用化
- 機械学習モデルの運用化
- ソリューションの品質保証
1, 2は近い内容なのかなと思います。例えばバッチ/ストリーミング処理をする場合、どのようにデータを受け取り、どのように変換し、どのように保存するか、などが理解している必要があると思います。
3は機械学習に関する出題です。学習済みモデルとはなんだっけ? 分類問題、回帰問題の違いってなんだっけ? うまく学習できていないときどうするんだっけ? のようなことが理解できている必要があると思います。自分には機械学習のバックグラウンドがあったため、機械学習の問題に関しては楽できました。
4はセキュリティやモニタリングに関する問題が出ます。自分はセキュリティ周りの問題が苦手で苦労しました。
やった勉強
使用した教材は以下3つです。
- coursera: Google Cloud 認定の準備: クラウドデータエンジニア プロフェッショナル認定証 日本版 プロフェッショナル認定
- Google Cloudではじめる実践データエンジニアリング入門
- スケーラブルデータサイエンス データエンジニアのための実践Google Cloud Platform
最初に取り組んだのはcourseraのGoogle Cloud 認定の準備: クラウドデータエンジニア プロフェッショナル認定証 日本版 プロフェッショナル認定です。結構な量があり、終えるのに根気が要ります。また、よくスキルバッチキャンペーンといったcourseraの授業が1ヶ月ただになるキャンペーンをGoogle Cloudが行っているので、タイミングが合えばその機会に取り組むのをおすすめします。
ここで出題範囲の内容を6〜7割カバーできます。コース1から5でデータパイプラインの設計実装を学んで、コース6の最後で模擬試験を行う、といった授業になります。自分はこの模擬試験があまりできなくて結構焦った思い出があります。先述の「自分はセキュリティ周りの問題が苦手で苦労しました」のように、自分の苦手分野がわかるので、コース6の模擬試験、もしくは公式サイトの模擬試験をある程度勉強した後に受けてみるのをおすすめします。
個人的にcourseraには非常にお世話になっているのですが、動画コンテンツであるため、復習がしづらく、本に比べて学習が疲れると思っています。そこでいくつか本を買いました。
次に取り組んだのはGoogle Cloudではじめる実践データエンジニアリング入門という今年の2月に出た本です。試験勉強という観点では、実際の問題に近い問題をたくさん解く方が手っ取り早いかもしれませんが、業務に役立てるという観点ではこの本を一通り試したのは非常によかったです。データ基盤とは何か? GCPでデータ基盤作るにはどうすればいいか? といったことが書かれています。BigQueryの内部アーキテクチャ、クエリ最適化といった話や、権限管理の話が自分にとって特に参考になりました。好みの問題があると思うのですが、動画コンテンツが苦手な方は、最初のデータ基盤周りのインプットはこちらの方が楽かなと思います。
次に取り組んだのはスケーラブルデータサイエンス データエンジニアのための実践Google Cloud Platformです。原著は先程紹介したcourseraのコース1の先生が書かれた本で、Google Cloudではじめる実践データエンジニアリング入門に比べてケーススタディに沿ったハンズオン部分が多めといった印象です。courseraの授業やGoogle Cloudではじめる実践データエンジニアリング入門と重複する内容もありますが、少し違ったケーススタディで再度手を動かしたい方におすすめです。
受けた感想
自宅のネット環境が不安定なので、渋谷のテストセンターで試験を受けてきました。快適に受けられたので自宅のネット環境に不安がある方にはおすすめです。
テスト終了後、合格という文字が画面に出て、テストの2日後に正式にデジタル認定書のリンクが書かれたメールが届きました。
まだ業務でGCPを使ったデータ基盤構築をしてはいないのですが、実際にそのような業務にあたることがあればスムーズに入れるんじゃないかなぐらいの知識を得たかな、と思っています。自分のように機械学習のバックグラウンドがある方は、結構取り組みやすい分野だとも思います。難易度もそこまで高すぎるわけでもないので、これからデータ基盤周りのことを学びたい方には、勉強のきっかけとしておすすめの資格試験だと思います。
まとめ
Professional Data Engineer認定資格を取得するにあたって取り組んだことを紹介しました。これからProfessional Data Engineer認定資格を受けてみようかなと考えている方に参考になれば幸いです。