Future Tech Blog
フューチャー技術ブログ
Home
Categories
DataEngineering
DataEngineering
カテゴリの記事
40
投稿
29
著者数
694
総シェア数
83
Twitter
0
Facebook
330
はてブ
281
Pocket
S3 Tables×AWS Glueで作る次世代データ分析基盤
モダンなデータ分析基盤のベストプラクティスについて、S3 Tabalesの活用事例とともに紹介いたします。
2026.06.05
S3
Glue
データレイク
ポスト
シェア
はてな
AI-ReadyのためのAI駆動のデータモデリング
多くの企業がAI活用を模索する一方で、「AIに何を食べさせればよいか分からない」「データが散在・サイロ化していて使えない」といった課題に直面しています。フューチャー恒例の秋のブログ週間を機に、今回はAI(特にGEMINI-CLI)を利用して、どのようにAIと協働してデータモデリングできるか、直近のデータモデリングのトレンドを調べました。
2025.11.05
GoogleCloud
データモデル
Gemini
pandas
dbt
ポスト
シェア
3
Rustベースのdbt fusion engineを使ってみた!
dbtは、データエンジニアリングの現場に革新をもたらしましたが、プロジェクトが大規模になるにつれて、いくつかの課題も浮き彫りになってきました。その課題を解決するために開発された次世代のエンジン「dbt Fusion Engine」について...
2025.08.28
dbt
ポスト
シェア
2
はじめてGlue Python Shell Jobを使う時のつまづきポイント集
業務でGlue Python Shell Job(以降、Python Shell)を利用する機会があったのですが、「Lambdaとかだと簡単にできるのに、Python Shellだとできないんか~」とか、ドキュメント上でPySparkジョブ or Python Shellのどちらについて記載しているのか分かりにくかったりと...
2025.08.22
AWS
初心者向け
Glue
ETL
Glue Python Shell
ポスト
シェア
はてな
ローカルKubernetesでdbtをコンテナ化して実行してみる
データ変換ツール「dbt(data build tool)」をDockerコンテナ化し、Kubernetes上で実行する手順を紹介します。
2025.06.30
Docker
Kubernetes
dbt
ポスト
シェア
はてな
Pocket
組織のデータを<コモンズ>として管理してみてはどうだろうか?
私が近年興味を抱き独学を進めている分野がデジタルアーカイブやレコードキーピングで、これらの知見をデータマネジメントの分野に活かすことはできないか模索しはじめました。
2025.05.28
データマネジメント
ナレッジ管理
ポスト
シェア
3
Pocket
初めてのAmazon SageMaker Unified Studio
カタログ管理やデータ活用を行うツールとしてAmazon SageMaker Unified Studioの調査・検証を行ったので触ってみた所感やポイントなどつらつらとこの記事に書いていこうと思います。
2025.05.27
AWS
データマネジメント
データカタログ
SageMaker
ポスト
シェア
はてな
Pocket
初めてのMicrosoft Purview統合カタログ
データカタログを調査することになり、その一つとしてMicrosoft Purviewについて調査を行いました。その際に前もって知っていれば理解が早かったなと思ったことや触ってみて気になった箇所をまとめておきます。
2025.05.26
Azure
データマネジメント
データカタログ
ポスト
シェア
はてな
Pocket
dbt Core × BigQueryを使ったデータ変換をやってみた
データ分析基盤の構築や運用において注目を集めているdbt の入門記事です。dbtを活用して、データ変換の一連の手順を示すことで、これからdbtを試してみようと考えている方の導入を支援できれば幸いです。。
2025.05.15
GoogleCloud
BigQuery
dbt
ポスト
シェア
1
Pocket
はじめてのStreamlit with Google Cloud
Streamlitは、Pythonを使って簡単にインタラクティブなWebアプリケーションとして共有できるライブラリで多くの採用実績があり、Snowflakeが買収したため今後の発展も期待できます。本記事では、Google CloudのVertex AI Workbenchを活用してStreamlitアプリを開発し、Google Cloud Runにデプロイするまでの手順を詳しく解説します。
2025.04.22
GoogleCloud
Python
可視化
CloudRun
ポスト
シェア
はてな
Pocket
Terraform × BigQuery データ管理:陥りがちな落とし穴と対策5選(サンプルコード付き)
Terraformは、インフラ構築をコードで管理できる強力なツールですが、BigQueryのデータ管理においては、特有の課題に直面することがあります。本記事では、TerraformでBigQueryを扱う際に陥りやすい落とし穴と、データ管理の品質を高めるための対策について、サンプルコードを交えながら解説します。
2025.04.07
GoogleCloud
Terraform
BigQuery
データマネジメント
ポスト
シェア
2
2
区分値設計 再考
システムにおける「区分」とはカテゴライズ可能な値の集合体を表すものであり、「区分値」とはその集合に属する個々の識別子を指します。たとえば、あるアイテムの「ステータス」という区分には「下書き」「レビュー中」「承認済み」といった区分値が含まれます。
2025.03.21
設計
データマネジメント
区分値
ポスト
シェア
73
30
データカタログを中心とした自律分散組織
データカタログは、自律分散組織を円滑に進める上で重要な役割を果たします。データカタログ整備を含めたデータマネジメントを専門組織に任せるブームが過去に一時期的にありましたが、この体制があくまで過渡期であり...
2025.03.10
データマネジメント
組織論
データカタログ
データガバナンス
ポスト
シェア
6
4
リリース直前にライブラリのインストールエラーが発生した際にどのように対応したか - Glue Python Shell起動エラーの対応
先日、本番リリースを控えたシステムで OSS ライブラリのインストール起因のエラーが発生しました。実際に起きた事象と、どのように検討して対応したのかを残すべく、ポストモーテムの形式で当記事を書きました。
2024.01.19
AWS
トラブルシュート
Glue
振り返り
Glue Python Shell
ポスト
シェア
2
1
タグを利用したBigQueryのアクセス制御
BigQueryは完全マネージドな、ペタバイトスケールかつコスパのよいデータウェアハウスとして知られております。便利なツールである一方、BigQueryで取り扱うデータには個人情報が含まれていることもあり、適切なアクセス制御が望まれます。Resource Managerのタグ機能を利用して…
2023.10.18
GoogleCloud
BigQuery
IAM
アクセス制御
ポスト
シェア
1
Pocket
【合格記】Google Cloud Professional Data Engineer認定資格を振り返る【2023年度版】
最近Data Engineeringを扱うプロジェクトへ異動したこともあり、Google CloudにおけるData Engineeringを網羅的に学びたく、Professional Data Engineer認定資格を受けてきました。
2023.09.15
GoogleCloud
合格記
Udemy
PDE
ポスト
シェア
2
Pocket
Great ExpectationsでBigQueryのデータ品質を監視する
Great Expectationsというツールを使って、表形式データの品質をバリデーションする流れをご紹介します。MLOpsを推進するにあたりMLモデルの監視が必要となってきています。その中でも...
2023.05.31
BigQuery
データマネジメント
バリデーション
AI監視
Great Expectations
ポスト
シェア
5
1
書籍紹介:大規模データ管理(エンタープライズアーキテクチャのベストプラクティス)
最近読んだ書籍の中で非常に良質な内容でしたので紹介したいと思います。少しでも多くの方に興味を持ってもらえることを期待しています。
2023.05.29
書評
データマネジメント
アーキテクチャ
DDD
DMBOK
ポスト
シェア
59
37
Cloud Data Fusionで始めるETL入門
「Cloud Data Fusionで始めるETL入門」ということで、Google CloudでETL/ELTを構築できる「Cloud Data Fusion」を利用して、ETLを作成します。
2023.04.20
GoogleCloud
ETL
ポスト
シェア
はてな
3
Dataflow後編(Dataflowの事前準備からPub/Sub・BigQueryとの連携例まで)
Dataflowを使うための事前準備からパイプライン実行までの一連の流れについて説明します。次の手順で進めていきます。APIの有効化、IAMの設定、Apache Beam SDKのインストール...
2022.09.20
GoogleCloud
インターン
BigQuery
インターン2022
Dataflow
5
シェア
1
8
Dataflow前編(Dataflowの概要からApache Beamの使い方まで)
フューチャーのインターンEngineer Campに参加した平野と申します。今回のインターンでは、Google Cloud Platform (GCP)のサービスとして提供されているDataflowについて調査し、その仕組みや使い方についてこの技術ブログにまとめることに取り組みました。
2022.09.20
インターン
インターン2022
Dataflow
3
シェア
3
8
Cloud Functions+ GoでビッグデータETLするときのコツ
Google Cloud上の大規模なシステムのとあるログがCloud Storageに溜まっており、それらをBigQueryにロードし、分析したい、ということがありました。このログは未加工のままBigQueryに読み込めるフォーマットではなく、いわゆるETL処理が必要でした。運用面を考慮し利用サービスを増やしたくない、ということで使い慣れたCloud Functionsを使うことにしました。
2022.05.12
GoogleCloud
サーバーレス
ETL
CloudFunctions
8
シェア
1
Pocket
Future Tech Night #21 Google Cloud:JSON関数と共に歩む、BigQueryを使った超汎化型データ活用基盤
3月17日に開催された「Future Tech Night #21 Google Cloud: データエンジニア+MLOps」のセッションサマリと補足事項について触れていきます。当日のセッションは2つありましたが、私の記事では「JSON関数と共に歩む、BigQueryを使った超汎化型データ活用基盤」のセッションについて記載します。
2022.05.09
GoogleCloud
登壇レポート
TechNight
BigQuery
3
シェア
はてな
1
AWS Glueの開発環境の構築(2022)
2021年の記事でもAWSの公式のDockerイメージを使って環境構築をする内容の記事があるのですが、Glue3.0の公式のDockerイメージがリリースされていたので、そちらを使って再度Glueのローカルでの開発環境構築の記事を書いてみようと思います。せっかくなので昨年の記事と少しコードを変えようと思い、AWSの公式ドキュメント[^2]に書かれたコードを基に解説します。
2022.04.28
AWS
環境構築
Glue
LocalStack
DockerCompose
JupyterNotebook
2
シェア
2
5
AWS Certified Data Analytics - Specialty合格体験記
TIGの伊藤真彦です。先日AWS Certified Data Analytics - Specialtyに合格しました。これで持っているAWS認定資格は10個になりました。
2021.11.12
AWS
合格記
データレイク
ポスト
シェア
はてな
2
1
2
Next