ぽくつなです

データ

Google Cloud 認定 Professional Data Engineer 取りました

やったー Google Cloud の主催する Google Cloud Innovators Gym Japan (G.I.G) というプログラムに参加して取りました。 Google Cloud を利用する企業を対象とした招待制のプログラムで、参加すると関連する Coursera コースへのアクセス、試験を受けるため…

Google Cloud 版 Dataform と周辺リソースの図

GCP 版 Dataform がついに GA になりましたね。同時に定期実行の仕組みも出て、一通りの機能が揃った感がある。いまこそ買収以前の SaaS 版(Legacy 版)から GCP 版に移行する時!! しかし GitHub リポジトリと連携する場合、登場人物が多くて難しくなっている…

Google Colaboratory でデータフローのドキュメントを書く試み

この記事ははてなエンジニアのカレンダー | Advent Calendar 2021 - Qiita 2日目の記事です。 最近、データパイプラインの整備や営業チームの人力混じりの運用フローを機械化するなどの業務改善に取り組んでいます。 その過程で、運用ドキュメントを読んだり…

BigQuery GENERATE_ARRAY でバケットを作って集計

昨日やった作業。 例えばこういうテーブルがあったとして count timestmap 3 2020-07-07 10:30:00 5 2020-07-07 12:34:50 7 2020-07-07 21:07:10 11 2020-07-07 21:10:00 1時間ごとの count の合計値を出したい場合以下みたいなクエリを書く WITH data AS ( …