データの品質を高めるために、あえて分析を先に進める作戦

データの欠陥やバグを、データ取得のクエリを見ながら地道にデータの品質を高めることは重要である。 しかし、正解データがないなかで、いたずらに時間をかけてしまうのは効率的であろうか? データの品質向上を進めれば進めるほど行き詰ることがある。 その場合、今あるデータで、分析にかけてしまう(基礎集計したり、モデリングしたりなど)方が効率的なケースがあった。 なぜなら、分析にかけることで、初め…

続きを読む

データエンジニアに必要なスキルやマインド

データエンジニアに必要なスキルやマインドをメモしておきます。 ・データを理解すること ・データ基盤を技術的に理解すること。それを使って業務できること ・データを、様々な関係者(例:データサイエンティスト、データマーケッター、エンジニア、経営者、顧客など)の要望に合わせて、加工、集計、可視化のサービスを提供できること ・データの品質を高めること ・データ活用の様々な技術的な支援を行う…

続きを読む

【技術】Google BigQueryからデータ取得コードの設計思想

Google BigQuery(BQ)からデータを取得するコードの設計思想には、以下のような大別ができます。 1.定常=バッチ処理  ・主に使う技術    ・SQL、シェルスクリプト、Cron、perl  ・メリット    ・人を介さない自動的な処理が定常的に実行される。=人件費の削減  ・デメリット    ・アドホックな要件に適さない 2.アドホック=リアルタイム処理(…

続きを読む