Professional-Data-Engineer日本語 無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版)」
Google Cloud でデータ メッシュを設計しており、複数の異なるデータ エンジニアリング チームがデータ プロダクトを構築しています。一般的なデータ キュレーションの設計パターンは、ファイルを Cloud Storage に格納し、元データを Cloud Storage と BigQuery データセットに変換し、最終的にキュレートされたデータ プロダクトを BigQuery データセットに保存するというものです。各チームがデータ プロダクトの構築に必要なアセットのみにアクセスできるように、Dataplex を構成する必要があります。また、チームがキュレートされたデータ プロダクトを簡単に共有できるようにする必要があります。どうすればよいでしょうか。
正解:D
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)
パブリック HTTPS エンドポイントから Cloud Storage に大量のファイルを移行しています。ファイルは、署名付き URL を使用して不正アクセスから保護されています。オブジェクト URL のリストを含む TSV ファイルを作成し、Storage Transfer Service を使用して転送ジョブを開始しました。ジョブが長時間実行され、最終的に失敗したことに気付きました。転送ジョブのログを確認すると、ジョブはある時点まで正常に実行されていたが、残りのファイルで HTTP 403 エラーが発生したため失敗したことがわかります。ソース システムに変更がないことを確認しました。移行プロセスを再開するには、問題を修正する必要があります。どうすればよいですか?
正解:A
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)
あなたの会社では、Google Cloud Dataflow で学習アルゴリズムのデータ前処理を行っています。このステップでは多数のデータログが生成されており、チームはそれを分析したいと考えています。キャンペーンの動的な性質により、データは毎時間指数関数的に増加しています。
データ サイエンティストは、ログ内の新しい主要な特徴のデータを読み取るために次のコードを作成しました。
BigQueryIO.読み取り
.named("ログデータの読み取り")
.from("clouddataflow-readonly:samples.log_data")
このデータ読み取りのパフォーマンスを改善したいのですが、どうすればよいでしょうか?
データ サイエンティストは、ログ内の新しい主要な特徴のデータを読み取るために次のコードを作成しました。
BigQueryIO.読み取り
.named("ログデータの読み取り")
.from("clouddataflow-readonly:samples.log_data")
このデータ読み取りのパフォーマンスを改善したいのですが、どうすればよいでしょうか?
正解:D
解答を投票する
「customers」という名前の BigQuery データセットがあります。すべてのテーブルは、「gdpr」という名前のデータ カタログ タグ テンプレートを使用してタグ付けされます。テンプレートには、ブール値を持つ「機密データあり」という必須フィールドが 1 つ含まれています。すべての従業員は、データセット内で「機密データあり」フィールドが true または false であるテーブルを簡単な検索で見つけられる必要があります。ただし、「機密データあり」フィールドが true であるテーブル内のデータは、人事 (HR) グループのみが表示できるようにする必要があります。すべての従業員グループに、データセットの bigquery.metadataViewer ロールと bigquery.connectionUser ロールを付与します。構成のオーバーヘッドを最小限に抑える必要があります。次に何をすべきでしょうか。
正解:B
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)