Professional-Data-Engineer日本語無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版)」

質問 1

Google Cloud でデータメッシュを設計しており、複数の異なるデータエンジニアリングチームがデータプロダクトを構築しています。一般的なデータキュレーションの設計パターンは、ファイルを Cloud Storage に格納し、元データを Cloud Storage と BigQuery データセットに変換し、最終的にキュレートされたデータプロダクトを BigQuery データセットに保存するというものです。各チームがデータプロダクトの構築に必要なアセットのみにアクセスできるように、Dataplex を構成する必要があります。また、チームがキュレートされたデータプロダクトを簡単に共有できるようにする必要があります。どうすればよいでしょうか。

（A）1 単一の Dataplex 仮想レイクを作成し、ランディングデータ、生データ、キュレーションされたデータを格納する単一のゾーンを作成します。
2 各データエンジニアリングチームに仮想レイクへのアクセス権を付与します。

（B）1 データ製品ごとに Dataplex 仮想レイクを作成し、ランディングデータ、生データ、キュレーションされたデータを格納する単一のゾーンを作成します。
2. データエンジニアリングチームに、データ製品に割り当てられた仮想レイクへのフルアクセス権を付与します。

（C）1 単一の Dataplex 仮想レイクを作成し、ランディングデータ、生データ、キュレーションされたデータを格納する単一のゾーンを作成します。 2 ゾーン内の各データ製品ごとに個別のアセットを構築します。
3. ゾーンレベルでデータエンジニアリングチームに権限を割り当てます。

（D）1 データ製品ごとに Dataplex 仮想レイクを作成し、ランディングデータ、生データ、キュレーションデータ用の複数のゾーンを作成します。
2. データエンジニアリングチームに、データ製品に割り当てられた仮想レイクへのフルアクセス権を付与します。

正解：D 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 2

タイムスタンプと ID 列の WHERE 句を使用して BigQuery テーブルをフィルタリングするクエリがあります。bq query -dry_run を使用すると、タイムスタンプと ID のフィルタが全体のデータのごく一部を選択しているにもかかわらず、クエリがテーブルのフルスキャンをトリガーすることがわかります。既存の SQL クエリへの変更を最小限に抑えて、BigQuery によってスキャンされるデータの量を削減したいと考えています。どうすればよいでしょうか。

（A）パーティション列とクラスタリング列を使用してテーブルを再作成します。

（B）課金対象となるバイト数を制限には、bq クエリ -maximum_bytes_billed フラグを使用します。

（C）IDごとに個別のテーブルを作成します。

（D）返される行数を減らすには、LIMIT キーワードを使用します。

正解：A 解答を投票する

質問 3

オープンソースベースのツールと Google Kubernetes Engine (GKE) を使用して、ワークフローパイプラインのスケジューリングを実装しています。タスクを簡素化および自動化するために、Google マネージドサービスを使用したいと考えています。また、共有 VPC ネットワークの考慮事項にも対応したいと考えています。どうすればよいでしょうか。

（A）ワークフローパイプラインに Dataflow を使用します。シェルスクリプトを使用してワークフローをスケジュールします。

（B）共有 VPC 構成で Cloud Composer を使用します。Cloud Composer リソースをホストプロジェクトに配置します。

（C）共有 VPC 構成で Cloud Composer を使用します。Cloud Composer リソースをサービスプロジェクトに配置します。

（D）ワークフローパイプラインには Dataflow を使用します。スケジュール設定には Cloud Run トリガーを使用します。

正解：C 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 4

データセットに個々の人物の行と、生年月日、国、収入の列が含まれている場合、連続した列はいくつあり、カテゴリ別の列はいくつありますか?

（A）連続 1 つとカテゴリ 2 つ

（B）連続 2 つとカテゴリ 1 つ

（C）3 カテゴリ

（D）3連続

正解：B 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 5

Cloud Dataproc でサポートされているジョブタイプは次のどれですか (3 つの回答を選択)。

（A）豚

（B）糸

（C）スパーク

（D）ハイブ

正解：A、C、D 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 6

データウェアハウスを BigQuery に移行しています。すべてのデータをデータセット内のテーブルに移行しました。組織内の複数のユーザーがデータを使用します。ユーザーには、チームメンバーシップに基づいて特定のテーブルのみが表示されるようにする必要があります。ユーザー権限をどのように設定すればよいでしょうか。

（A）データが存在する同じデータセット内の各チームに承認済みビューを作成し、承認済みビューへのデータ閲覧者アクセス権をユーザー/グループに割り当てます。

（B）各チーム用に作成されたデータセットに各チームの承認済みビューを作成します。承認済みビューに、データが存在するデータセットへのデータ閲覧者アクセス権を割り当てます。承認済みビューが存在するデータセットへのデータ閲覧者アクセス権をユーザー/グループに割り当てます。

（C）各テーブルに対してテーブルレベルでユーザー/グループにデータ閲覧権限を割り当てます。

（D）データが存在する同じデータセット内の各チームのSQLビューを作成し、ユーザー/グループにSQLビューへのデータ閲覧者アクセス権を割り当てます。

正解：C 解答を投票する

質問 7

パブリック HTTPS エンドポイントから Cloud Storage に大量のファイルを移行しています。ファイルは、署名付き URL を使用して不正アクセスから保護されています。オブジェクト URL のリストを含む TSV ファイルを作成し、Storage Transfer Service を使用して転送ジョブを開始しました。ジョブが長時間実行され、最終的に失敗したことに気付きました。転送ジョブのログを確認すると、ジョブはある時点まで正常に実行されていたが、残りのファイルで HTTP 403 エラーが発生したため失敗したことがわかります。ソースシステムに変更がないことを確認しました。移行プロセスを再開するには、問題を修正する必要があります。どうすればよいですか?

（A）有効期間の長い署名付き URL を生成して、残りのファイル用の新しい TSV ファイルを作成します。TSV ファイルを複数の小さなファイルに分割し、個別の Storage Transfer Service ジョブとして並行して送信します。

（B）HTTPS エンドポイントの TLS 証明書を更新します。TSV ファイルから完了したファイルを削除し、Storage Transfer Service ジョブを再実行します。

（C）Cloud Storage FUSE を設定し、Cloud Storage バケットを Compute Engine インスタンスにマウントします。TSV ファイルから完了したファイルを削除します。シェルスクリプトを使用して TSV ファイルを反復処理し、残りの URL を FUSE マウントポイントにダウンロードします。

（D）TSV ファイル内のファイルチェックサムを MD5 から SHA256 に更新します。TSV ファイルから完了したファイルを削除し、Storage Transfer Service ジョブを再実行します。

正解：A 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 8

Google BigQuery で、ほぼリアルタイムで毎分 10,000 件のメッセージの速度でソーシャルメディアの投稿を保存および分析する必要があります。最初に、個々の投稿にストリーミング挿入を使用するようにアプリケーションを設計します。アプリケーションは、ストリーミング挿入の直後にデータの集計も実行します。ストリーミング挿入後のクエリは強力な一貫性を示さず、クエリからのレポートで実行中のデータが欠落する可能性があることがわかりました。アプリケーション設計をどのように調整すればよいでしょうか。

（A）蓄積されたデータを 2 分ごとに読み込むようにアプリケーションを書き直します。

（B）ストリーミング挿入コードを個々のメッセージのバッチロードに変換します。

（C）ストリーミング挿入後のデータ可用性の平均待ち時間を見積もり、常に 2 倍の時間待機してからクエリを実行します。

（D）元のメッセージを Google Cloud SQL に読み込み、ストリーミング挿入を介して 1 時間ごとにテーブルを BigQuery にエクスポートします。

正解：C 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 9

あなたは配送会社で働いています。配送センターには、荷物が配送ラインに沿って移動し、適切にルーティングされる場所があります。この会社は、配送ラインにカメラを追加して、輸送中の荷物の目に見える損傷を検出して追跡したいと考えています。損傷した荷物の検出を自動化し、荷物の輸送中にリアルタイムで人間による確認のためにフラグを立てる方法を作成する必要があります。どのソリューションを選択すべきでしょうか。

（A）BigQuery 機械学習を使用してモデルを大規模にトレーニングし、パッケージをバッチで分析できるようにします。

（B）画像のコーパスで AutoML モデルをトレーニングし、そのモデルを中心に API を構築して、パッケージ追跡アプリケーションと統合します。

（C）Cloud Vision API を使用して損傷を検出し、Cloud Functions を通じてアラートを発します。この機能にパッケージ追跡アプリケーションを統合します。

（D）TensorFlow を使用して、画像のコーパスでトレーニングされたモデルを作成します。このモデルを使用する Python ノートブックを Cloud Datalab に作成して、破損したパッケージを分析できるようにします。

正解：A 解答を投票する

質問 10

ストリーミング Cloud Dataflow パイプラインを運用しています。エンジニアは、異なるウィンドウアルゴリズムとトリガー戦略を備えた新しいバージョンのパイプラインを持っています。実行中のパイプラインを新しいバージョンに更新したいと考えています。更新中にデータが失われないようにする必要があります。どうすればよいでしょうか。

（A）キャンセルオプションを使用して Cloud Dataflow パイプラインを停止します。更新されたコードで新しい Cloud Dataflow ジョブを作成します。

（B）ドレインオプションを使用して Cloud Dataflow パイプラインを停止します。更新されたコードで新しい Cloud Dataflow ジョブを作成します。

（C）--jobName を新しい一意のジョブ名に設定して --update オプションを渡すことで、Cloud Dataflow パイプラインをインフライトで更新します。

（D）--jobName を既存のジョブ名に設定して --update オプションを渡すことで、Cloud Dataflow パイプラインをインフライトで更新します。

正解：D 解答を投票する

質問 11

あなたの会社では、Google Cloud Dataflow で学習アルゴリズムのデータ前処理を行っています。このステップでは多数のデータログが生成されており、チームはそれを分析したいと考えています。キャンペーンの動的な性質により、データは毎時間指数関数的に増加しています。
データサイエンティストは、ログ内の新しい主要な特徴のデータを読み取るために次のコードを作成しました。
BigQueryIO.読み取り
.named("ログデータの読み取り")
.from("clouddataflow-readonly:samples.log_data")
このデータ読み取りのパフォーマンスを改善したいのですが、どうすればよいでしょうか?

（A）コード内で TableReference: オブジェクトを指定します。

（B）Google BigQuery TableSchema クラスと TableFieldSchema クラスの両方を使用します。

（C）.fromQuery 操作を使用して、テーブルから特定のフィールドを読み取ります。

（D）TableRow オブジェクトを返す変換を呼び出します。PCollexction 内の各要素はテーブル内の 1 つの行を表します。

正解：D 解答を投票する

質問 12

あなたの会社は規制の厳しい業界に属しています。要件の 1 つは、個々のユーザーが業務を遂行するために必要な最小限の情報のみにアクセスできるようにすることです。この要件を Google BigQuery で強制したいと考えています。どの 3 つのアプローチを採用できますか? (3 つ選択してください)。

（A）データが常に暗号化されていることを確認します。

（B）特定のテーブルへの書き込みを無効にします。

（C）ロールによってテーブルへのアクセスを制限します。

（D）複数のテーブルまたはデータベースにわたってデータを分離します。

（E）BigQuery API アクセスを承認されたユーザーに制限します。

（F）Google Stackdriver Audit Logging を使用してポリシー違反を判断します。

正解：C、E、F 解答を投票する

質問 13

運用環境に Standard Tier Memorystore for Redis インスタンスをデプロイしています。最も正確な災害復旧状況で Redis インスタンスのフェイルオーバーをシミュレートし、フェイルオーバーが運用データに影響を与えないことを確認する必要があります。どうすればよいでしょうか。

（A）実稼働環境の Memorystore for Redis インスタンスに対して、データ損失が制限されたデータ保護モードを使用して手動のテーラーオーバーを開始します。

（B）実稼働環境の Redis インスタンスにレプリカを 1 つ増やします。force-data-loss データ保護モードを使用して手動フェイルオーバーを開始します。

（C）開発環境で Standard Tier Memorystore for Redis インスタンスを作成します。force-data-loss データ保護モードを使用して手動フェイルオーバーを開始します。

（D）開発環境で Standard Tier Memorystore for Redis インスタンスを作成します。データ損失が制限されたデータ保護モードを使用して手動フェイルオーバーを開始します。

正解：D 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 14

次のどれが、Dataflow がサポートする 3 つの主要なトリガータイプに該当しませんか?

（A）時間に基づいてトリガーする

（B）要素数に基づいてトリガーする

（C）他のトリガーとの組み合わせであるトリガー

（D）要素のサイズ（バイト単位）に基づいてトリガーします。

正解：D 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 15

「customers」という名前の BigQuery データセットがあります。すべてのテーブルは、「gdpr」という名前のデータカタログタグテンプレートを使用してタグ付けされます。テンプレートには、ブール値を持つ「機密データあり」という必須フィールドが 1 つ含まれています。すべての従業員は、データセット内で「機密データあり」フィールドが true または false であるテーブルを簡単な検索で見つけられる必要があります。ただし、「機密データあり」フィールドが true であるテーブル内のデータは、人事 (HR) グループのみが表示できるようにする必要があります。すべての従業員グループに、データセットの bigquery.metadataViewer ロールと bigquery.connectionUser ロールを付与します。構成のオーバーヘッドを最小限に抑える必要があります。次に何をすべきでしょうか。

（A）プライベート可視性を持つ「gdpr」タグテンプレートを作成します。機密データを含むテーブルの HR グループに bigquery -dataViewer ロールを割り当てます。

（B）公開可能な「gdpr」タグテンプレートを作成します。このタグの datacatalog. tagTemplateViewer ロールを全従業員グループに割り当て、機密データを含むテーブルの HR グループに bijquery.dataViewer ロールを割り当てます。

（C）公開可能な「gdpr」タグテンプレートを作成します。機密データを含むテーブルの HR グループに bigquery.dataViewer ロールを割り当てます。

（D）プライベート可視性を持つ「~gdpr」タグテンプレートを作成します。このタグの datacatalog.tagTemplateViewer ロールをすべての従業員グループに割り当て、機密データを含むテーブルの HR グループに bigquery.dataViewer ロールを割り当てます。

正解：B 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 16

データウェアハウスを Google Cloud に移行し、オンプレミスのデータセンターを廃止します。これは会社の優先事項であるため、クラウドへの初期データロード用に帯域幅が利用可能になることはわかっています。転送されるファイルの数は多くありませんが、各ファイルは 90 GB です。さらに、トランザクションシステムで Google Cloud のウェアハウスをリアルタイムで継続的に更新する必要があります。データを移行し、ウェアハウスへの書き込みが継続されるようにするには、どのようなツールを使用すればよいでしょうか。

（A）移行には gsutil、リアルタイム更新には Pub/Sub と Dataflow

（B）移行には BigQuery Data Transfer Service、リアルタイム更新には Pub/Sub と Dataproc を使用します

（C）移行にはストレージ転送サービス、リアルタイム更新には Pub/Sub と Cloud Data Fusion を使用します。

（D）移行とリアルタイム更新の両方に gsutil を使用します

正解：C 解答を投票する

質問 17

Cloud Dataflow ストリーミングパイプラインを操作しています。パイプラインは、一定期間内に Cloud Pub/Sub サブスクリプションソースからのイベントを集約し、集約結果を Cloud Storage バケットにシンクします。ソースのスループットは一定です。パイプラインの動作に関するアラートを Cloud Stackdriver でモニタリングして、パイプラインがデータを処理していることを確認したいとします。どの Stackdriver アラートを作成する必要がありますか。

（A）ソースのインスタンス/ストレージ/使用済みバイト数の増加と、宛先のサブスクリプション/未配信メッセージ数の変化率の減少に基づくアラート

（B）ソースの subscription/num_undelivered_messages の増加と、宛先の instance/storage/used_bytes の変化率の減少に基づくアラート

（C）ソースの subscription/num_undelivered_messages の減少と、宛先の instance/storage/used_bytes の変化率の増加に基づくアラート

（D）ソースのインスタンス/ストレージ/使用済みバイト数の減少と、宛先のサブスクリプション/未配信メッセージ数の変化率の増加に基づくアラート

正解：B 解答を投票する

Professional-Data-Engineer日本語無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版)」

弊社を連絡する

関連リンク

トップ試験

Professional-Data-Engineer日本語 無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版)」

弊社を連絡する

関連リンク

トップ試験

Professional-Data-Engineer日本語無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版)」