DP-203日本語無料問題集「Microsoft Data Engineering on Microsoft Azure (DP-203日本語版)」

質問 1

オンプレミスのデータソースと Azure Synapse Analytics を統合する必要があります。ソリューションは、データ統合の要件を満たす必要があります。
どのタイプの統合ランタイムを使用する必要がありますか?

（A）Azure 統合ランタイム

（B）Azure-SSIS 統合ランタイム

（C）セルフホステッド統合ランタイム

正解：A 解答を投票する

質問 2

注: この質問は、同じシナリオを提示する一連の質問の一部です。このシリーズの各質問には、指定された目標を達成できる可能性のある独自の解決策が含まれています。一部の質問セットには複数の正しい解決策が含まれる場合がありますが、他の質問セットには正しい解決策がない場合があります。
このセクションの質問に回答すると、その質問に戻ることはできなくなります。そのため、これらの質問はレビュー画面に表示されません。ステージングゾーンを含む Azure Data Lake Storage アカウントを持っています。
ステージングゾーンから増分データを取り込み、R スクリプトを実行してデータを変換し、変換されたデータを Azure Synapse Analytics のデータウェアハウスに挿入するための日常プロセスを設計する必要があります。
解決策: Azure Data Factory スケジュールトリガーを使用して、マッピングデータローを実行するパイプラインを実行します。次に、データをデータウェアハウスに挿入します。
これは目標を達成していますか?

（A）いいえ

（B）はい

正解：A 解答を投票する

質問 3

監視と管理アプリを使用して Azure データファクトリを監視する予定です。
ソースデータベース内のテーブルを参照するアクティビティのステータスと期間を特定する必要があります。
順番に実行する必要がある 3 つのアクションはどれですか?答えるには、アクションをアクションのリストからアンサーに移動し、正しい順序に並べます。

正解：

Explanation:

Step 1: From the Data Factory authoring UI, generate a user property for Source on all activities.
Step 2: From the Data Factory monitoring app, add the Source user property to Activity Runs table.
You can promote any pipeline activity property as a user property so that it becomes an entity that you can monitor. For example, you can promote the Source and Destination properties of the copy activity in your pipeline as user properties. You can also select Auto Generate to generate the Source and Destination user properties for a copy activity.
Step 3: From the Data Factory authoring UI, publish the pipelines
Publish output data to data stores such as Azure SQL Data Warehouse for business intelligence (BI) applications to consume.
References:
https://docs.microsoft.com/en-us/azure/data-factory/monitor-visually

質問 4

仮想ネットワークサービスエンドポイントが構成されている Azure Data Lake Storage アカウントがあります。
Azure Data Factory を使用して、Data Lake Storage アカウントからデータを抽出する予定です。その後、データは、PolyBase を使用して Azure Synapse Analytics のデータウェアハウスに読み込まれます。
Data Lake Storage にアクセスするには、どの認証方法を使用する必要がありますか?

（A）アカウントキー認証

（B）マネージド ID 認証

（C）共有アクセスキー認証

（D）サービスプリンシパル認証

正解：B 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 5

トランザクションデータの分析ストレージソリューションを設計する必要があります。ソリューションは、販売トランザクションデータセットの要件を満たす必要があります。
ソリューションに何を含める必要がありますか？回答するには、回答領域で適切なオプションを選択します。
注：正しい選択はそれぞれ1ポイントの価値があります。

正解：

Explanation:

Box 1: Round-robin
Round-robin tables are useful for improving loading speed.
Scenario: Partition data that contains sales transaction records. Partitions must be designed to provide efficient loads by month.
Box 2: Hash
Hash-distributed tables improve query performance on large fact tables.
Reference:
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-tables-distribute

質問 6

Df1 という名前の Azure Data Factory バージョン 2 (V2) リソースがあります。 Df1 にはリンクされたサービスが含まれています。
vault1 という名前の Azure Key Vault があり、これには key1 という名前の暗号化キーが含まれています。
key1 を使用して Df1 を暗号化する必要があります。
まず何をすべきでしょうか?

（A）リンクされたサービスを Df1 から削除します。

（B）コンテナー 1 で Azure ロールベースのアクセス制御を有効にします。

（C）プライベートエンドポイント接続をコンテナー 1 に追加します。

（D）セルフホステッド統合ランタイムを作成します。

正解：A 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 7

次の図に示されている Azure Data Factory パイプラインがあります。

次の図は、最初のパイプライン実行の実行ログを示しています。

2 回目のパイプライン実行の実行ログを次の図に示します。

次の各ステートメントについて、該当する場合は [はい] を選択します。それ以外の場合は、[いいえ] を選択します。注: 正しい選択はそれぞれ 1 ポイントの価値があります。

正解：

Explanation:

質問 8

Azure Synapse Analyticsで、スタースキーマにWebサイトのトラフィック分析を格納するエンタープライズデータウェアハウスを設計しています。
あなたはウェブサイト訪問のためのファクトテーブルを持つことを計画しています。テーブルは約5GBになります。
テーブルに使用する配布タイプとインデックスタイプを推奨する必要があります。このソリューションは、最速のクエリパフォーマンスを提供する必要があります。
何をお勧めしますか？回答するには、回答領域で適切なオプションを選択します。
注：正しい選択はそれぞれ1ポイントの価値があります。

正解：

Explanation:
Box 1: Hash
Consider using a hash-distributed table when:
The table size on disk is more than 2 GB.
The table has frequent insert, update, and delete operations.
Box 2: Clustered columnstore
Clustered columnstore tables offer both the highest level of data compression and the best overall query performance.
Reference:
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-tables- distribute
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-tables-index

質問 9

リアルタイムデータ処理ソリューションの高可用性を向上させるにはどうすればよいですか?

（A）同一の Azure Stream Analytics ジョブを Azure のペアになっているリージョンにデプロイします。

（B）Azure Stream Analytics ジョブをデプロイし、Azure Automation Runbook を使用してジョブの状態を確認し、停止した場合はジョブを開始します。

（C）geo 冗長ストレージ (GRS) を使用するように Data Lake Storage を設定します。

（D）高同時実行 Databricks クラスターをデプロイします。

正解：A 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 10

次のファクトテーブルを含むオンプレミスのデータウェアハウスがあります。どちらのテーブルにも、DateKey、ProductKey、RegionKey の列があります。 120 個の固有のプロダクトキーと 65 個の固有のリージョンキーがあります。

データウェアハウスを使用するクエリは、完了するまでに時間がかかります。
Azure Synapse Analytics を使用するようにソリューションを移行する予定です。 Azure ベースのソリューションがクエリパフォーマンスを最適化し、処理の歪みを最小限に抑えることを確認する必要があります。
何をお勧めしますか？回答するには、回答エリアで適切なオプションを選択してください。
注: 正しい選択ごとに 1 ポイントの価値があります。

正解：

Explanation:

Box 1: Hash-distributed
Box 2: ProductKey
ProductKey is used extensively in joins.
Hash-distributed tables improve query performance on large fact tables.
Box 3: Round-robin
Box 4: RegionKey
Round-robin tables are useful for improving loading speed.
Consider using the round-robin distribution for your table in the following scenarios:
When getting started as a simple starting point since it is the default If there is no obvious joining key If there is not good candidate column for hash distributing the table If the table does not share a common join key with other tables If the join is less significant than other joins in the query When the table is a temporary staging table Note: A distributed table appears as a single table, but the rows are actually stored across 60 distributions. The rows are distributed with a hash or round-robin algorithm.
Reference:
https://docs.microsoft.com/en-us/azure/sql-data-warehouse/sql-data-warehouse-tables-distribute

質問 11

storage1という名前のAzureBlobStorageアカウントとPool1という名前のAzureSynapseAnalytics専用SQLプールを含むAzureサブスクリプションがあります。
storage1にデータを保存する必要があります。データはPool1によって読み取られます。ソリューションは、次の要件を満たしている必要があります。
Pool1を有効にして、クエリで不要な列と行をスキップします。
列統計を自動的に作成します。
ファイルのサイズを最小化します。
どのタイプのファイルを使用する必要がありますか？

（A）CSV

（B）Parquet

（C）JSON

（D）Avro

正解：B 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 12

Scala を使用する Azure Synapse Analytics ジョブがあります。
ジョブのステータスを表示する必要があります。
あなたは何をするべきか？

（A）Synapse Studio から、ワークスペースを選択します。モニターから、Apache Spark アプリケーションを選択します。

（B）Azure Monitor から、SparkLogying1 Event.CL テーブルに対して Kusto クエリを実行します。

（C）Synapse Studio から、ワークスペースを選択します。 [モニター] から、[SQL 要求] を選択します。

（D）Azure Monitor から、AzureDiagnostics テーブルに対して Kusto クエリを実行します。

正解：A 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 13

Azureサブスクリプションがあります。
Azure Data Lake Storage Gen2Premiumアカウントをデプロイする必要があります。ソリューションは、次の要件を満たしている必要があります。
* 365日より古いブロブは削除する必要があります。
*管理者の労力を最小限に抑える必要があります。
*コストを最小限に抑える必要があります
何を使うべきですか？答えるには、答えの中から適切なオプションを選択してください。注正しい選択はそれぞれ1ポイントの価値があります。

正解：

Explanation:

https://learn.microsoft.com/en-us/azure/storage/blobs/premium-tier-for-data-lake-storage

質問 14

Microsoft Azure SQL データウェアハウスの実装の監視を構成します。実装では、PolyBase を使用して、外部テーブルを使用して Azure Data Lake Gen 2 に格納されているコンマ区切り値 (CSV) ファイルからデータを読み込みます。
スキーマが無効なファイルはエラーの原因となります。
無効なスキーマエラーを監視する必要があります。
どのエラーを監視する必要がありますか?

（A）内部エラーのため、EXTERNAL TABLE へのアクセスに失敗しました: 「HdfsBridge_Connect の呼び出しで Java 例外が発生しました: 外部ファイルへのアクセス中にエラー [スキームのファイルシステムがありません: wasbs] が発生しました。」

（B）内部エラーのため、EXTERNAL TABLE アクセスに失敗しました: 'HdfsBridge_Connect の呼び出しで Java 例外が発生しました: エラー
[com.microsoft.polybase.client.KerberosSecureLogin] は、外部ファイルへのアクセス中に発生しました。

（C）内部エラーのため、EXTERNAL TABLE へのアクセスに失敗しました: 「HdfsBridge_Connect の呼び出しで Java 例外が発生しました: 外部ファイルへのアクセス中にエラー [LoginClass をインスタンス化できません] が発生しました。」

（D）OLE DB プロバイダー "SQLNCLI11" に対してクエリ "リモートクエリ" を実行できません: リンクサーバー "(null)" の場合、クエリは中止されました - 外部ソースからの参照中に最大拒否しきい値 (o 行) に達しました: 1処理された合計 1 行のうち拒否された行。

正解：D 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 15

ユーザーが Web ページの機能を操作するために費やす時間を特定するための Azure Stream Analytics ジョブを構築しています。
ジョブは、Web ページでのユーザーアクションに基づいてイベントを受け取ります。データの各行はイベントを表します。各イベントには、「開始」または「終了」のいずれかのタイプがあります。
開始イベントと終了イベントの間の期間を計算する必要があります。
どのようにクエリを完成させますか?答えるには、答えで適切なオプションを選択します。
注: 正しい選択ごとに 1 ポイントの価値があります。

正解：

Explanation:

Box 1: DATEDIFF
DATEDIFF function returns the count (as a signed integer value) of the specified datepart boundaries crossed between the specified startdate and enddate.
Syntax: DATEDIFF ( datepart , startdate, enddate )
Box 2: LAST
The LAST function can be used to retrieve the last event within a specific condition. In this example, the condition is an event of type Start, partitioning the search by PARTITION BY user and feature. This way, every user and feature is treated independently when searching for the Start event. LIMIT DURATION limits the search back in time to 1 hour between the End and Start events.
Example:
SELECT
[user],
feature,
DATEDIFF(
second,
LAST(Time) OVER (PARTITION BY [user], feature LIMIT DURATION(hour,
1) WHEN Event = 'start'),
Time) as duration
FROM input TIMESTAMP BY Time
WHERE
Event = 'end'
Reference:
https://docs.microsoft.com/en-us/azure/stream-analytics/stream-analytics-stream-analytics-query-patterns

質問 16

JSON 形式のデータを取り込む Apache Spark ジョブを Azure Databricks で作成しています。
ネストされた JSON 文字列を、複数の行を含む DataFrame に変換する必要があります。
どの Spark SQL 関数を使用する必要がありますか?

（A）合体

（B）抽出

（C）爆発

（D）フィルター

正解：C 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 17

Azure Data Lake Storage Gen2 コンテナーがあります。
データはコンテナーに取り込まれ、データ統合アプリケーションによって変換されます。その後、データは変更されません。ユーザーはコンテナー内のファイルを読み取ることができますが、ファイルを変更することはできません。
次の要件を満たすデータアーカイブソリューションを設計する必要があります。
新しいデータは頻繁にアクセスされ、できるだけ早く利用できるようにする必要があります。
5 年以上前のデータにアクセスする頻度は低くなりますが、要求されたときに 1 秒以内に利用できるようにする必要があります。
7 年以上前のデータにはアクセスしません。 7 年後、データは可能な限り低いコストで永続化する必要があります。
必要な可用性を維持しながら、コストを最小限に抑える必要があります。
データをどのように管理する必要がありますか?答えるには、答えで適切なオプションを選択します。
注: 正しい選択ごとに 1 ポイントの価値があります。

正解：

Explanation:

Box 1: Move to cool storage
Box 2: Move to archive storage
Archive - Optimized for storing data that is rarely accessed and stored for at least 180 days with flexible latency requirements, on the order of hours.
The following table shows a comparison of premium performance block blob storage, and the hot, cool, and archive access tiers.

Reference:
https://docs.microsoft.com/en-us/azure/storage/blobs/storage-blob-storage-tiers Explanation:
Box 1: Replicated
Replicated tables are ideal for small star-schema dimension tables, because the fact table is often distributed on a column that is not compatible with the connected dimension tables. If this case applies to your schema, consider changing small dimension tables currently implemented as round-robin to replicated.
Box 2: Replicated
Box 3: Replicated
Box 4: Hash-distributed
For Fact tables use hash-distribution with clustered columnstore index. Performance improves when two hash tables are joined on the same distribution column.
Reference:
https://azure.microsoft.com/en-us/updates/reduce-data-movement-and-make-your-queries-more-efficient-with- the-general-availability-of-replicated-tables/
https://azure.microsoft.com/en-us/blog/replicated-tables-now-generally-available-in-azure-sql-data-warehouse/

DP-203日本語無料問題集「Microsoft Data Engineering on Microsoft Azure (DP-203日本語版)」

弊社を連絡する

関連リンク

トップ試験

DP-203日本語 無料問題集「Microsoft Data Engineering on Microsoft Azure (DP-203日本語版)」

弊社を連絡する

関連リンク

トップ試験

DP-203日本語無料問題集「Microsoft Data Engineering on Microsoft Azure (DP-203日本語版)」