DP-203日本語 無料問題集「Microsoft Data Engineering on Microsoft Azure (DP-203日本語版)」
Azure Data Lake Storage Gen2 アカウントのフォルダー構造を設計しています。
次の使用パターンを特定します。
* ユーザーは、Azure Synapse Analytics サーバーレス SQL プールと Azure Synapse Analytics サーバーレス Apache Spark ポッドを使用してデータをクエリします。
* ほとんどのクエリには、現在の年または週のフィルターが含まれます。
※データはデータソースごとに保護されます。
次の要件を満たすフォルダー構造を推奨する必要があります。
* 使用パターンをサポート
* フォルダーのセキュリティを簡素化します
* クエリ時間を最小限に抑えます
どのようなフォルダー構造を推奨しますか?
次の使用パターンを特定します。
* ユーザーは、Azure Synapse Analytics サーバーレス SQL プールと Azure Synapse Analytics サーバーレス Apache Spark ポッドを使用してデータをクエリします。
* ほとんどのクエリには、現在の年または週のフィルターが含まれます。
※データはデータソースごとに保護されます。
次の要件を満たすフォルダー構造を推奨する必要があります。
* 使用パターンをサポート
* フォルダーのセキュリティを簡素化します
* クエリ時間を最小限に抑えます
どのようなフォルダー構造を推奨しますか?
正解:A
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)
Azure Data Lake Storage Gen2 のデプロイを計画しています。
データレイクにアクセスする次の 2 つのレポートがあります。
Report1: 50 列を含むファイルから 3 つの列を読み取ります。
Report2: タイムスタンプに基づいて単一のレコードをクエリします。
レポートをサポートするには、データ レイクにデータを保存する形式を推奨する必要があります。ソリューションは、読み取り時間を最小限に抑える必要があります。
各レポートで何を推奨しますか?答えるには、答えで適切なオプションを選択します。
注: 正しい選択ごとに 1 ポイントの価値があります。

データレイクにアクセスする次の 2 つのレポートがあります。
Report1: 50 列を含むファイルから 3 つの列を読み取ります。
Report2: タイムスタンプに基づいて単一のレコードをクエリします。
レポートをサポートするには、データ レイクにデータを保存する形式を推奨する必要があります。ソリューションは、読み取り時間を最小限に抑える必要があります。
各レポートで何を推奨しますか?答えるには、答えで適切なオプションを選択します。
注: 正しい選択ごとに 1 ポイントの価値があります。

正解:

Explanation:

Report1: CSV
CSV: The destination writes records as delimited data.
Report2: AVRO
AVRO supports timestamps.
Not Parquet, TSV: Not options for Azure Data Lake Storage Gen2.
Reference:
https://streamsets.com/documentation/datacollector/latest/help/datacollector/UserGuide/Destinations/ADLS- G2-D.html
DB1 という名前の Azure SQL データベースと、pipeline という名前の Azure Data Factory データ パイプラインがあります。
Data Factory から、リンクされたサービスを DB1 に構成します。
DB1 で、SP1 という名前のストアド プロシージャを作成します。SP1 は、4 つの列を持つ 1 行のデータを返します。
SP1 を実行するには、パイプラインにアクティビティを追加する必要があります。ソリューションでは、列の値がパイプライン変数として格納されるようにする必要があります。
SP1 を実行するために使用できる 2 種類のアクティビティはどれですか? (Microsoft Azure ドキュメントのデータ エンジニアリングまたは Microsoft.com で入手可能な回答/説明のガイドを参照してください)
Data Factory から、リンクされたサービスを DB1 に構成します。
DB1 で、SP1 という名前のストアド プロシージャを作成します。SP1 は、4 つの列を持つ 1 行のデータを返します。
SP1 を実行するには、パイプラインにアクティビティを追加する必要があります。ソリューションでは、列の値がパイプライン変数として格納されるようにする必要があります。
SP1 を実行するために使用できる 2 種類のアクティビティはどれですか? (Microsoft Azure ドキュメントのデータ エンジニアリングまたは Microsoft.com で入手可能な回答/説明のガイドを参照してください)
正解:C、D
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)
Workspaces という名前の Azure Synapse Analytics ワークスペース、Workspace2 という名前の Log Analytics ワークスペース、Container1 という名前の Azure Data Lake Storage Gen2 コンテナーを含む Azure サブスクリプションがあります。
Workspace1 には、Container1 にデータを書き込む Job1 という名前の Apache Spark ジョブが含まれています。Workspace1 は Workspace2 に診断を送信します。
Synapse Studio から Job1 を送信します。
ジョブの LogQuery 出力を確認するには何を使用すればよいですか?
Workspace1 には、Container1 にデータを書き込む Job1 という名前の Apache Spark ジョブが含まれています。Workspace1 は Workspace2 に診断を送信します。
Synapse Studio から Job1 を送信します。
ジョブの LogQuery 出力を確認するには何を使用すればよいですか?
正解:D
解答を投票する
あなたは、Microsoft Azure で Lambda アーキテクチャを使用してソリューションを開発しています。
テスト レイヤーのデータは、次の要件を満たす必要があります。
データストレージ:
* リポジトリ (またはさまざまな形式の大量の大きなファイル) として機能します。
* ビッグ データ分析ワークロード用に最適化されたストレージを実装します。
* データが階層構造を使用して編成できることを確認します。
バッチ処理:
* インメモリ計算処理にはマネージド ソリューションを使用します。
* Scala、Python、および R プログラミング言語をネイティブにサポートします。
* クラスターのサイズを変更して自動的に終了する機能を提供します。
分析データ ストア:
* 並列処理をサポートします。
* カラムナストレージを使用します。
* SQL ベースの言語をサポートします。
Lambda アーキテクチャを構築するには、正しいテクノロジーを特定する必要があります。
どのテクノロジを使用する必要がありますか?回答するには、回答エリアで適切なオプションを選択してください。注: 正しい選択ごとに 1 ポイントの価値があります。

テスト レイヤーのデータは、次の要件を満たす必要があります。
データストレージ:
* リポジトリ (またはさまざまな形式の大量の大きなファイル) として機能します。
* ビッグ データ分析ワークロード用に最適化されたストレージを実装します。
* データが階層構造を使用して編成できることを確認します。
バッチ処理:
* インメモリ計算処理にはマネージド ソリューションを使用します。
* Scala、Python、および R プログラミング言語をネイティブにサポートします。
* クラスターのサイズを変更して自動的に終了する機能を提供します。
分析データ ストア:
* 並列処理をサポートします。
* カラムナストレージを使用します。
* SQL ベースの言語をサポートします。
Lambda アーキテクチャを構築するには、正しいテクノロジーを特定する必要があります。
どのテクノロジを使用する必要がありますか?回答するには、回答エリアで適切なオプションを選択してください。注: 正しい選択ごとに 1 ポイントの価値があります。

正解:

Explanation:

Data storage: Azure Data Lake Store
A key mechanism that allows Azure Data Lake Storage Gen2 to provide file system performance at object storage scale and prices is the addition of a hierarchical namespace. This allows the collection of objects/files within an account to be organized into a hierarchy of directories and nested subdirectories in the same way that the file system on your computer is organized. With the hierarchical namespace enabled, a storage account becomes capable of providing the scalability and cost-effectiveness of object storage, with file system semantics that are familiar to analytics engines and frameworks.
Batch processing: HD Insight Spark
Aparch Spark is an open-source, parallel-processing framework that supports in-memory processing to boost the performance of big-data analysis applications.
HDInsight is a managed Hadoop service. Use it deploy and manage Hadoop clusters in Azure. For batch processing, you can use Spark, Hive, Hive LLAP, MapReduce.
Languages: R, Python, Java, Scala, SQL
Analytic data store: SQL Data Warehouse
SQL Data Warehouse is a cloud-based Enterprise Data Warehouse (EDW) that uses Massively Parallel Processing (MPP).
SQL Data Warehouse stores data into relational tables with columnar storage.
References:
https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-namespace
https://docs.microsoft.com/en-us/azure/architecture/data-guide/technology-choices/batch-processing
https://docs.microsoft.com/en-us/azure/sql-data-warehouse/sql-data-warehouse-overview-what-is
Sales という名前の外部テーブルを含む、Pool1 という名前の Azure Synapse Analytics 専用 SQL プールがあります。Sales には売上データが含まれます。Sales の各行には、販売員の名前を含む 1 つの販売に関するデータが含まれています。
行レベル セキュリティ (RLS) を実装する必要があります。このソリューションでは、営業担当者がそれぞれの売上のみにアクセスできるようにする必要があります。
あなたは何をするべきか?回答するには、回答エリアで適切なオプションを選択します。
注: それぞれの正しい選択は 1 ポイントの価値があります。

行レベル セキュリティ (RLS) を実装する必要があります。このソリューションでは、営業担当者がそれぞれの売上のみにアクセスできるようにする必要があります。
あなたは何をするべきか?回答するには、回答エリアで適切なオプションを選択します。
注: それぞれの正しい選択は 1 ポイントの価値があります。

正解:

Explanation:
Box 1: A security policy for sale
Here are the steps to create a security policy for Sales:
Create a user-defined function that returns the name of the current user:
CREATE FUNCTION dbo.GetCurrentUser()
RETURNS NVARCHAR(128)
AS
BEGIN
RETURN SUSER_SNAME();
END;
Create a security predicate function that filters the Sales table based on the current user:
CREATE FUNCTION dbo.SalesPredicate(@salesperson NVARCHAR(128))
RETURNS TABLE
WITH SCHEMABINDING
AS
RETURN SELECT 1 AS access_result
WHERE @salesperson = SalespersonName;
Create a security policy on the Sales table that uses the SalesPredicate function to filter the data:
CREATE SECURITY POLICY SalesFilter
ADD FILTER PREDICATE dbo.SalesPredicate(dbo.GetCurrentUser()) ON dbo.Sales WITH (STATE = ON); By creating a security policy for the Sales table, you ensure that each salesperson can only access their own sales data. The security policy uses a user-defined function to get the name of the current user and a security predicate function to filter the Sales table based on the current user.
Box 2: table-value function
to restrict row access by using row-level security, you need to create a table-valued function that returns a table of values that represent the rows that a user can access. You then use this function in a security policy that applies a predicate on the table.
次の表に示すリソースを含む Azure サブスクリプションがあります。

storage1 アカウントには、container1 という名前のコンテナーが含まれています。 Container1 コンテナには次のファイルが含まれています。

組み込みのサーバーレス SQL プールで、次のスクリプトを実行します。

次の各ステートメントについて、そのステートメントが true の場合は [はい] を選択します。それ以外の場合は、「いいえ」を選択します。 注: 正しく選択するたびに 1 ポイントの価値があります。


storage1 アカウントには、container1 という名前のコンテナーが含まれています。 Container1 コンテナには次のファイルが含まれています。

組み込みのサーバーレス SQL プールで、次のスクリプトを実行します。

次の各ステートメントについて、そのステートメントが true の場合は [はい] を選択します。それ以外の場合は、「いいえ」を選択します。 注: 正しく選択するたびに 1 ポイントの価値があります。

正解:

Explanation:

Pipeline1 という名前の Azure Data Factory データ パイプライン、LA1 という名前の Log Analytics ワークスペース、account1 という名前のストレージ アカウントを含む Azure サブスクリプションがあります。
パイプライン実行データを 90 日間保持する必要があります。ソリューションは次の要件を満たす必要があります。
* パイプライン実行データは 90 日後に自動的に削除する必要があります。
* 継続的なコストは最小限に抑える必要があります。
どの 2 つのアクションを実行する必要がありますか? それぞれの正解は、解決策の一部を示しています。注: 正しく選択するたびに 1 ポイントの価値があります。
パイプライン実行データを 90 日間保持する必要があります。ソリューションは次の要件を満たす必要があります。
* パイプライン実行データは 90 日後に自動的に削除する必要があります。
* 継続的なコストは最小限に抑える必要があります。
どの 2 つのアクションを実行する必要がありますか? それぞれの正解は、解決策の一部を示しています。注: 正しく選択するたびに 1 ポイントの価値があります。
正解:A、B
解答を投票する
次の図に示されている Azure Data Factory パイプラインがあります。

次の図は、最初のパイプライン実行の実行ログを示しています。

2 回目のパイプライン実行の実行ログを次の図に示します。

次の各ステートメントについて、該当する場合は [はい] を選択します。それ以外の場合は、[いいえ] を選択します。 注: 正しい選択はそれぞれ 1 ポイントの価値があります。


次の図は、最初のパイプライン実行の実行ログを示しています。

2 回目のパイプライン実行の実行ログを次の図に示します。

次の各ステートメントについて、該当する場合は [はい] を選択します。それ以外の場合は、[いいえ] を選択します。 注: 正しい選択はそれぞれ 1 ポイントの価値があります。

正解:

Explanation:

CSV ファイルからデータを取り込み、指定された種類のデータに列をキャストし、Azure Synapse Analytic 専用 SQL プールのテーブルにデータを挿入する Azure Data Factory データ フローを作成しています。 CSV ファイルには、ユーザー名、コメント、および日付という 3 つの列が含まれています。
データフローにはすでに次のものが含まれています。
ソース変換。
適切なタイプのデータを設定するための派生列変換
a.
データをプールに入れるためのシンク変換。
データ フローが次の要件を満たしていることを確認する必要があります。
すべての有効な行を宛先テーブルに書き込む必要があります。
コメント列の切り捨てエラーは、積極的に回避する必要があります。
挿入時に切り捨てエラーが発生するコメント値を含む行は、BLOB ストレージ内のファイルに書き込む必要があります。
どの2つのアクションを実行する必要がありますか?それぞれの正解は、ソリューションの一部を示しています。
注: 正しい選択ごとに 1 ポイントの価値があります。
データフローにはすでに次のものが含まれています。
ソース変換。
適切なタイプのデータを設定するための派生列変換
a.
データをプールに入れるためのシンク変換。
データ フローが次の要件を満たしていることを確認する必要があります。
すべての有効な行を宛先テーブルに書き込む必要があります。
コメント列の切り捨てエラーは、積極的に回避する必要があります。
挿入時に切り捨てエラーが発生するコメント値を含む行は、BLOB ストレージ内のファイルに書き込む必要があります。
どの2つのアクションを実行する必要がありますか?それぞれの正解は、ソリューションの一部を示しています。
注: 正しい選択ごとに 1 ポイントの価値があります。
正解:B、C
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)