Databricks-Certified-Professional-Data-Engineer Korean無料問題集「Databricks Certified Professional Data Engineer Exam (Databricks-Certified-Professional-Data-Engineer Korean Version)」

質問 1

데이터 엔지니어는 데이터 레이크에서 대량의 원시 JSON 로그를 가져와 보고용 Delta 테이블로 변환하는 야간 배치 ETL 파이프라인을 구축하는 업무를 맡았습니다. 데이터는 하루에 한 번 대량으로 유입되며, 파이프라인 처리에는 몇 시간이 소요됩니다. 비용 효율성도 중요하지만, 파이프라인 완료의 성능과 신뢰성이 최우선 과제입니다.
데이터 엔지니어는 어떤 유형의 Databricks 클러스터를 구성해야 할까요?

（A）비용 절감을 위해 워커 노드 수가 적은 경량 단일 노드 클러스터입니다.

（B）작업 시작 시 지연 시간을 최소화하기 위해 항상 실행 중인 다목적 클러스터가 있습니다.

（C）파이프라인 실행 중에 여러 워커에 걸쳐 자동 확장되도록 구성된 작업 클러스터입니다.

（D）대화형 SQL 워크로드를 위해 설계된 고동시성 클러스터입니다.

正解：C 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 2

작업 실행 기록 보존과 관련하여 다음 중 어떤 설명이 맞습니까?

（A）60일 동안 보관되며, 이후 로그는 보관소로 이동합니다.

（B）해당 실행 ID는 90일 동안 또는 사용자 지정 실행 구성을 통해 재사용될 때까지 보관됩니다.

（C）데이터는 60일 동안 보관되며, 이 기간 동안 노트북 실행 결과를 HTML로 내보낼 수 있습니다.

（D）작업 실행 로그는 내보내거나 삭제할 때까지 유지됩니다.

（E）해당 데이터는 30일 동안 보관되며, 그 기간 동안 작업 실행 로그를 DBFS 또는 S3에 전송할 수 있습니다.

正解：C 解答を投票する

質問 3

데이터 엔지니어링 팀이 Databricks Unity Catalog에서 액세스 제어를 구성하고 있습니다. 그들은 analyst_group에 sales catalog에 대한 SELECT 권한을 부여했으며, 이 그룹의 구성원은 카탈로그 내의 모든 현재 및 향후 스키마, 테이블 및 뷰에 대한 SELECT 액세스 권한을 자동으로 갖게 될 것으로 예상합니다.
Unity Catalog에서 권한 상속 동작을 어떻게 설명하나요?

（A）Unity 카탈로그의 권한은 계층적으로 적용되지 않습니다. 카탈로그 수준에서 권한이 부여되었더라도 각 스키마 및 테이블에 대해 SELECT 권한을 명시적으로 부여해야 합니다.

（B）스키마 수준에서 부여된 권한은 카탈로그 수준의 권한보다 우선하며 명시적으로 취소하지 않는 한 접근을 차단합니다.

（C）카탈로그 수준에서 SELECT 권한을 부여하는 것은 기존 스키마 및 테이블에는 적용되지만 향후 생성될 스키마 및 테이블에는 적용되지 않습니다.

（D）카탈로그에 SELECT 권한을 부여하면 해당 카탈로그 내의 현재 및 향후 모든 스키마, 테이블 및 뷰에 SELECT 권한이 자동으로 적용됩니다.

正解：A 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 4

주니어 데이터 엔지니어가 Delta Lake의 변경 데이터 피드(Change Data Feed) 기능을 활용하여 `delta.enableChangeDataFeed = true` 속성으로 생성된 브론즈 테이블의 모든 행에 대해 유효했던 모든 값을 나타내는 유형 1 테이블을 생성하려고 합니다. 이 엔지니어는 다음 코드를 매일 실행할 계획입니다.

다음 중 위 쿼리를 여러 번 실행했을 때의 실행 과정과 결과를 가장 잘 설명하는 문장은 무엇입니까?

（A）이 작업이 실행될 때마다 마지막 실행 이후 삽입되거나 업데이트된 레코드만 대상 테이블에 추가되어 원하는 결과를 얻을 수 있습니다.

（B）작업이 실행될 때마다 대상 테이블은 삽입 또는 업데이트된 레코드의 전체 이력으로 덮어쓰여져 원하는 결과를 얻을 수 있습니다.

（C）작업이 실행될 때마다 새로 업데이트된 레코드가 대상 테이블에 병합되어 동일한 기본 키를 가진 이전 값을 덮어씁니다.

（D）작업이 실행될 때마다 삽입 또는 업데이트된 레코드의 전체 이력이 대상 테이블에 추가되어 중복 항목이 많이 발생합니다.

（E）작업이 실행될 때마다 원본 버전과 현재 버전 간의 차이가 계산됩니다. 이로 인해 일부 레코드에 중복 항목이 발생할 수 있습니다.

正解：D 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 5

데이터 엔지니어가 스트리밍 주문 데이터를 처리하기 위해 Lakeflow 선언적 파이프라인을 설계하고 있습니다. 이 파이프라인은 Auto Loader를 사용하여 데이터를 수집하며, customer_id와 amount 값이 0보다 큰지 확인하여 데이터 품질을 보장해야 합니다. 유효하지 않은 레코드는 삭제해야 합니다.
Lakeflow Declarative Pipelines 구성 중 어떤 구성이 Python을 사용하여 이 요구 사항을 구현합니까?

（A）@dlt.table
@dlt.expect( " valid_customer " , " customer_id IS NOT NULL " )
@dlt.expect( " valid_amount " , " amount > 0 " )
def silver_orders():
return dlt.read_stream( " bronze_orders " )

（B）@dlt.table
@dlt.expect_or_drop( " valid_customer " , " customer_id IS NOT NULL " )
@dlt.expect_or_drop( " valid_amount " , " amount > 0 " )
def silver_orders():
return dlt.read_stream( " bronze_orders " )

（C）@dlt.table
def silver_orders():
return (
dlt.read_stream( " bronze_orders " )
.expect_or_drop( " valid_customer " , " customer_id IS NOT NULL " )
.expect_or_drop( " valid_amount " , " amount > 0 " )
)

（D）@dlt.table
def silver_orders():
return (
dlt.read_stream( " bronze_orders " )
.expect( " valid_customer " , " customer_id IS NOT NULL " )
.expect( " valid_amount " , " amount > 0 " )
)

正解：C 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 6

데이터 엔지니어링 팀은 고객 데이터 삭제(잊혀질 만한 데이터) 요청을 처리하는 작업을 구성했습니다. 삭제해야 할 모든 사용자 데이터는 기본 테이블 설정을 사용하여 Delta Lake 테이블에 저장됩니다.
팀은 지난주 삭제된 모든 데이터를 매주 일요일 새벽 1시에 일괄 처리하기로 결정했습니다. 이 작업의 총 소요 시간은 1시간 미만입니다. 또한 매주 월요일 새벽 3시에는 일괄 작업이 조직 전체의 Delta Lake 테이블에 대해 일련의 VACUUM 명령을 실행합니다.
준법감시 담당자는 최근 Delta Lake의 타임 트래블 기능에 대해 알게 되었습니다. 이 기능으로 인해 삭제된 데이터에 계속 접근할 수 있을 가능성을 우려하고 있습니다.
모든 삭제 로직이 올바르게 구현되었다고 가정할 때, 다음 중 이 문제를 정확하게 해결하는 문장은 무엇입니까?

（A）vacuum 명령어는 삭제된 레코드가 포함된 모든 파일을 영구적으로 삭제하기 때문에, 타임 트래블을 이용하면 약 24시간 동안 삭제된 레코드에 접근할 수 있습니다.

（B）기본 데이터 보존 기간이 7일이므로 삭제된 레코드가 포함된 데이터 파일은 8일 후에 진공 작업이 실행될 때까지 보존됩니다.

（C）Delta Lake의 타임 트래블 기능은 테이블의 전체 기록에 대한 완전한 접근 권한을 제공하므로, 관리자 권한이 있는 사용자는 삭제된 레코드를 언제든지 다시 생성할 수 있습니다.

（D）기본 데이터 보존 기간이 24시간이므로 삭제된 레코드가 포함된 데이터 파일은 다음 날 진공 작업이 실행될 때까지 보존됩니다.

（E）Delta Lake의 삭제 문은 ACID를 보장하므로 삭제 작업이 완료되는 즉시 삭제된 레코드는 모든 스토리지 시스템에서 영구적으로 제거됩니다.

正解：B 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 7

Spark UI에서 술어 푸시다운을 활용하지 않아 발생하는 성능 문제를 진단할 수 있는 곳은 어디인가요?

（A）Delta Lake 거래 로그에서 열 통계를 확인하여

（B）실행기 로그 파일에서 "술어 푸시다운"을 검색하여

（C）조회 상세 화면에서 물리적 도면을 해석하여

（D）저장소 상세 화면에서 디스크에 저장되지 않은 RDD를 확인합니다.

（E）단계 상세 화면의 완료된 단계 표에서 입력 열에서 읽은 데이터 크기를 확인합니다.

正解：C 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 8

Databricks Auto Loader의 기본 실행 모드를 설명하는 문장은 무엇입니까?

（A）새 파일은 입력 디렉터리를 나열하여 식별하고, 대상 테이블은 소스 디렉터리의 모든 유효한 파일을 디렉터리 쿼리하여 구체화합니다.

（B）클라우드 공급업체별 큐 스토리지 및 알림 서비스가 구성되어 새로 도착하는 파일을 추적합니다. 새 파일은 대상 Delta Lake 테이블에 점진적으로 그리고 비활성 상태로 저장됩니다.

（C）새 파일은 입력 디렉터리 목록을 통해 식별되며, 새 파일은 대상 Delta Lake 테이블에 점진적으로 그리고 멱등적으로 로드됩니다.

（D）웹훅 트리거를 통해 소스 디렉터리에 새 데이터가 도착할 때마다 Databricks 작업이 실행됩니다. 새 데이터는 데이터에서 추론된 규칙을 사용하여 대상 테이블에 자동으로 병합됩니다.

正解：C 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

Databricks-Certified-Professional-Data-Engineer Korean 無料問題集「Databricks Certified Professional Data Engineer Exam (Databricks-Certified-Professional-Data-Engineer Korean Version)」

弊社を連絡する

関連リンク

トップ試験