v25.1.2

eric-matelyan-veeva · eric-matelyan-veeva · commit 31bf69b6ae5a · 2025-06-03T15:27:45.000-04:00
diff --git a/.gitignore b/.gitignore
@@ -4,27 +4,32 @@ drop_tables_in_schema.py
 *.pyc
 /.idea
 Vault-Direct-Data-Python-Scripts.iml
-/direct-data/*
-/resources/*
-hr/*
+/vaults/*
+/direct_data_testing_lr/*
+/finance/*
 
+/accelerators/databricks/accelerator_test.py
+/accelerators/redshift/accelerator_test.py
+/accelerators/snowflake/accelerator_test.py
+/accelerators/sql_database/accelerator_test.py
 /accelerators/databricks/resources/finance/
 /accelerators/databricks/resources/hr/
+/accelerators/databricks/resources/direct_data_testing_lr/
+/accelerators/databricks/resources/hr_demo/
 /accelerators/snowflake/resources/finance/
 /accelerators/snowflake/resources/hr/
+/accelerators/snowflake/resources/direct_data_testing_lr/
+/accelerators/snowflake/resources/hr_demo/
 /accelerators/redshift/resources/finance/
 /accelerators/redshift/resources/hr/
-/direct-data/
-/accelerators/redshift/resources/finance
-/accelerators/redshift/direct-data
-/accelerators/databricks/accelerator_test.py
-/accelerators/redshift/accelerator_test.py
-/accelerators/snowflake/accelerator_test.py
-/hr/
 /accelerators/redshift/resources/direct_data_testing_lr/
 /accelerators/redshift/resources/hr_demo/
-/accelerators/snowflake/resources/direct_data_testing_lr/
-/accelerators/snowflake/resources/hr_demo/
-/accelerators/databricks/resources/direct_data_testing_lr/
-/accelerators/databricks/resources/hr_demo/
-/hr_demo/
+/accelerators/sql_database/resources/finance/
+/accelerators/sql_database/resources/hr/
+/accelerators/sql_database/resources/direct_data_testing_lr/
+/accelerators/sql_database/resources/hr_demo/
+/direct-data/
+/hr/
+
+/vaults
+csv_to_parquet.py
diff --git a/accelerators/databricks/scripts/extract_doc_content.py b/accelerators/databricks/scripts/extract_doc_content.py
@@ -3,6 +3,8 @@
 
 from pandas import Series
 
+import pyrfc6266
+
 from common.services.aws_s3_service import AwsS3Service
 from common.services.vault_service import VaultService
 from common.api.model.response.document_response import DocumentExportResponse
@@ -92,9 +94,10 @@ def run(s3_service: AwsS3Service, vault_service: VaultService, convert_to_parque
                         # If the individual document export was successful, download it and put on S3.
                         if exported_document.responseStatus == "SUCCESS":
                             file_staging_response: VaultResponse = vault_service.download_item_from_file_staging(exported_document=exported_document)
+                            filename: str = pyrfc6266.parse_filename(file_staging_response.headers.get("Content-Disposition"))
                             log_message(log_level='Debug',
                                         message=f'File Staging results: {file_staging_response.responseMessage}')
-                            s3_service.put_object(key=f'{direct_data_folder}/{exported_document.id}_{exported_document.major_version_number__v}_{exported_document.minor_version_number__v}',
+                            s3_service.put_object(key=f'{direct_data_folder}/{exported_document.id}/{exported_document.major_version_number__v}_{exported_document.minor_version_number__v}/{filename}',
                                                   body=file_staging_response.binary_content)
                     is_vault_job_finished = True
                 else:
diff --git a/accelerators/databricks/scripts/load_data.py b/accelerators/databricks/scripts/load_data.py
@@ -141,7 +141,7 @@ def handle_metadata_changes(s3_service: AwsS3Service,
 def run(s3_service: AwsS3Service, databricks_service: DatabricksService, direct_data_params: dict,
         convert_to_parquet: bool):
     log_message(log_level='Info',
-                message=f'---Executing load_data_into_databricks.py---')
+                message=f'---Executing load_data.py---')
     try:
         databricks_service.db_connection.open()
         starting_directory = f"{s3_service.direct_data_folder}/{s3_service.extract_folder}"
diff --git a/accelerators/redshift/scripts/extract_doc_content.py b/accelerators/redshift/scripts/extract_doc_content.py
@@ -3,6 +3,8 @@
 
 from pandas import Series
 
+import pyrfc6266
+
 from common.services.aws_s3_service import AwsS3Service
 from common.services.vault_service import VaultService
 from common.api.model.response.document_response import DocumentExportResponse
@@ -93,9 +95,10 @@ def run(s3_service: AwsS3Service, vault_service: VaultService, convert_to_parque
                         # If the individual document export was successful, download it and put on S3.
                         if exported_document.responseStatus == "SUCCESS":
                             file_staging_response: VaultResponse = vault_service.download_item_from_file_staging(exported_document=exported_document)
+                            filename: str = pyrfc6266.parse_filename(file_staging_response.headers.get("Content-Disposition"))
                             log_message(log_level='Debug',
                                         message=f'File Staging results: {file_staging_response.responseMessage}')
-                            s3_service.put_object(key=f'{direct_data_folder}/{exported_document.id}_{exported_document.major_version_number__v}_{exported_document.minor_version_number__v}',
+                            s3_service.put_object(key=f'{direct_data_folder}/{exported_document.id}/{exported_document.major_version_number__v}_{exported_document.minor_version_number__v}/{filename}',
                                                   body=file_staging_response.binary_content)
                     is_vault_job_finished = True
                 else:
diff --git a/accelerators/redshift/scripts/load_data.py b/accelerators/redshift/scripts/load_data.py
@@ -102,9 +102,9 @@ def handle_metadata_deletes(s3_service: AwsS3Service,
             redshift_service.db_connection.execute_query(drop_table_command)
         else:
             if columns:
-                alter_command = f"""ALTER TABLE {redshift_service.schema}.{table_name} 
-                                        {", ".join(f'DROP COLUMN "{col}"' for col in columns)}"""
-                redshift_service.db_connection.execute_query(alter_command)
+                for col in columns:
+                    alter_command = f"""ALTER TABLE {redshift_service.schema}.{table_name} DROP COLUMN "{col}";"""
+                    redshift_service.db_connection.execute_query(alter_command)
 
 
 def handle_metadata_changes(s3_service: AwsS3Service,
@@ -217,7 +217,7 @@ def load_data_into_tables(redshift_service: RedshiftService,
 
 def run(s3_service: AwsS3Service, redshift_service: RedshiftService, direct_data_params: dict):
     log_message(log_level='Info',
-                message=f'---Executing load_data_into_snowflake.py---')
+                message=f'---Executing load_data.py---')
     try:
         starting_directory = f"{s3_service.direct_data_folder}/{s3_service.extract_folder}"
         extract_type = direct_data_params['extract_type']
diff --git a/accelerators/snowflake/scripts/extract_doc_content.py b/accelerators/snowflake/scripts/extract_doc_content.py
@@ -3,6 +3,8 @@
 
 from pandas import Series
 
+import pyrfc6266
+
 from common.services.aws_s3_service import AwsS3Service
 from common.services.vault_service import VaultService
 from common.api.model.response.document_response import DocumentExportResponse
@@ -91,9 +93,10 @@ def run(s3_service: AwsS3Service, vault_service: VaultService, convert_to_parque
                         # If the individual document export was successful, download it and put on S3.
                         if exported_document.responseStatus == "SUCCESS":
                             file_staging_response: VaultResponse = vault_service.download_item_from_file_staging(exported_document=exported_document)
+                            filename: str = pyrfc6266.parse_filename(file_staging_response.headers.get("Content-Disposition"))
                             log_message(log_level='Debug',
                                         message=f'File Staging results: {file_staging_response.responseMessage}')
-                            s3_service.put_object(key=f'{direct_data_folder}/{exported_document.id}_{exported_document.major_version_number__v}_{exported_document.minor_version_number__v}',
+                            s3_service.put_object(key=f'{direct_data_folder}/{exported_document.id}/{exported_document.major_version_number__v}_{exported_document.minor_version_number__v}/{filename}',
                                                   body=file_staging_response.binary_content)
                     is_vault_job_finished = True
                 else:
diff --git a/accelerators/snowflake/scripts/load_data.py b/accelerators/snowflake/scripts/load_data.py
@@ -142,7 +142,7 @@ def handle_metadata_changes(s3_service: AwsS3Service,
 def run(s3_service: AwsS3Service, snowflake_service: SnowflakeService, direct_data_params: dict,
         convert_to_parquet: bool):
     log_message(log_level='Info',
-                message=f'---Executing load_data_into_snowflake.py---')
+                message=f'---Executing load_data.py---')
     try:
         starting_directory = f"{s3_service.direct_data_folder}/{s3_service.extract_folder}"
         extract_type = direct_data_params['extract_type']
diff --git a/requirements.txt b/requirements.txt
@@ -20,4 +20,5 @@ fastparquet
 snowflake-connector-python
 pyodbc~=5.2.0
 cryptography~=44.0.0
-PyJWT~=2.10.1
+PyJWT~=2.10.1
+pyrfc6266~=1.0.2