From ddf24b3cbcf0f91bab8ccdde9c80ed0448a18bc0 Mon Sep 17 00:00:00 2001
From: Michael Duong <michaelduong22@gmail.com>
Date: Thu, 6 Jun 2024 23:15:05 +0100
Subject: [PATCH 1/4] add clipping for both starting and ending for top 1 and
 99 percent

---
 .../configs/feature_processor_logic.py        | 28 ++++++++++-
 modules/ml-pipeline/src/pipeline/dvc.lock     | 46 +++++++++----------
 2 files changed, 49 insertions(+), 25 deletions(-)

diff --git a/modules/ml-pipeline/src/pipeline/configs/feature_processor_logic.py b/modules/ml-pipeline/src/pipeline/configs/feature_processor_logic.py
index 1094862..89ba2be 100644
--- a/modules/ml-pipeline/src/pipeline/configs/feature_processor_logic.py
+++ b/modules/ml-pipeline/src/pipeline/configs/feature_processor_logic.py
@@ -40,13 +40,34 @@ def remove_unreasonable_habitable_rooms(df):
     return df
 
 
-def remove_top_1_percent_heat_demand(df):
+def remove_top_1_percent_heat_demand_starting(df):
     # threshold_value = df.describe(percentiles=[0.99])['HEAT_DEMAND_STARTING']['99%']
     threshold_value = 860
     df = df[df["heat_demand_starting"] < threshold_value]
     return df
 
 
+def remove_bottom_1_percent_heat_demand_starting(df):
+    # threshold_value = df.describe(percentiles=[0.99])['HEAT_DEMAND_STARTING']['99%']
+    threshold_value = 137
+    df = df[df["heat_demand_starting"] > threshold_value]
+    return df
+
+
+def remove_top_1_percent_heat_demand_ending(df):
+    # threshold_value = df.describe(percentiles=[0.99])['HEAT_DEMAND_STARTING']['99%']
+    threshold_value = 593
+    df = df[df["heat_demand_ending"] < threshold_value]
+    return df
+
+
+def remove_bottom_1_percent_heat_demand_ending(df):
+    # threshold_value = df.describe(percentiles=[0.99])['HEAT_DEMAND_STARTING']['99%']
+    threshold_value = 70
+    df = df[df["heat_demand_ending"] > threshold_value]
+    return df
+
+
 def remove_top_1_percent_carbon(df):
     # threshold_value = df.describe(percentiles=[0.99])['CARBON_STARTING']['99%']
     threshold_value = 18
@@ -66,7 +87,10 @@ business_logic = {
     "remove_unreasonable_habitable_rooms": remove_unreasonable_habitable_rooms,
     "keep_negative_heat_change": keep_negative_heat_change,
     "keep_negative_carbon_change": keep_negative_carbon_change,
-    "remove_top_1_percent_heat_demand": remove_top_1_percent_heat_demand,
+    "remove_top_1_percent_heat_demand": remove_top_1_percent_heat_demand_starting,
+    "remove_bottom_1_percent_heat_demand": remove_bottom_1_percent_heat_demand_starting,
+    "remove_top_1_percent_heat_demand_ending": remove_top_1_percent_heat_demand_ending,
+    "remove_bottom_1_percent_heat_demand_ending": remove_bottom_1_percent_heat_demand_ending,
     "remove_top_1_percent_carbon": remove_top_1_percent_carbon,
     # "remove_starting_columns": remove_starting_columns
     # "keep_ENDING_COLUMNS": keep_ending_columns
diff --git a/modules/ml-pipeline/src/pipeline/dvc.lock b/modules/ml-pipeline/src/pipeline/dvc.lock
index fa9148c..9267aa7 100644
--- a/modules/ml-pipeline/src/pipeline/dvc.lock
+++ b/modules/ml-pipeline/src/pipeline/dvc.lock
@@ -49,8 +49,8 @@ stages:
     outs:
     - path: data/prepared_data/
       hash: md5
-      md5: 13cd955d579de20efe743f82bc434c7e.dir
-      size: 37294025
+      md5: 083fceee99ad873f2e248d8b9839d385.dir
+      size: 35914893
       nfiles: 2
   build_model:
     cmd: python 2_build_model.py
@@ -61,8 +61,8 @@ stages:
       size: 4820
     - path: data/prepared_data
       hash: md5
-      md5: 13cd955d579de20efe743f82bc434c7e.dir
-      size: 37294025
+      md5: 083fceee99ad873f2e248d8b9839d385.dir
+      size: 35914893
       nfiles: 2
     params:
       configs/build_model.yaml:
@@ -94,17 +94,17 @@ stages:
     outs:
     - path: data/fit_predictions/
       hash: md5
-      md5: b9c9ca64ea6973c409c3a7b8f8ed0c3e.dir
-      size: 2902493
+      md5: 00c1b7516f310d392aeef71fc4921ce3.dir
+      size: 2838428
       nfiles: 1
     - path: data/model/
       hash: md5
-      md5: a9215bba342ed7ec3f97815dfef94e48.dir
-      size: 727501601
-      nfiles: 36
+      md5: 24520b79d5624e76ac760fa35b02eaf3.dir
+      size: 681087101
+      nfiles: 35
     - path: metrics/fit_metrics.json
       hash: md5
-      md5: 548a431d58cd4f5a3118235dec734372
+      md5: fd9aefe2f6fcdada0fc22cb8ccdb3f2f
       size: 219
   generate_predictions:
     cmd: python 3_generate_predictions.py
@@ -115,13 +115,13 @@ stages:
       size: 2464
     - path: data/model
       hash: md5
-      md5: a9215bba342ed7ec3f97815dfef94e48.dir
-      size: 727501601
-      nfiles: 36
+      md5: 24520b79d5624e76ac760fa35b02eaf3.dir
+      size: 681087101
+      nfiles: 35
     - path: data/prepared_data
       hash: md5
-      md5: 13cd955d579de20efe743f82bc434c7e.dir
-      size: 37294025
+      md5: 083fceee99ad873f2e248d8b9839d385.dir
+      size: 35914893
       nfiles: 2
     params:
       configs/settings.yaml:
@@ -133,8 +133,8 @@ stages:
     outs:
     - path: data/predictions/
       hash: md5
-      md5: 484781d6b359e458a25e9ab728d6514d.dir
-      size: 380517
+      md5: 06e63ec07a27906d17c7797bd700efaf.dir
+      size: 370313
       nfiles: 1
   generate_metrics:
     cmd: python 4_generate_metrics.py
@@ -145,13 +145,13 @@ stages:
       size: 3447
     - path: data/predictions
       hash: md5
-      md5: 484781d6b359e458a25e9ab728d6514d.dir
-      size: 380517
+      md5: 06e63ec07a27906d17c7797bd700efaf.dir
+      size: 370313
       nfiles: 1
     - path: data/prepared_data
       hash: md5
-      md5: 13cd955d579de20efe743f82bc434c7e.dir
-      size: 37294025
+      md5: 083fceee99ad873f2e248d8b9839d385.dir
+      size: 35914893
       nfiles: 2
     params:
       configs/settings.yaml:
@@ -161,8 +161,8 @@ stages:
     outs:
     - path: metrics/metrics.json
       hash: md5
-      md5: 4d246765aff7c45079d02b4d8f7527f7
-      size: 220
+      md5: fc514bac3fa5140eb5568cd96b68b56a
+      size: 223
   generate_scenerio_metrics:
     cmd: python 5_generate_scenarios.py
     deps:

From 8cfe43b22d0a405b196bb01c78bed5550f6c20d3 Mon Sep 17 00:00:00 2001
From: Michael Duong <michaelduong22@gmail.com>
Date: Sat, 8 Jun 2024 10:05:38 +0100
Subject: [PATCH 2/4] reduce strictness of the lower threshold to below 0

---
 .../configs/feature_processor_logic.py        | 24 +++++-----
 modules/ml-pipeline/src/pipeline/dvc.lock     | 48 +++++++++----------
 2 files changed, 36 insertions(+), 36 deletions(-)

diff --git a/modules/ml-pipeline/src/pipeline/configs/feature_processor_logic.py b/modules/ml-pipeline/src/pipeline/configs/feature_processor_logic.py
index 89ba2be..6487fed 100644
--- a/modules/ml-pipeline/src/pipeline/configs/feature_processor_logic.py
+++ b/modules/ml-pipeline/src/pipeline/configs/feature_processor_logic.py
@@ -47,23 +47,23 @@ def remove_top_1_percent_heat_demand_starting(df):
     return df
 
 
-def remove_bottom_1_percent_heat_demand_starting(df):
+def remove_negative_heat_demand_starting(df):
     # threshold_value = df.describe(percentiles=[0.99])['HEAT_DEMAND_STARTING']['99%']
-    threshold_value = 137
+    threshold_value = 0
     df = df[df["heat_demand_starting"] > threshold_value]
     return df
 
 
-def remove_top_1_percent_heat_demand_ending(df):
-    # threshold_value = df.describe(percentiles=[0.99])['HEAT_DEMAND_STARTING']['99%']
-    threshold_value = 593
-    df = df[df["heat_demand_ending"] < threshold_value]
-    return df
+# def remove_top_1_percent_heat_demand_ending(df):
+#     # threshold_value = df.describe(percentiles=[0.99])['HEAT_DEMAND_STARTING']['99%']
+#     threshold_value = 593
+#     df = df[df["heat_demand_ending"] < threshold_value]
+#     return df
 
 
-def remove_bottom_1_percent_heat_demand_ending(df):
+def remove_negative_heat_demand_ending(df):
     # threshold_value = df.describe(percentiles=[0.99])['HEAT_DEMAND_STARTING']['99%']
-    threshold_value = 70
+    threshold_value = 0
     df = df[df["heat_demand_ending"] > threshold_value]
     return df
 
@@ -88,9 +88,9 @@ business_logic = {
     "keep_negative_heat_change": keep_negative_heat_change,
     "keep_negative_carbon_change": keep_negative_carbon_change,
     "remove_top_1_percent_heat_demand": remove_top_1_percent_heat_demand_starting,
-    "remove_bottom_1_percent_heat_demand": remove_bottom_1_percent_heat_demand_starting,
-    "remove_top_1_percent_heat_demand_ending": remove_top_1_percent_heat_demand_ending,
-    "remove_bottom_1_percent_heat_demand_ending": remove_bottom_1_percent_heat_demand_ending,
+    "remove_negative_heat_demand_starting": remove_negative_heat_demand_starting,
+    # "remove_top_1_percent_heat_demand_ending": remove_top_1_percent_heat_demand_ending,
+    "remove_negative_heat_demand_ending": remove_negative_heat_demand_ending,
     "remove_top_1_percent_carbon": remove_top_1_percent_carbon,
     # "remove_starting_columns": remove_starting_columns
     # "keep_ENDING_COLUMNS": keep_ending_columns
diff --git a/modules/ml-pipeline/src/pipeline/dvc.lock b/modules/ml-pipeline/src/pipeline/dvc.lock
index 9267aa7..d7c0ce5 100644
--- a/modules/ml-pipeline/src/pipeline/dvc.lock
+++ b/modules/ml-pipeline/src/pipeline/dvc.lock
@@ -49,8 +49,8 @@ stages:
     outs:
     - path: data/prepared_data/
       hash: md5
-      md5: 083fceee99ad873f2e248d8b9839d385.dir
-      size: 35914893
+      md5: 63af74a6d808f37d7ab0010300e3f6bf.dir
+      size: 37110480
       nfiles: 2
   build_model:
     cmd: python 2_build_model.py
@@ -61,8 +61,8 @@ stages:
       size: 4820
     - path: data/prepared_data
       hash: md5
-      md5: 083fceee99ad873f2e248d8b9839d385.dir
-      size: 35914893
+      md5: 63af74a6d808f37d7ab0010300e3f6bf.dir
+      size: 37110480
       nfiles: 2
     params:
       configs/build_model.yaml:
@@ -94,18 +94,18 @@ stages:
     outs:
     - path: data/fit_predictions/
       hash: md5
-      md5: 00c1b7516f310d392aeef71fc4921ce3.dir
-      size: 2838428
+      md5: adc6e6cd0b396d9327123cabc0f3409e.dir
+      size: 2901081
       nfiles: 1
     - path: data/model/
       hash: md5
-      md5: 24520b79d5624e76ac760fa35b02eaf3.dir
-      size: 681087101
-      nfiles: 35
+      md5: 191092d9ed4218368408af7907aff787.dir
+      size: 719293313
+      nfiles: 36
     - path: metrics/fit_metrics.json
       hash: md5
-      md5: fd9aefe2f6fcdada0fc22cb8ccdb3f2f
-      size: 219
+      md5: feb839b11d75217c02ee8b3d13362324
+      size: 223
   generate_predictions:
     cmd: python 3_generate_predictions.py
     deps:
@@ -115,13 +115,13 @@ stages:
       size: 2464
     - path: data/model
       hash: md5
-      md5: 24520b79d5624e76ac760fa35b02eaf3.dir
-      size: 681087101
-      nfiles: 35
+      md5: 191092d9ed4218368408af7907aff787.dir
+      size: 719293313
+      nfiles: 36
     - path: data/prepared_data
       hash: md5
-      md5: 083fceee99ad873f2e248d8b9839d385.dir
-      size: 35914893
+      md5: 63af74a6d808f37d7ab0010300e3f6bf.dir
+      size: 37110480
       nfiles: 2
     params:
       configs/settings.yaml:
@@ -133,8 +133,8 @@ stages:
     outs:
     - path: data/predictions/
       hash: md5
-      md5: 06e63ec07a27906d17c7797bd700efaf.dir
-      size: 370313
+      md5: 794b1fb87d0693694782bef4d7443dfb.dir
+      size: 380445
       nfiles: 1
   generate_metrics:
     cmd: python 4_generate_metrics.py
@@ -145,13 +145,13 @@ stages:
       size: 3447
     - path: data/predictions
       hash: md5
-      md5: 06e63ec07a27906d17c7797bd700efaf.dir
-      size: 370313
+      md5: 794b1fb87d0693694782bef4d7443dfb.dir
+      size: 380445
       nfiles: 1
     - path: data/prepared_data
       hash: md5
-      md5: 083fceee99ad873f2e248d8b9839d385.dir
-      size: 35914893
+      md5: 63af74a6d808f37d7ab0010300e3f6bf.dir
+      size: 37110480
       nfiles: 2
     params:
       configs/settings.yaml:
@@ -161,8 +161,8 @@ stages:
     outs:
     - path: metrics/metrics.json
       hash: md5
-      md5: fc514bac3fa5140eb5568cd96b68b56a
-      size: 223
+      md5: c0db9fdd237e4cae5692884d70bb4d4c
+      size: 221
   generate_scenerio_metrics:
     cmd: python 5_generate_scenarios.py
     deps:

From a5574cd1e77db16744fd9c8e6cfbb5a95db9e145 Mon Sep 17 00:00:00 2001
From: Michael Duong <michaelduong22@gmail.com>
Date: Sun, 9 Jun 2024 11:28:34 +0100
Subject: [PATCH 3/4] try new data from epc with adjusted feature processing

---
 .../src/pipeline/configs/settings.yaml        |  3 +-
 modules/ml-pipeline/src/pipeline/dvc.lock     | 46 +++++++++----------
 2 files changed, 25 insertions(+), 24 deletions(-)

diff --git a/modules/ml-pipeline/src/pipeline/configs/settings.yaml b/modules/ml-pipeline/src/pipeline/configs/settings.yaml
index 75006d7..1b1f836 100644
--- a/modules/ml-pipeline/src/pipeline/configs/settings.yaml
+++ b/modules/ml-pipeline/src/pipeline/configs/settings.yaml
@@ -21,7 +21,8 @@ default:
     # data_filepath: s3://retrofit-data-dev/sap_change_model/2024-03-22-18-56-53/dataset_rooms.parquet
     # data_filepath: s3://retrofit-data-dev/sap_change_model/2024-05-25-08-36-36/dataset_rooms.parquet
     # data_filepath: s3://retrofit-data-dev/sap_change_model/2024-05-26-10-31-39/dataset_rooms.parquet
-    data_filepath: s3://retrofit-data-dev/sap_change_model/2024-05-28-19-08-25/dataset_rooms.parquet
+    # data_filepath: s3://retrofit-data-dev/sap_change_model/2024-05-28-19-08-25/dataset_rooms.parquet
+    data_filepath: s3://retrofit-data-dev/sap_change_model/2024-06-09-10-36-53/dataset_rooms.parquet
     train_proportion: 0.9
     output_train_filepath: ./data/prepared_data/train.parquet
     output_test_filepath: ./data/prepared_data/test.parquet
diff --git a/modules/ml-pipeline/src/pipeline/dvc.lock b/modules/ml-pipeline/src/pipeline/dvc.lock
index d7c0ce5..7b6b7cb 100644
--- a/modules/ml-pipeline/src/pipeline/dvc.lock
+++ b/modules/ml-pipeline/src/pipeline/dvc.lock
@@ -40,7 +40,7 @@ stages:
         default.feature_processor.feature_processor_config.target: heat_demand_ending
         default.feature_processor.feature_processor_type: dataframe
         default.prepare_data.data_filepath:
-          s3://retrofit-data-dev/sap_change_model/2024-05-28-19-08-25/dataset_rooms.parquet
+          s3://retrofit-data-dev/sap_change_model/2024-06-09-10-36-53/dataset_rooms.parquet
         default.prepare_data.input_dataclient_type: aws-s3
         default.prepare_data.output_dataclient_type: local
         default.prepare_data.output_test_filepath: ./data/prepared_data/test.parquet
@@ -49,8 +49,8 @@ stages:
     outs:
     - path: data/prepared_data/
       hash: md5
-      md5: 63af74a6d808f37d7ab0010300e3f6bf.dir
-      size: 37110480
+      md5: 836c0dde274564fe214246c62b318aa6.dir
+      size: 38248585
       nfiles: 2
   build_model:
     cmd: python 2_build_model.py
@@ -61,8 +61,8 @@ stages:
       size: 4820
     - path: data/prepared_data
       hash: md5
-      md5: 63af74a6d808f37d7ab0010300e3f6bf.dir
-      size: 37110480
+      md5: 836c0dde274564fe214246c62b318aa6.dir
+      size: 38248585
       nfiles: 2
     params:
       configs/build_model.yaml:
@@ -94,18 +94,18 @@ stages:
     outs:
     - path: data/fit_predictions/
       hash: md5
-      md5: adc6e6cd0b396d9327123cabc0f3409e.dir
-      size: 2901081
+      md5: 894bbcfbb3ec256d7ec263625c0b6476.dir
+      size: 2967600
       nfiles: 1
     - path: data/model/
       hash: md5
-      md5: 191092d9ed4218368408af7907aff787.dir
-      size: 719293313
+      md5: 6eb74e559b8264c7e3f4ebbd2e2dcdf5.dir
+      size: 723269665
       nfiles: 36
     - path: metrics/fit_metrics.json
       hash: md5
-      md5: feb839b11d75217c02ee8b3d13362324
-      size: 223
+      md5: 84f3dd138e912a64d8ed2d648e6828d3
+      size: 222
   generate_predictions:
     cmd: python 3_generate_predictions.py
     deps:
@@ -115,13 +115,13 @@ stages:
       size: 2464
     - path: data/model
       hash: md5
-      md5: 191092d9ed4218368408af7907aff787.dir
-      size: 719293313
+      md5: 6eb74e559b8264c7e3f4ebbd2e2dcdf5.dir
+      size: 723269665
       nfiles: 36
     - path: data/prepared_data
       hash: md5
-      md5: 63af74a6d808f37d7ab0010300e3f6bf.dir
-      size: 37110480
+      md5: 836c0dde274564fe214246c62b318aa6.dir
+      size: 38248585
       nfiles: 2
     params:
       configs/settings.yaml:
@@ -133,8 +133,8 @@ stages:
     outs:
     - path: data/predictions/
       hash: md5
-      md5: 794b1fb87d0693694782bef4d7443dfb.dir
-      size: 380445
+      md5: ef2bc137de75c36b7496e99048d16618.dir
+      size: 391474
       nfiles: 1
   generate_metrics:
     cmd: python 4_generate_metrics.py
@@ -145,13 +145,13 @@ stages:
       size: 3447
     - path: data/predictions
       hash: md5
-      md5: 794b1fb87d0693694782bef4d7443dfb.dir
-      size: 380445
+      md5: ef2bc137de75c36b7496e99048d16618.dir
+      size: 391474
       nfiles: 1
     - path: data/prepared_data
       hash: md5
-      md5: 63af74a6d808f37d7ab0010300e3f6bf.dir
-      size: 37110480
+      md5: 836c0dde274564fe214246c62b318aa6.dir
+      size: 38248585
       nfiles: 2
     params:
       configs/settings.yaml:
@@ -161,8 +161,8 @@ stages:
     outs:
     - path: metrics/metrics.json
       hash: md5
-      md5: c0db9fdd237e4cae5692884d70bb4d4c
-      size: 221
+      md5: 0edb8ad9060a115617d41c72684b177c
+      size: 219
   generate_scenerio_metrics:
     cmd: python 5_generate_scenarios.py
     deps:

From 343d508cad8e71a40e4ba96f5e5723c8ed17157d Mon Sep 17 00:00:00 2001
From: Michael Duong <michaelduong22@gmail.com>
Date: Sun, 6 Oct 2024 21:38:34 +0100
Subject: [PATCH 4/4] add carbon model with september data

---
 deployment/Dockerfile.prediction.lambda       |  6 +-
 modules/ml-pipeline/src/Prediction.Dockerfile |  7 ++-
 .../src/pipeline/configs/settings.yaml        |  9 +--
 modules/ml-pipeline/src/pipeline/dvc.lock     | 56 ++++++++++---------
 4 files changed, 44 insertions(+), 34 deletions(-)

diff --git a/deployment/Dockerfile.prediction.lambda b/deployment/Dockerfile.prediction.lambda
index f8000bf..9ee4306 100644
--- a/deployment/Dockerfile.prediction.lambda
+++ b/deployment/Dockerfile.prediction.lambda
@@ -13,7 +13,11 @@ RUN yum install -y gcc python3-devel gcc-c++
 
 # Install python packages
 COPY modules/ml-pipeline/src/pipeline/requirements/predictions/requirements.txt ./requirements.txt
-RUN pip install --no-cache-dir -r ./requirements.txt
+
+RUN pip install uv
+
+RUN uv pip install -r requirements.txt --system
+# RUN pip install --no-cache-dir -r ./requirements.txt
 
 # Copy the project code
 COPY modules/ml-pipeline/src/pipeline ./pipeline
diff --git a/modules/ml-pipeline/src/Prediction.Dockerfile b/modules/ml-pipeline/src/Prediction.Dockerfile
index e0a292c..b5d4e97 100644
--- a/modules/ml-pipeline/src/Prediction.Dockerfile
+++ b/modules/ml-pipeline/src/Prediction.Dockerfile
@@ -5,8 +5,11 @@ RUN apt-get update && apt-get install -y libgomp1 gcc python3-dev
 
 COPY pipeline/requirements/predictions/requirements.txt requirements.txt
 
-RUN pip install --upgrade pip
-RUN pip install -r requirements.txt
+RUN pip install uv
+
+RUN uv pip install -r requirements.txt --system
+
+# RUN pip install -r requirements.txt
 
 # Assuming in the CI/CD step, there will be a dvc pull step to get data and model, so will just need to run a single script
 COPY pipeline/ /home/pipeline/
diff --git a/modules/ml-pipeline/src/pipeline/configs/settings.yaml b/modules/ml-pipeline/src/pipeline/configs/settings.yaml
index 1b1f836..c25c512 100644
--- a/modules/ml-pipeline/src/pipeline/configs/settings.yaml
+++ b/modules/ml-pipeline/src/pipeline/configs/settings.yaml
@@ -18,11 +18,8 @@ default:
   prepare_data:
     input_dataclient_type: aws-s3
     output_dataclient_type: local
-    # data_filepath: s3://retrofit-data-dev/sap_change_model/2024-03-22-18-56-53/dataset_rooms.parquet
-    # data_filepath: s3://retrofit-data-dev/sap_change_model/2024-05-25-08-36-36/dataset_rooms.parquet
-    # data_filepath: s3://retrofit-data-dev/sap_change_model/2024-05-26-10-31-39/dataset_rooms.parquet
-    # data_filepath: s3://retrofit-data-dev/sap_change_model/2024-05-28-19-08-25/dataset_rooms.parquet
-    data_filepath: s3://retrofit-data-dev/sap_change_model/2024-06-09-10-36-53/dataset_rooms.parquet
+    # data_filepath: s3://retrofit-data-dev/sap_change_model/2024-06-09-10-36-53/dataset_rooms.parquet
+    data_filepath: s3://retrofit-data-dev/sap_change_model/2024-10-03-22-57-23/dataset_rooms.parquet
     train_proportion: 0.9
     output_train_filepath: ./data/prepared_data/train.parquet
     output_test_filepath: ./data/prepared_data/test.parquet
@@ -37,7 +34,7 @@ default:
       drop_columns: [
         "heat_demand_change", "carbon_change", "rdsap_change", "sap_ending", "carbon_ending", "days_to_starting", "days_to_ending",
         'number_habitable_rooms_starting', 'number_habitable_rooms_ending', 'number_heated_rooms_starting', 'number_heated_rooms_ending',
-        'number_habitable_rooms', 'number_heated_rooms']
+        'number_habitable_rooms', 'number_heated_rooms', 'lighting_cost_starting', 'lighting_cost_ending', 'heating_cost_starting', 'heating_cost_ending', 'hot_water_cost_starting', 'hot_water_cost_ending',]
       # retain_features: ["SAP_STARTING", "TOTAL_FLOOR_AREA_DIFF"]
       retain_features: null
       # retain_features: ['uprn', 'sap_starting', 'hot_water_energy_eff_ending',
diff --git a/modules/ml-pipeline/src/pipeline/dvc.lock b/modules/ml-pipeline/src/pipeline/dvc.lock
index 7b6b7cb..2150976 100644
--- a/modules/ml-pipeline/src/pipeline/dvc.lock
+++ b/modules/ml-pipeline/src/pipeline/dvc.lock
@@ -34,13 +34,19 @@ stages:
         - number_heated_rooms_ending
         - number_habitable_rooms
         - number_heated_rooms
+        - lighting_cost_starting
+        - lighting_cost_ending
+        - heating_cost_starting
+        - heating_cost_ending
+        - hot_water_cost_starting
+        - hot_water_cost_ending
         default.feature_processor.feature_processor_config.retain_features:
         default.feature_processor.feature_processor_config.subsample_amount:
         default.feature_processor.feature_processor_config.subsample_seed: 0
         default.feature_processor.feature_processor_config.target: heat_demand_ending
         default.feature_processor.feature_processor_type: dataframe
         default.prepare_data.data_filepath:
-          s3://retrofit-data-dev/sap_change_model/2024-06-09-10-36-53/dataset_rooms.parquet
+          s3://retrofit-data-dev/sap_change_model/2024-10-03-22-57-23/dataset_rooms.parquet
         default.prepare_data.input_dataclient_type: aws-s3
         default.prepare_data.output_dataclient_type: local
         default.prepare_data.output_test_filepath: ./data/prepared_data/test.parquet
@@ -49,8 +55,8 @@ stages:
     outs:
     - path: data/prepared_data/
       hash: md5
-      md5: 836c0dde274564fe214246c62b318aa6.dir
-      size: 38248585
+      md5: ac22171e3434233359d3ee05ae82d098.dir
+      size: 41096450
       nfiles: 2
   build_model:
     cmd: python 2_build_model.py
@@ -61,8 +67,8 @@ stages:
       size: 4820
     - path: data/prepared_data
       hash: md5
-      md5: 836c0dde274564fe214246c62b318aa6.dir
-      size: 38248585
+      md5: ac22171e3434233359d3ee05ae82d098.dir
+      size: 41096450
       nfiles: 2
     params:
       configs/build_model.yaml:
@@ -94,18 +100,18 @@ stages:
     outs:
     - path: data/fit_predictions/
       hash: md5
-      md5: 894bbcfbb3ec256d7ec263625c0b6476.dir
-      size: 2967600
+      md5: 58956584afc6939113016c1d252ec199.dir
+      size: 3126151
       nfiles: 1
     - path: data/model/
       hash: md5
-      md5: 6eb74e559b8264c7e3f4ebbd2e2dcdf5.dir
-      size: 723269665
-      nfiles: 36
+      md5: 68865aace24ff0aa9241ffcec1f465eb.dir
+      size: 714713875
+      nfiles: 35
     - path: metrics/fit_metrics.json
       hash: md5
-      md5: 84f3dd138e912a64d8ed2d648e6828d3
-      size: 222
+      md5: 7eb0b3080018ec5a30e2ddc77c3eab91
+      size: 223
   generate_predictions:
     cmd: python 3_generate_predictions.py
     deps:
@@ -115,13 +121,13 @@ stages:
       size: 2464
     - path: data/model
       hash: md5
-      md5: 6eb74e559b8264c7e3f4ebbd2e2dcdf5.dir
-      size: 723269665
-      nfiles: 36
+      md5: 68865aace24ff0aa9241ffcec1f465eb.dir
+      size: 714713875
+      nfiles: 35
     - path: data/prepared_data
       hash: md5
-      md5: 836c0dde274564fe214246c62b318aa6.dir
-      size: 38248585
+      md5: ac22171e3434233359d3ee05ae82d098.dir
+      size: 41096450
       nfiles: 2
     params:
       configs/settings.yaml:
@@ -133,8 +139,8 @@ stages:
     outs:
     - path: data/predictions/
       hash: md5
-      md5: ef2bc137de75c36b7496e99048d16618.dir
-      size: 391474
+      md5: 28cc6fbd43a3645ed02fc98ce51a809a.dir
+      size: 426349
       nfiles: 1
   generate_metrics:
     cmd: python 4_generate_metrics.py
@@ -145,13 +151,13 @@ stages:
       size: 3447
     - path: data/predictions
       hash: md5
-      md5: ef2bc137de75c36b7496e99048d16618.dir
-      size: 391474
+      md5: 28cc6fbd43a3645ed02fc98ce51a809a.dir
+      size: 426349
       nfiles: 1
     - path: data/prepared_data
       hash: md5
-      md5: 836c0dde274564fe214246c62b318aa6.dir
-      size: 38248585
+      md5: ac22171e3434233359d3ee05ae82d098.dir
+      size: 41096450
       nfiles: 2
     params:
       configs/settings.yaml:
@@ -161,8 +167,8 @@ stages:
     outs:
     - path: metrics/metrics.json
       hash: md5
-      md5: 0edb8ad9060a115617d41c72684b177c
-      size: 219
+      md5: d80f216a55a99847174a7c44c011fe82
+      size: 223
   generate_scenerio_metrics:
     cmd: python 5_generate_scenarios.py
     deps: