change layout

2026-07-27 22:45:04 +00:00 · 2023-09-18 19:51:16 +01:00 · 2023-09-18 19:51:16 +01:00 · 40bb9d6f0a
commit 40bb9d6f0a
parent 3223b002c9
50 changed files with 62 additions and 48 deletions
--- a/modules/ml-pipeline/.pre-commit-config.yaml
+++ b/modules/ml-pipeline/.pre-commit-config.yaml
@ -20,6 +20,6 @@ repos:
    hooks:
    -   id: dvc-push-experiment
        name: DVC - Push to experiment to remote location (experiments)
-        entry: bash -c 'cd modules/ml-pipeline/src/pipeline/src && dvc push -r experiments || echo "Up to date!"'
+        entry: bash -c 'cd modules/ml-pipeline/src/pipeline && dvc push -r experiments || echo "Up to date!"'
        language: system
        verbose: true
--- a/modules/ml-pipeline/Makefile
+++ b/modules/ml-pipeline/Makefile
@ -11,7 +11,7 @@ dev-pyenv:
 	pyenv install ${PYTHON_VERSION} || echo "Python version already installed"
 	pyenv global ${PYTHON_VERSION}
 	python3 -m venv .dev_env_pipeline
-	. .dev_env_pipeline/bin/activate && pip install --upgrade pip && pip install -r src/pipeline/src/requirements/training/requirements-dev.txt && pip install -r src/pipeline/src/requirements/version_control/requirements.txt && pre-commit install
+	. .dev_env_pipeline/bin/activate && pip install --upgrade pip && pip install -r src/pipeline/requirements/training/requirements-dev.txt && pip install -r src/pipeline/requirements/version_control/requirements.txt && pre-commit install
 	echo "TO ACTIVATE ENVIRONMENT, USE THE FOLLOWING COMMAND"
 	echo "source .dev_env_pipeline/bin/activate"

--- a/modules/ml-pipeline/README.MD
+++ b/modules/ml-pipeline/README.MD
@ -1,16 +1,30 @@
 # ML-pipeline

-This is a dummy ML-pipeline, consisting of:
+This is a generic ML-pipeline, consisting of:
 - dvc tracking for version control (data and models)
 - gto for model registry
 - docs, created via sphinx (in pre-commit hooks)
 - tests for unit, integration and end to end testing

 Within `src` folder, the structure is as follows:
- multiple pipelines can be defined
-    - i.e. for a product, we might require multuple pipelines do deliver a result
-    - i.e. multiple models
- these models can be all tracked within the same gto model registry
+- `pipeline` folder, which contains all the codebase for the generic pipeline
+    - The pipeline can track multiple models through dvc and gto model registry
+- Deployment files:
+    - Prediction.Dockerfile - code to create the prediction deployment image
+    - Training.Dockerfil - code to create the training image (i.e. for remote training on EC2/ Fargate)
+- Docker development environment:
+    - If you wish to develop within a docker.
+
+# How to develop using this pipeline:
+
+Run `make init`, which will:
+- Download pyenv (Python version management)
+- Download Python 3.X.X as defined in the `make` file - current 3.10.12
+- Create a virtual environment with this version of python
+- Install packages in the training and version control directories in the pipeline folder (dev version if applicable)
+- Install pre-commit to enable pre-commit hooks
+
+To use the environment, run `source .dev_env_pipeline/bin/activate`.

 To enable the virtual envrionemnt created in vscode:
 - Open settings
--- a/modules/ml-pipeline/src/pipeline/.devcontainer/devcontainer.json
+++ b/modules/ml-pipeline/src/pipeline/.devcontainer/devcontainer.json
--- a/modules/ml-pipeline/src/pipeline/Development.Dockerfile
+++ b/modules/ml-pipeline/src/pipeline/Development.Dockerfile
--- a/modules/ml-pipeline/src/pipeline/Prediction.Dockerfile
+++ b/modules/ml-pipeline/src/pipeline/Prediction.Dockerfile
--- a/modules/ml-pipeline/src/README.md
+++ b/modules/ml-pipeline/src/README.md
@ -0,0 +1,3 @@
+# The generic reproducible ML-pipeline
+
+Pipeline required to build a model to produce an output
--- a/modules/ml-pipeline/src/pipeline/src/.dvc/.gitignore
+++ b/modules/ml-pipeline/src/pipeline/src/.dvc/.gitignore
--- a/modules/ml-pipeline/src/pipeline/src/.dvc/config
+++ b/modules/ml-pipeline/src/pipeline/src/.dvc/config
--- a/modules/ml-pipeline/src/pipeline/src/.dvcignore
+++ b/modules/ml-pipeline/src/pipeline/src/.dvcignore
--- a/modules/ml-pipeline/src/pipeline/README.md
+++ b/modules/ml-pipeline/src/pipeline/README.md
@ -1,3 +1,39 @@
-# Pipeline 1
+# Training

-Pipeline required to build a model to produce an output
+This folder contains the code base for training experimentation.
+
+To understand the pipeline, run `dvc dag`
+
+There are 4 main steps:
+- Preparing data
+    - This is loading data (locally or from s3)
+    - Splitting the data into train and validation
+    - Creating additional features (if needed)
+    - **Data is cached**
+        - This will be down to the dvc remote location
+- Build model
+    - For the prepared data, we build a model using our configurations
+    - Model is saved (locally or s3)
+    - **Model and fit metrics are cached**
+        - This will be down to the dvc remote location
+- Generate Predictions
+    - For the given model, we generate predictions on validation test data
+    - **Predictions are cached**
+        - This will be down to the dvc remote location
+- Generate Metrics
+    - For the given model, we generate metrics on validation data/test data
+    - **Metrics are cached**
+        - This will be down to the dvc remote location
+
+Workflow:
+- Use `dvc metrics show` to view current metrics score
+- Adjust parameters/ codebase
+- When happy with changes, use `dvc exp run` to trigger an experiment
+- Due to cache, only need stages are re-run
+- Use `dvc metrics diff` to check the change in metrics
+- Use `dvc exp show` to view all experiments
+    - NOTE: the last experiment will always be applied to the workspace!
+- After running experiments, you can apply the the best model to workspace using `dvc exp apply [EXPERIMENT_NAME]`
+    - This experiment will have the corresponding .dvc files for the hashed model and data
+- Use version control as normal
+    - git add, git commit etc
--- a/modules/ml-pipeline/src/pipeline/src/init.py
+++ b/modules/ml-pipeline/src/pipeline/src/init.py
--- a/modules/ml-pipeline/src/pipeline/src/build_model.py
+++ b/modules/ml-pipeline/src/pipeline/src/build_model.py
--- a/modules/ml-pipeline/src/pipeline/src/configs/build_model.yaml
+++ b/modules/ml-pipeline/src/pipeline/src/configs/build_model.yaml
--- a/modules/ml-pipeline/src/pipeline/src/configs/client.yaml
+++ b/modules/ml-pipeline/src/pipeline/src/configs/client.yaml
--- a/modules/ml-pipeline/src/pipeline/src/configs/configs.py
+++ b/modules/ml-pipeline/src/pipeline/src/configs/configs.py
--- a/modules/ml-pipeline/src/pipeline/src/configs/feature_processor.yaml
+++ b/modules/ml-pipeline/src/pipeline/src/configs/feature_processor.yaml
--- a/modules/ml-pipeline/src/pipeline/src/configs/feature_processor_logic.py
+++ b/modules/ml-pipeline/src/pipeline/src/configs/feature_processor_logic.py
--- a/modules/ml-pipeline/src/pipeline/src/configs/generate_metrics.yaml
+++ b/modules/ml-pipeline/src/pipeline/src/configs/generate_metrics.yaml
--- a/modules/ml-pipeline/src/pipeline/src/configs/generate_predictions.yaml
+++ b/modules/ml-pipeline/src/pipeline/src/configs/generate_predictions.yaml
--- a/modules/ml-pipeline/src/pipeline/src/configs/prepare_data.yaml
+++ b/modules/ml-pipeline/src/pipeline/src/configs/prepare_data.yaml
--- a/modules/ml-pipeline/src/pipeline/src/configs/startup_cleanup.yaml
+++ b/modules/ml-pipeline/src/pipeline/src/configs/startup_cleanup.yaml
--- a/modules/ml-pipeline/src/pipeline/src/core/DataClient.py
+++ b/modules/ml-pipeline/src/pipeline/src/core/DataClient.py
--- a/modules/ml-pipeline/src/pipeline/src/core/FeatureProcessor.py
+++ b/modules/ml-pipeline/src/pipeline/src/core/FeatureProcessor.py
--- a/modules/ml-pipeline/src/pipeline/src/core/Logger.py
+++ b/modules/ml-pipeline/src/pipeline/src/core/Logger.py
--- a/modules/ml-pipeline/src/pipeline/src/core/MLMetrics.py
+++ b/modules/ml-pipeline/src/pipeline/src/core/MLMetrics.py
--- a/modules/ml-pipeline/src/pipeline/src/core/MLModels.py
+++ b/modules/ml-pipeline/src/pipeline/src/core/MLModels.py
--- a/modules/ml-pipeline/src/pipeline/src/core/init.py
+++ b/modules/ml-pipeline/src/pipeline/src/core/init.py
--- a/modules/ml-pipeline/src/pipeline/src/core/interface/InterfaceDataClient.py
+++ b/modules/ml-pipeline/src/pipeline/src/core/interface/InterfaceDataClient.py
--- a/modules/ml-pipeline/src/pipeline/src/core/interface/InterfaceFeatureProcessor.py
+++ b/modules/ml-pipeline/src/pipeline/src/core/interface/InterfaceFeatureProcessor.py
--- a/modules/ml-pipeline/src/pipeline/src/core/interface/InterfaceMetrics.py
+++ b/modules/ml-pipeline/src/pipeline/src/core/interface/InterfaceMetrics.py
--- a/modules/ml-pipeline/src/pipeline/src/core/interface/InterfaceModels.py
+++ b/modules/ml-pipeline/src/pipeline/src/core/interface/InterfaceModels.py
--- a/modules/ml-pipeline/src/pipeline/src/core/interface/init.py
+++ b/modules/ml-pipeline/src/pipeline/src/core/interface/init.py
--- a/modules/ml-pipeline/src/pipeline/src/data/.gitignore
+++ b/modules/ml-pipeline/src/pipeline/src/data/.gitignore
--- a/modules/ml-pipeline/src/pipeline/src/dvc.lock
+++ b/modules/ml-pipeline/src/pipeline/src/dvc.lock
--- a/modules/ml-pipeline/src/pipeline/src/dvc.yaml
+++ b/modules/ml-pipeline/src/pipeline/src/dvc.yaml
--- a/modules/ml-pipeline/src/pipeline/src/generate_metrics.py
+++ b/modules/ml-pipeline/src/pipeline/src/generate_metrics.py
--- a/modules/ml-pipeline/src/pipeline/src/generate_predictions.py
+++ b/modules/ml-pipeline/src/pipeline/src/generate_predictions.py
--- a/modules/ml-pipeline/src/pipeline/src/metrics/.gitignore
+++ b/modules/ml-pipeline/src/pipeline/src/metrics/.gitignore
--- a/modules/ml-pipeline/src/pipeline/src/prepare_data.py
+++ b/modules/ml-pipeline/src/pipeline/src/prepare_data.py
--- a/modules/ml-pipeline/src/pipeline/src/requirements/predictions/requirements-dev.txt
+++ b/modules/ml-pipeline/src/pipeline/src/requirements/predictions/requirements-dev.txt
--- a/modules/ml-pipeline/src/pipeline/src/requirements/predictions/requirements.txt
+++ b/modules/ml-pipeline/src/pipeline/src/requirements/predictions/requirements.txt
--- a/modules/ml-pipeline/src/pipeline/src/requirements/training/requirements-dev.txt
+++ b/modules/ml-pipeline/src/pipeline/src/requirements/training/requirements-dev.txt
--- a/modules/ml-pipeline/src/pipeline/src/requirements/training/requirements.txt
+++ b/modules/ml-pipeline/src/pipeline/src/requirements/training/requirements.txt
--- a/modules/ml-pipeline/src/pipeline/src/requirements/version_control/requirements.txt
+++ b/modules/ml-pipeline/src/pipeline/src/requirements/version_control/requirements.txt
--- a/modules/ml-pipeline/src/pipeline/src/.DS_Store
+++ b/modules/ml-pipeline/src/pipeline/src/.DS_Store
--- a/modules/ml-pipeline/src/pipeline/src/.vscode/settings.json
+++ b/modules/ml-pipeline/src/pipeline/src/.vscode/settings.json
@ -1 +0,0 @@
-{}
--- a/modules/ml-pipeline/src/pipeline/src/README.md
+++ b/modules/ml-pipeline/src/pipeline/src/README.md
@ -1,35 +0,0 @@
-# Training
-
-This folder contains the code base for training experimentation.
-
-To understand the pipeline, run `dvc dag`
-
-There are 3 main steps:
- Preparing data
-    - This is loading data (locally or from s3)
-    - Splitting the data into train and validation
-    - Creating additional features (if needed)
-    - **Data is cached**
-        - This will be down to the dvc remote location
- Build model
-    - For the prepared data, we build a model using our configurations
-    - Model is saved (locally or s3)
-    - **Model is cached**
-        - This will be down to the dvc remote location
- Generate Metrics
-    - For the given model, we generate metrics on validation data/test data
-    - **Metrics are cached**
-        - This will be down to the dvc remote location
-
-Workflow:
- Use `dvc metrics show` to view current metrics score
- Adjust parameters/ codebase
- When happy with changes, use `dvc exp run` to trigger an experiment
- Due to cache, only need stages are re-run
- Use `dvc metrics diff` to check the change in metrics
- Use `dvc exp show` to view all experiments
-    - NOTE: the last experiment will always be applied to the workspace!
- After running experiments, you can apply the the best model to workspace using `dvc exp apply [EXPERIMENT_NAME]`
-    - This experiment will have the corresponding .dvc files for the hashed model and data
- Use version control as normal
-    - git add, git commit etc
--- a/modules/ml-pipeline/src/pipeline/src/startup_cleanup.py
+++ b/modules/ml-pipeline/src/pipeline/src/startup_cleanup.py
--- a/modules/ml-pipeline/src/pipeline2/README.md
+++ b/modules/ml-pipeline/src/pipeline2/README.md
@ -1,3 +0,0 @@
-# Pipeline2
-
-PLACEHOLDER PIPELINE IF NEEDED