make release-tag: Merge branch 'main' into stable

rwedge · rwedge · commit 9f9e1093ec4e · 2025-08-14T10:55:25.000-05:00
diff --git a/HISTORY.md b/HISTORY.md
@@ -1,5 +1,15 @@
 # History
 
+## v0.23.0 - 2025-08-14
+
+### New Features
+
+* Allow me to turn off or control any subsampling done within the quality report - Issue [#790](https://github.com/sdv-dev/SDMetrics/issues/790) by @R-Palazzo
+
+### Bugs Fixed
+
+* Diagnostic Report should ignore `sequence_index` column in the DataValidity checks - Issue [#731](https://github.com/sdv-dev/SDMetrics/issues/731) by @fealho
+
 ## v0.22.0 - 2025-07-24
 
 ### New Features
diff --git a/latest_requirements.txt b/latest_requirements.txt
@@ -3,5 +3,5 @@ numpy==2.2.6
 pandas==2.3.1
 plotly==6.2.0
 scikit-learn==1.7.1
-scipy==1.16.0
+scipy==1.16.1
 tqdm==4.67.1
diff --git a/pyproject.toml b/pyproject.toml
@@ -140,7 +140,7 @@ convention = 'google'
 add-ignore = ['D107', 'D407', 'D417']
 
 [tool.bumpversion]
-current_version = "0.22.0"
+current_version = "0.23.0.dev0"
 parse = '(?P<major>\d+)\.(?P<minor>\d+)\.(?P<patch>\d+)(\.(?P<release>[a-z]+)(?P<candidate>\d+))?'
 serialize = [
     '{major}.{minor}.{patch}.{release}{candidate}',
diff --git a/sdmetrics/__init__.py b/sdmetrics/__init__.py
@@ -4,7 +4,7 @@
 
 __author__ = 'MIT Data To AI Lab'
 __email__ = 'dailabmit@gmail.com'
-__version__ = '0.22.0'
+__version__ = '0.23.0.dev0'
 
 import sys
 import warnings as python_warnings
diff --git a/sdmetrics/reports/base_report.py b/sdmetrics/reports/base_report.py
@@ -14,6 +14,7 @@
 import tqdm
 
 from sdmetrics._utils_metadata import _convert_datetime_column, _validate_metadata
+from sdmetrics.reports.utils import DEFAULT_NUM_ROWS_SUBSAMPLE
 from sdmetrics.visualization import set_plotly_config
 
 
@@ -27,6 +28,7 @@ def __init__(self):
         self._overall_score = None
         self.is_generated = False
         self._properties = {}
+        self.num_rows_subsample = DEFAULT_NUM_ROWS_SUBSAMPLE
         self.report_info = {
             'report_type': self.__class__.__name__,
             'generated_date': None,
@@ -163,6 +165,7 @@ def generate(self, real_data, synthetic_data, metadata, verbose=True):
                     f'({ind + 1}/{len(self._properties)}) Evaluating {property_name}'
                 )
 
+            self._properties[property_name].num_rows_subsample = self.num_rows_subsample
             score = self._properties[property_name].get_score(
                 real_data, synthetic_data, metadata, progress_bar=progress_bar
             )
diff --git a/sdmetrics/reports/multi_table/_properties/base.py b/sdmetrics/reports/multi_table/_properties/base.py
@@ -3,6 +3,8 @@
 import numpy as np
 import pandas as pd
 
+from sdmetrics.reports.utils import DEFAULT_NUM_ROWS_SUBSAMPLE
+
 
 class BaseMultiTableProperty:
     """Base class for multi table properties.
@@ -26,6 +28,7 @@ def __init__(self):
         self._properties = {}
         self.is_computed = False
         self.details = pd.DataFrame()
+        self.num_rows_subsample = DEFAULT_NUM_ROWS_SUBSAMPLE
 
     def _get_num_iterations(self, metadata):
         """Get the number of iterations for the property."""
diff --git a/sdmetrics/reports/single_table/_properties/base.py b/sdmetrics/reports/single_table/_properties/base.py
@@ -2,6 +2,8 @@
 
 import pandas as pd
 
+from sdmetrics.reports.utils import DEFAULT_NUM_ROWS_SUBSAMPLE
+
 
 class BaseSingleTableProperty:
     """Base class for single table properties.
@@ -14,6 +16,7 @@ class BaseSingleTableProperty:
 
     def __init__(self):
         self.details = pd.DataFrame()
+        self.num_rows_subsample = DEFAULT_NUM_ROWS_SUBSAMPLE
 
     def _compute_average(self):
         """Average the scores for each column."""
diff --git a/sdmetrics/reports/single_table/_properties/column_pair_trends.py b/sdmetrics/reports/single_table/_properties/column_pair_trends.py
@@ -10,8 +10,6 @@
 from sdmetrics.reports.single_table._properties import BaseSingleTableProperty
 from sdmetrics.reports.utils import PlotConfig
 
-DEFAULT_NUM_ROWS_SUBSAMPLE = 50000
-
 
 class ColumnPairTrends(BaseSingleTableProperty):
     """Column pair trends property.
@@ -30,6 +28,7 @@ class ColumnPairTrends(BaseSingleTableProperty):
     }
 
     def __init__(self):
+        super().__init__()
         self._columns_datetime_conversion_failed = {}
         self._columns_discretization_failed = {}
 
@@ -276,10 +275,12 @@ def _generate_details(
             )
 
             metric_params = {}
-            if (metric == ContingencySimilarity) and (
-                max(len(col_real), len(col_synthetic)) > DEFAULT_NUM_ROWS_SUBSAMPLE
+            if (
+                self.num_rows_subsample
+                and (metric == ContingencySimilarity)
+                and (max(len(col_real), len(col_synthetic)) > self.num_rows_subsample)
             ):
-                metric_params['num_rows_subsample'] = DEFAULT_NUM_ROWS_SUBSAMPLE
+                metric_params['num_rows_subsample'] = self.num_rows_subsample
 
             try:
                 error = self._preprocessing_failed(
diff --git a/sdmetrics/reports/single_table/_properties/data_validity.py b/sdmetrics/reports/single_table/_properties/data_validity.py
@@ -42,16 +42,22 @@ def _generate_details(self, real_data, synthetic_data, metadata, progress_bar=No
         error_messages = []
         primary_key = metadata.get('primary_key')
         alternate_keys = metadata.get('alternate_keys', [])
+        sequence_index = metadata.get('sequence_index')
+
         for column_name in metadata['columns']:
             sdtype = metadata['columns'][column_name]['sdtype']
             primary_key_match = column_name == primary_key
             alternate_key_match = column_name in alternate_keys
             is_unique = primary_key_match or alternate_key_match
+            is_sequence_index = column_name == sequence_index
 
             try:
                 if sdtype not in self._sdtype_to_metric and not is_unique:
                     continue
 
+                if is_sequence_index and self._sdtype_to_metric.get(sdtype) == BoundaryAdherence:
+                    continue
+
                 metric = self._sdtype_to_metric.get(sdtype, KeyUniqueness)
                 column_score = metric.compute(real_data[column_name], synthetic_data[column_name])
                 error_message = None
diff --git a/sdmetrics/reports/utils.py b/sdmetrics/reports/utils.py
@@ -17,6 +17,7 @@
 
 CONTINUOUS_SDTYPES = ['numerical', 'datetime']
 DISCRETE_SDTYPES = ['categorical', 'boolean']
+DEFAULT_NUM_ROWS_SUBSAMPLE = 50000
 
 
 class PlotConfig:
diff --git a/static_code_analysis.txt b/static_code_analysis.txt
@@ -1,4 +1,4 @@
-Run started:2025-07-24 19:28:17.001789
+Run started:2025-08-13 23:11:12.422595
 
 Test results:
 >> Issue: [B101:assert_used] Use of assert detected. The enclosed code will be removed when compiling to optimised byte code.
@@ -25,31 +25,31 @@ Test results:
    Severity: Low   Confidence: High
    CWE: CWE-703 (https://cwe.mitre.org/data/definitions/703.html)
    More Info: https://bandit.readthedocs.io/en/1.7.7/plugins/b112_try_except_continue.html
-   Location: ./sdmetrics/reports/base_report.py:105:16
-104	                    synthetic_data[column] = _convert_datetime_column(column, synth_col, col_meta)
-105	                except Exception:
-106	                    continue
-107	
+   Location: ./sdmetrics/reports/base_report.py:107:16
+106	                    synthetic_data[column] = _convert_datetime_column(column, synth_col, col_meta)
+107	                except Exception:
+108	                    continue
+109	
 
 --------------------------------------------------
 >> Issue: [B301:blacklist] Pickle and modules that wrap it can be unsafe when used to deserialize untrusted data, possible security issue.
    Severity: Medium   Confidence: High
    CWE: CWE-502 (https://cwe.mitre.org/data/definitions/502.html)
    More Info: https://bandit.readthedocs.io/en/1.7.7/blacklists/blacklist_calls.html#b301-pickle
-   Location: ./sdmetrics/reports/base_report.py:292:21
-291	        with open(filepath, 'rb') as f:
-292	            report = pickle.load(f)
-293	            if current_version != report._package_version:
+   Location: ./sdmetrics/reports/base_report.py:295:21
+294	        with open(filepath, 'rb') as f:
+295	            report = pickle.load(f)
+296	            if current_version != report._package_version:
 
 --------------------------------------------------
 >> Issue: [B101:assert_used] Use of assert detected. The enclosed code will be removed when compiling to optimised byte code.
    Severity: Low   Confidence: High
    CWE: CWE-703 (https://cwe.mitre.org/data/definitions/703.html)
    More Info: https://bandit.readthedocs.io/en/1.7.7/plugins/b101_assert_used.html
-   Location: ./sdmetrics/reports/multi_table/_properties/base.py:67:8
-66	
-67	        assert is_dataframe, assert_message
-68	        if not has_score_column:
+   Location: ./sdmetrics/reports/multi_table/_properties/base.py:70:8
+69	
+70	        assert is_dataframe, assert_message
+71	        if not has_score_column:
 
 --------------------------------------------------
 >> Issue: [B101:assert_used] Use of assert detected. The enclosed code will be removed when compiling to optimised byte code.
@@ -117,7 +117,7 @@ Test results:
 --------------------------------------------------
 
 Code scanned:
-	Total lines of code: 11825
+	Total lines of code: 11839
 	Total lines skipped (#nosec): 0
 	Total potential issues skipped due to specifically being disabled (e.g., #nosec BXXX): 0
 
diff --git a/tests/integration/reports/single_table/test_quality_report.py b/tests/integration/reports/single_table/test_quality_report.py
@@ -77,6 +77,7 @@ def test_report_end_to_end(self):
             key: val for key, val in metadata['columns'].items() if key in column_names
         }
         report = QualityReport()
+        report.num_rows_subsample = None
 
         # Run
         generate_start_time = time.time()
@@ -141,7 +142,8 @@ def test_report_end_to_end(self):
             report.get_details('Column Pair Trends'), expected_details_cpt
         )
         assert report.get_score() == 0.8393750143888287
-
+        assert report._properties['Column Shapes'].num_rows_subsample is None
+        assert report._properties['Column Pair Trends'].num_rows_subsample is None
         report_info = report.get_info()
         assert report_info == report.report_info
 
@@ -183,6 +185,8 @@ def test_with_large_dataset(self):
         # Assert
         cpt_report_1 = report_1.get_properties().iloc[1]['Score']
         cpt_report_2 = report_2.get_properties().iloc[1]['Score']
+        assert report_1._properties['Column Pair Trends'].num_rows_subsample == 50000
+        assert report_2._properties['Column Pair Trends'].num_rows_subsample == 50000
         assert score_1_run_1 != score_1_run_2
         assert np.isclose(score_1_run_1, score_1_run_2, atol=0.001)
         assert np.isclose(report_2.get_score(), score_1_run_1, atol=0.001)
diff --git a/tests/unit/reports/multi_table/test_base_multi_table_report.py b/tests/unit/reports/multi_table/test_base_multi_table_report.py
@@ -8,6 +8,7 @@
 
 from sdmetrics.demos import load_demo
 from sdmetrics.reports.multi_table.base_multi_table_report import BaseMultiTableReport
+from sdmetrics.reports.utils import DEFAULT_NUM_ROWS_SUBSAMPLE
 
 
 class TestBaseReport:
@@ -21,6 +22,7 @@ def test__init__(self):
         assert report.is_generated is False
         assert report._properties == {}
         assert report.table_names == []
+        assert report.num_rows_subsample == DEFAULT_NUM_ROWS_SUBSAMPLE
 
     def test__validate_data_format(self):
         """Test the ``_validate_data_format`` method.
diff --git a/tests/unit/reports/single_table/_properties/test_data_validity.py b/tests/unit/reports/single_table/_properties/test_data_validity.py
@@ -152,3 +152,53 @@ def test_get_visualization(self, mock_px):
             margin={'t': 150},
             font={'size': 18},
         )
+
+    @patch('sdmetrics.reports.single_table._properties.data_validity.BoundaryAdherence.compute')
+    @patch('sdmetrics.reports.single_table._properties.data_validity.CategoryAdherence.compute')
+    @patch('sdmetrics.reports.single_table._properties.data_validity.KeyUniqueness.compute')
+    def test__generate_details_skip_sequence_index_boundary_adherence(
+        self, key_uniqueness_mock, category_a_compute_mock, boundary_a_compute_mock
+    ):
+        """Test that sequence_index columns are excluded from BoundaryAdherence checks."""
+        # Setup
+        real_data = pd.DataFrame({
+            'date': pd.to_datetime(['2020-01-01', '2020-01-02', '2020-01-03']),
+            'value': [1, 2, 3],
+            'category': ['a', 'b', 'c'],
+        })
+        synthetic_data = pd.DataFrame({
+            'date': pd.to_datetime(['2020-01-04', '2020-01-05', '2020-01-06']),
+            'value': [4, 5, 6],
+            'category': ['d', 'e', 'f'],
+        })
+        metadata = {
+            'sequence_index': 'date',  # This should skip BoundaryAdherence
+            'columns': {
+                'date': {'sdtype': 'datetime'},
+                'value': {'sdtype': 'numerical'},
+                'category': {'sdtype': 'categorical'},
+            },
+        }
+
+        boundary_a_compute_mock.return_value = 0.8
+        category_a_compute_mock.return_value = 0.9
+
+        # Run
+        data_validity_property = DataValidity()
+        result = data_validity_property._generate_details(real_data, synthetic_data, metadata)
+
+        # Assert
+        expected_calls_ba = [call(real_data['value'], synthetic_data['value'])]
+        boundary_a_compute_mock.assert_has_calls(expected_calls_ba)
+        assert boundary_a_compute_mock.call_count == 1
+
+        expected_calls_ca = [call(real_data['category'], synthetic_data['category'])]
+        category_a_compute_mock.assert_has_calls(expected_calls_ca)
+        assert category_a_compute_mock.call_count == 1
+
+        key_uniqueness_mock.assert_not_called()
+
+        expected_columns = ['value', 'category']
+        assert list(result['Column']) == expected_columns
+        expected_metrics = ['BoundaryAdherence', 'CategoryAdherence']
+        assert list(result['Metric']) == expected_metrics
diff --git a/tests/unit/reports/test_base_report.py b/tests/unit/reports/test_base_report.py
@@ -9,9 +9,21 @@
 
 from sdmetrics.demos import load_demo
 from sdmetrics.reports.base_report import BaseReport
+from sdmetrics.reports.utils import DEFAULT_NUM_ROWS_SUBSAMPLE
 
 
 class TestBaseReport:
+    def test__init__(self):
+        """Test the initialization of the BaseReport class."""
+        # Run
+        base_report = BaseReport()
+
+        # Assert
+        assert base_report._overall_score is None
+        assert not base_report.is_generated
+        assert base_report._properties == {}
+        assert base_report.num_rows_subsample == DEFAULT_NUM_ROWS_SUBSAMPLE
+
     def test__validate_data_format(self):
         """Test the ``_validate_data_format`` method.
 
@@ -268,6 +280,7 @@ def test_generate(self, version_mock, time_mock, datetime_mock):
         version_mock.return_value = 'version'
 
         base_report = BaseReport()
+        base_report.num_rows_subsample = 1000
         mock_validate = Mock()
         mock__print_results = Mock()
         base_report._print_results = mock__print_results
@@ -292,9 +305,11 @@ def test_generate(self, version_mock, time_mock, datetime_mock):
         base_report._properties['Property 1'].get_score.assert_called_with(
             real_data, synthetic_data, metadata, progress_bar=None
         )
+        assert base_report._properties['Property 1'].num_rows_subsample == 1000
         base_report._properties['Property 2'].get_score.assert_called_with(
             real_data, synthetic_data, metadata, progress_bar=None
         )
+        assert base_report._properties['Property 2'].num_rows_subsample == 1000
         expected_info = {
             'report_type': 'BaseReport',
             'generated_date': '2020-01-05',