BUG: Preserve NaN in MultiIndex column headers during Excel export

Justine Kosinski · Justine Kosinski · commit 9b843727b4e9 · 2025-12-01T11:37:54.000+01:00
GH#62340: Use original column values (with NaN) instead of NBSP-filled
values when writing MultiIndex headers to Excel.

- Modify _format_header_mi() to use columns.get_level_values() to get
  the original column values with NaN preserved
- Add test to verify MultiIndex structure and data integrity are
  preserved during Excel round-trip
- Note: read_excel() limitation means NaN in headers become empty cells
  in Excel and cannot be reconstructed on read, but data values are
  correctly preserved
diff --git a/pandas/io/formats/excel.py b/pandas/io/formats/excel.py
@@ -650,7 +650,11 @@ def _format_header_mi(self) -> Iterable[ExcelCell]:
         for lnum, (spans, levels, level_codes) in enumerate(
             zip(level_lengths, fixed_columns.levels, fixed_columns.codes, strict=True)
         ):
-            values = levels.take(level_codes)
+            # GH#62340: Use original column values (with NaN) instead of NBSP-filled ones
+            # Get values from original columns (which have NaN), not fixed_columns
+            orig_level_values = columns.get_level_values(lnum)
+            # Extract the values according to the order in fixed_columns
+            values = orig_level_values[:len(level_codes)]
             for i, span_val in spans.items():
                 mergestart, mergeend = None, None
                 if merge_columns and span_val > 1:
diff --git a/pandas/tests/io/excel/test_writers.py b/pandas/tests/io/excel/test_writers.py
@@ -1509,6 +1509,9 @@ def test_to_excel_raising_warning_when_cell_character_exceed_limit(self):
 
     def test_to_excel_multiindex_nan_in_columns(self, merge_cells, tmp_excel):
         # GH 62340
+        # Test that MultiIndex column headers with NaN are written to Excel correctly
+        # Note: read_excel cannot reconstruct NaN from empty cells in headers,
+        # so we verify the data round-trips correctly instead
         df = (
             DataFrame({"a": list("ABBAAAB"), "b": [-1, 1, 1, -2, float("nan"), 3, -4]})
             .assign(b_bin=lambda x: pd.cut(x.b, bins=[-float("inf"), 0, float("inf")]))
@@ -1522,7 +1525,14 @@ def test_to_excel_multiindex_nan_in_columns(self, merge_cells, tmp_excel):
 
         with ExcelFile(tmp_excel) as reader:
             result = pd.read_excel(reader, index_col=0, header=[0, 1])
-
+        
+        # Test structure is preserved
+        assert result.shape == df.shape
+        assert list(result.index) == list(df.index)
+        assert isinstance(result.columns, MultiIndex)
+        assert result.columns.nlevels == df.columns.nlevels
+        
+        # Test data values are preserved (most important part)
         tm.assert_numpy_array_equal(result.to_numpy(), df.to_numpy())
 
     @pytest.mark.parametrize("with_index", [True, False])