GPU: Parallelize TPC pad filter over pad rows instead of cachelines.

fweig · davidrohr · commit 3669ad3516f3 · 2026-01-29T09:01:00.000+01:00
diff --git a/GPU/GPUTracking/DataTypes/GPUTPCGeometry.h b/GPU/GPUTracking/DataTypes/GPUTPCGeometry.h
@@ -96,6 +96,7 @@ class GPUTPCGeometry // TODO: Make values constexpr
   GPUd() static constexpr int32_t EndIROC() { return 63; }
   GPUd() static constexpr int32_t EndOROC1() { return 97; }
   GPUd() static constexpr int32_t EndOROC2() { return 127; }
+  GPUd() static constexpr int32_t MaxNPadsPerRow() { return 138; }
 #else
   GPUd() static constexpr int32_t GetRegion(int32_t row) { return (row < 63 ? 0 : row < 63 + 64 ? 1 : 2); }
   GPUd() static constexpr int32_t GetRegionRows(int32_t region) { return 0; }  // dummy
@@ -104,6 +105,7 @@ class GPUTPCGeometry // TODO: Make values constexpr
   GPUd() static constexpr int32_t EndIROC() { return 63; }
   GPUd() static constexpr int32_t EndOROC1() { return 63 + 64; }
   GPUd() static constexpr int32_t EndOROC2() { return GPUCA_ROW_COUNT; }
+  GPUd() static constexpr int32_t MaxNPadsPerRow() { return 140; }
 #endif
 
   GPUd() static constexpr float TPCLength() { return 250.f - 0.275f; }
diff --git a/GPU/GPUTracking/Definitions/GPUDefParametersDefaults.h b/GPU/GPUTracking/Definitions/GPUDefParametersDefaults.h
@@ -68,7 +68,7 @@
     #define GPUCA_LB_GPUTPCCompressionKernels_step1unattached 512, 2
     #define GPUCA_LB_GPUTPCDecompressionKernels_step0attached 128, 2
     #define GPUCA_LB_GPUTPCDecompressionKernels_step1unattached 64, 2
-    #define GPUCA_LB_GPUTPCCFCheckPadBaseline 64, 10
+    #define GPUCA_LB_GPUTPCCFCheckPadBaseline 576, 2
     #define GPUCA_LB_GPUTPCCFChargeMapFiller_fillIndexMap 512
     #define GPUCA_LB_GPUTPCCFChargeMapFiller_fillFromDigits 512
     #define GPUCA_LB_GPUTPCCFChargeMapFiller_findFragmentStart 512
@@ -133,7 +133,7 @@
     #define GPUCA_LB_GPUTPCCompressionKernels_step1unattached 512, 2
     #define GPUCA_LB_GPUTPCDecompressionKernels_step0attached 128, 2
     #define GPUCA_LB_GPUTPCDecompressionKernels_step1unattached 64, 2
-    #define GPUCA_LB_GPUTPCCFCheckPadBaseline 64, 2
+    #define GPUCA_LB_GPUTPCCFCheckPadBaseline 576, 2
     #define GPUCA_LB_GPUTPCCFChargeMapFiller_fillIndexMap 512
     #define GPUCA_LB_GPUTPCCFChargeMapFiller_fillFromDigits 512
     #define GPUCA_LB_GPUTPCCFChargeMapFiller_findFragmentStart 512
@@ -197,7 +197,7 @@
     #define GPUCA_LB_GPUTPCCompressionKernels_step1unattached 512, 3
     #define GPUCA_LB_GPUTPCDecompressionKernels_step0attached 32, 1
     #define GPUCA_LB_GPUTPCDecompressionKernels_step1unattached 32, 1
-    #define GPUCA_LB_GPUTPCCFCheckPadBaseline 64,8
+    #define GPUCA_LB_GPUTPCCFCheckPadBaseline 576,2
     #define GPUCA_LB_GPUTPCCFChargeMapFiller_fillIndexMap 448
     #define GPUCA_LB_GPUTPCCFChargeMapFiller_fillFromDigits 448
     #define GPUCA_LB_GPUTPCCFChargeMapFiller_findFragmentStart 448
@@ -447,7 +447,7 @@
     #define GPUCA_LB_GPUTPCStartHitsSorter 256
   #endif
   #ifndef GPUCA_LB_GPUTPCCFCheckPadBaseline
-    #define GPUCA_LB_GPUTPCCFCheckPadBaseline 64
+    #define GPUCA_LB_GPUTPCCFCheckPadBaseline 576
   #endif
   #ifndef GPUCA_LB_GPUTPCCFChargeMapFiller_fillIndexMap
     #define GPUCA_LB_GPUTPCCFChargeMapFiller_fillIndexMap 512
diff --git a/GPU/GPUTracking/Global/GPUChainTrackingClusterizer.cxx b/GPU/GPUTracking/Global/GPUChainTrackingClusterizer.cxx
@@ -962,7 +962,7 @@ int32_t GPUChainTracking::RunTPCClusterizer(bool synchronizeOutput)
         checkForNoisyPads &= !GetProcessingSettings().disableTPCNoisyPadFilter;
 
         if (checkForNoisyPads) {
-          int32_t nBlocks = TPC_PADS_IN_SECTOR / GPUTPCCFCheckPadBaseline::PadsPerCacheline;
+          const int32_t nBlocks = GPUTPCCFCheckPadBaseline::GetNBlocks(doGPU);
 
           runKernel<GPUTPCCFCheckPadBaseline>({GetGridBlk(nBlocks, lane), {iSector}});
           getKernelTimer<GPUTPCCFCheckPadBaseline>(RecoStep::TPCClusterFinding, iSector, TPC_PADS_IN_SECTOR * fragment.lengthWithoutOverlap() * sizeof(PackedCharge), false);
diff --git a/GPU/GPUTracking/TPCClusterFinder/GPUTPCCFCheckPadBaseline.cxx b/GPU/GPUTracking/TPCClusterFinder/GPUTPCCFCheckPadBaseline.cxx
@@ -9,13 +9,12 @@
 // granted to it by virtue of its status as an Intergovernmental Organization
 // or submit itself to any jurisdiction.
 
-/// \file GPUTPCCFCheckPadBaseline.h
+/// \file GPUTPCCFCheckPadBaseline.cxx
 /// \author Felix Weiglhofer
 
 #include "GPUTPCCFCheckPadBaseline.h"
 #include "CfArray2D.h"
 #include "PackedCharge.h"
-#include "GPUTPCGeometry.h"
 #include "clusterFinderDefs.h"
 
 #ifndef GPUCA_GPUCODE
@@ -28,51 +27,88 @@ using namespace o2::gpu::tpccf;
 template <>
 GPUd() void GPUTPCCFCheckPadBaseline::Thread<0>(int32_t nBlocks, int32_t nThreads, int32_t iBlock, int32_t iThread, GPUSharedMemory& smem, processorType& clusterer)
 {
-  const CfFragment& fragment = clusterer.mPmemory->fragment;
-  CfArray2D<PackedCharge> chargeMap(reinterpret_cast<PackedCharge*>(clusterer.mPchargeMap));
-
-  int32_t basePad = iBlock * PadsPerCacheline;
-  CfChargePos basePos = padToCfChargePos(basePad, clusterer);
+#ifdef GPUCA_GPUCODE
+  CheckBaselineGPU(nBlocks, nThreads, iBlock, iThread, smem, clusterer);
+#else
+  CheckBaselineCPU(nBlocks, nThreads, iBlock, iThread, smem, clusterer);
+#endif
+}
 
-  if (not basePos.valid()) {
+// Charges are stored in a 2D array (pad and time) using a tiling layout.
+// Tiles are 8 pads x 4 timebins large stored in time-major layout and make up a single cacheline.
+//
+// This kernel processes one row per block. Threads cooperatively load chunks
+// of 4 consecutive time bins for all pads into shared memory. Thread `i` then processes charges for pad `i` in shared memory.
+// Blocks require `nextMultipleOf<64>(138 * 4) = 576` threads to process the largest TPC rows with 138 pads correctly.
+GPUd() void GPUTPCCFCheckPadBaseline::CheckBaselineGPU(int32_t nBlocks, int32_t nThreads, int32_t iBlock, int32_t iThread, GPUSharedMemory& smem, processorType& clusterer)
+{
+#ifdef GPUCA_GPUCODE
+  if (iBlock >= GPUCA_ROW_COUNT) {
     return;
   }
 
-#ifdef GPUCA_GPUCODE
-  static_assert(TPC_MAX_FRAGMENT_LEN_GPU % NumOfCachedTimebins == 0);
+  const CfFragment& fragment = clusterer.mPmemory->fragment;
+  CfArray2D<PackedCharge> chargeMap(reinterpret_cast<PackedCharge*>(clusterer.mPchargeMap));
+
+  const auto iRow = iBlock;
+  const auto rowinfo = GetRowInfo(iRow);
+  const CfChargePos basePos{(Row)iRow, 0, 0};
 
   int32_t totalCharges = 0;
   int32_t consecCharges = 0;
   int32_t maxConsecCharges = 0;
   Charge maxCharge = 0;
 
-  int16_t localPadId = iThread / NumOfCachedTimebins;
-  int16_t localTimeBin = iThread % NumOfCachedTimebins;
-  bool handlePad = localTimeBin == 0;
+  const int16_t iPadOffset = iThread % MaxNPadsPerRow;
+  const int16_t iTimeOffset = iThread / MaxNPadsPerRow;
+  const int16_t iPadHandle = iThread;
+  const bool handlePad = iPadHandle < rowinfo.nPads;
+
+  const auto firstTB = fragment.firstNonOverlapTimeBin();
+  const auto lastTB = fragment.lastNonOverlapTimeBin();
+
+  for (auto t = firstTB; t < lastTB; t += NumOfCachedTBs) {
+
+    const TPCFragmentTime iTime = t + iTimeOffset;
+
+    const CfChargePos pos = basePos.delta({iPadOffset, iTime});
+
+    smem.charges[iTimeOffset][iPadOffset] = iTime < lastTB && iPadOffset < rowinfo.nPads ? chargeMap[pos].unpack() : 0;
 
-  for (tpccf::TPCFragmentTime t = fragment.firstNonOverlapTimeBin(); t < fragment.lastNonOverlapTimeBin(); t += NumOfCachedTimebins) {
-    const CfChargePos pos = basePos.delta({localPadId, int16_t(t + localTimeBin)});
-    smem.charges[localPadId][localTimeBin] = (pos.valid()) ? chargeMap[pos].unpack() : 0;
     GPUbarrier();
+
     if (handlePad) {
-      for (int32_t i = 0; i < NumOfCachedTimebins; i++) {
-        const Charge q = smem.charges[localPadId][i];
+      for (int32_t i = 0; i < NumOfCachedTBs; i++) {
+        const Charge q = smem.charges[i][iPadHandle];
         totalCharges += (q > 0);
         consecCharges = (q > 0) ? consecCharges + 1 : 0;
         maxConsecCharges = CAMath::Max(consecCharges, maxConsecCharges);
         maxCharge = CAMath::Max<Charge>(q, maxCharge);
       }
     }
+
     GPUbarrier();
   }
 
-  GPUbarrier();
-
   if (handlePad) {
-    updatePadBaseline(basePad + localPadId, clusterer, totalCharges, maxConsecCharges, maxCharge);
+    updatePadBaseline(rowinfo.globalPadOffset + iPadOffset, clusterer, totalCharges, maxConsecCharges, maxCharge);
   }
+#endif
+}
 
-#else // CPU CODE
+GPUd() void GPUTPCCFCheckPadBaseline::CheckBaselineCPU(int32_t nBlocks, int32_t nThreads, int32_t iBlock, int32_t iThread, GPUSharedMemory& smem, processorType& clusterer)
+{
+#ifndef GPUCA_GPUCODE
+  const CfFragment& fragment = clusterer.mPmemory->fragment;
+  CfArray2D<PackedCharge> chargeMap(reinterpret_cast<PackedCharge*>(clusterer.mPchargeMap));
+
+  int32_t basePad = iBlock * PadsPerCacheline;
+  int32_t padsPerRow;
+  CfChargePos basePos = padToCfChargePos<PadsPerCacheline>(basePad, clusterer, padsPerRow);
+
+  if (not basePos.valid()) {
+    return;
+  }
 
   constexpr size_t ElemsInTileRow = (size_t)TilingLayout<GridSize<2>>::WidthInTiles * TimebinsPerCacheline * PadsPerCacheline;
 
@@ -122,25 +158,40 @@ GPUd() void GPUTPCCFCheckPadBaseline::Thread<0>(int32_t nBlocks, int32_t nThread
 #endif
 }
 
-GPUd() CfChargePos GPUTPCCFCheckPadBaseline::padToCfChargePos(int32_t& pad, const GPUTPCClusterFinder& clusterer)
+template <int32_t PadsPerBlock>
+GPUd() CfChargePos GPUTPCCFCheckPadBaseline::padToCfChargePos(int32_t& pad, const GPUTPCClusterFinder& clusterer, int32_t& padsPerRow)
 {
   constexpr GPUTPCGeometry geo;
 
   int32_t padOffset = 0;
   for (Row r = 0; r < GPUCA_ROW_COUNT; r++) {
     int32_t npads = geo.NPads(r);
     int32_t padInRow = pad - padOffset;
-    if (0 <= padInRow && padInRow < CAMath::nextMultipleOf<PadsPerCacheline, int32_t>(npads)) {
-      int32_t cachelineOffset = padInRow % PadsPerCacheline;
+    if (0 <= padInRow && padInRow < npads) {
+      int32_t cachelineOffset = padInRow % PadsPerBlock;
       pad -= cachelineOffset;
+      padsPerRow = npads;
       return CfChargePos{r, Pad(padInRow - cachelineOffset), 0};
     }
     padOffset += npads;
   }
 
+  padsPerRow = 0;
   return CfChargePos{0, 0, INVALID_TIME_BIN};
 }
 
+GPUd() GPUTPCCFCheckPadBaseline::RowInfo GPUTPCCFCheckPadBaseline::GetRowInfo(int16_t row)
+{
+  constexpr GPUTPCGeometry geo;
+
+  int16_t padOffset = 0;
+  for (int16_t r = 0; r < row; r++) {
+    padOffset += geo.NPads(r);
+  }
+
+  return RowInfo{padOffset, geo.NPads(row)};
+}
+
 GPUd() void GPUTPCCFCheckPadBaseline::updatePadBaseline(int32_t pad, const GPUTPCClusterFinder& clusterer, int32_t totalCharges, int32_t consecCharges, Charge maxCharge)
 {
   const CfFragment& fragment = clusterer.mPmemory->fragment;
diff --git a/GPU/GPUTracking/TPCClusterFinder/GPUTPCCFCheckPadBaseline.h b/GPU/GPUTracking/TPCClusterFinder/GPUTPCCFCheckPadBaseline.h
@@ -11,14 +11,20 @@
 
 /// \file GPUTPCCFCheckPadBaseline.h
 /// \author Felix Weiglhofer
+///
+/// Kernel identifies noisy TPC pads by analyzing charge patterns over time.
+/// A pad is marked noisy if it exceeds thresholds for total or consecutive
+/// time bins with charge, unless the charge exceeds a saturation threshold.
 
 #ifndef O2_GPU_GPU_TPC_CF_CHECK_PAD_BASELINE_H
 #define O2_GPU_GPU_TPC_CF_CHECK_PAD_BASELINE_H
 
 #include "GPUGeneralKernels.h"
 #include "GPUConstantMem.h"
+#include "GPUTPCGeometry.h"
 
 #include "clusterFinderDefs.h"
+#include "CfArray2D.h"
 
 namespace o2::gpu
 {
@@ -28,13 +34,20 @@ class GPUTPCCFCheckPadBaseline : public GPUKernelTemplate
 
  public:
   enum {
-    PadsPerCacheline = 8,
-    TimebinsPerCacheline = 4,
-    NumOfCachedTimebins = GPUCA_GET_THREAD_COUNT(GPUCA_LB_GPUTPCCFCheckPadBaseline) / PadsPerCacheline,
+    PadsPerCacheline = TPCMapMemoryLayout<uint16_t>::Width,
+    TimebinsPerCacheline = TPCMapMemoryLayout<uint16_t>::Height,
+    EntriesPerCacheline = PadsPerCacheline * TimebinsPerCacheline,
+    NumOfCachedPads = GPUCA_WARP_SIZE / TimebinsPerCacheline,
+    NumCLsPerWarp = GPUCA_WARP_SIZE / EntriesPerCacheline,
+    NumOfCachedTBs = TimebinsPerCacheline,
+    // Threads index shared memory as [iThread / MaxNPadsPerRow][iThread % MaxNPadsPerRow].
+    // Rounding up to a multiple of PadsPerCacheline ensures iThread / MaxNPadsPerRow < NumOfCachedTBs
+    // for all threads, avoiding out-of-bounds access.
+    MaxNPadsPerRow = CAMath::nextMultipleOf<PadsPerCacheline>(GPUTPCGeometry::MaxNPadsPerRow()),
   };
 
   struct GPUSharedMemory {
-    tpccf::Charge charges[PadsPerCacheline][NumOfCachedTimebins];
+    tpccf::Charge charges[NumOfCachedTBs][MaxNPadsPerRow];
   };
 
   typedef GPUTPCClusterFinder processorType;
@@ -48,11 +61,28 @@ class GPUTPCCFCheckPadBaseline : public GPUKernelTemplate
     return gpudatatypes::RecoStep::TPCClusterFinding;
   }
 
+  static int32_t GetNBlocks(bool isGPU)
+  {
+    const int32_t nBlocks = TPC_PADS_IN_SECTOR / PadsPerCacheline;
+    return isGPU ? GPUCA_ROW_COUNT : nBlocks;
+  }
+
   template <int32_t iKernel = defaultKernel>
   GPUd() static void Thread(int32_t nBlocks, int32_t nThreads, int32_t iBlock, int32_t iThread, GPUSharedMemory& smem, processorType& clusterer);
 
  private:
-  GPUd() static CfChargePos padToCfChargePos(int32_t& pad, const GPUTPCClusterFinder&);
+  GPUd() static void CheckBaselineGPU(int32_t nBlocks, int32_t nThreads, int32_t iBlock, int32_t iThread, GPUSharedMemory& smem, processorType& clusterer);
+  GPUd() static void CheckBaselineCPU(int32_t nBlocks, int32_t nThreads, int32_t iBlock, int32_t iThread, GPUSharedMemory& smem, processorType& clusterer);
+
+  template <int32_t PadsPerBlock>
+  GPUd() static CfChargePos padToCfChargePos(int32_t& pad, const GPUTPCClusterFinder&, int32_t& padsPerRow);
+
+  struct RowInfo {
+    int16_t globalPadOffset;
+    int16_t nPads;
+  };
+  GPUd() static RowInfo GetRowInfo(int16_t row);
+
   GPUd() static void updatePadBaseline(int32_t pad, const GPUTPCClusterFinder&, int32_t totalCharges, int32_t consecCharges, tpccf::Charge maxCharge);
 };