[TRITON] Add MXFP4 quantization support to triton unified attention kernel by amd-xiaoyu12 · Pull Request #2012 · ROCm/aiter

amd-xiaoyu12 · 2026-02-09T15:39:39Z

Motivation

add MXFP4 quantization support to unified attention kernel

- Add Q-MXFP4, QK-MXFP4, and PV-MXFP4 quantization modes (0-3)
- Automatic fallback for incompatible HEAD_SIZE_PADDED
- Compatibility check: requires HEAD_SIZE_PADDED >= 32 and divisible by 32
- Support smoothed quantization with mean subtraction for better accuracy
- Add comprehensive tests

Files modified:
- aiter/ops/triton/_triton_kernels/attention/unified_attention.py (+184 lines)
- aiter/ops/triton/attention/unified_attention.py (+24 lines)

Files added:
- op_tests/triton_tests/attention/test_unified_attention_mxfp4.py (comprehensive test suite)
- op_tests/op_benchmarks/triton/bench_mxfp4_attention.py" (usage example with benchmarks)

MXFP4 modes:
- Mode 0: Original (no quantization, baseline)
- Mode 1: Native MXFP4 QK
- Mode 2: Smoothed MXFP4 QK (recommended)
- Mode 3+: Smoothed MXFP4 QK + PV

Usage: Set MXFP4_OPTION env var or pass use_native_fp4 parameter

Test Plan

Evaluated with Llama3 8B, QWen 3 32B and QWen 3 think 30B using gsk8k

Test Result

Submission Checklist

Look over the contributing guidelines at https://github.com/ROCm/ROCm/blob/develop/CONTRIBUTING.md#pull-requests.

Xiao YU added 2 commits February 9, 2026 10:31

Add MXFP4 quantization support to triton unified attention kernel

9c25910

Apply Hadamard rotation to Q, K, V

ac42c08

amd-xiaoyu12 requested a review from azaidy February 11, 2026 18:22

azaidy requested a review from cagrikymk February 11, 2026 19:12

cagrikymk changed the title ~~Add MXFP4 quantization support to triton unified attention kernel~~ [TRITON] Add MXFP4 quantization support to triton unified attention kernel Feb 11, 2026

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[TRITON] Add MXFP4 quantization support to triton unified attention kernel#2012

[TRITON] Add MXFP4 quantization support to triton unified attention kernel#2012
amd-xiaoyu12 wants to merge 2 commits intoROCm:mainfrom
amd-xiaoyu12:xiaoyu/unified_attention_mxfp4

amd-xiaoyu12 commented Feb 9, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

amd-xiaoyu12 commented Feb 9, 2026

Motivation

Test Plan

Test Result

Submission Checklist

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant