meta-pytorch
diff --git a/‎benchmarks/gen_metadata/run.py‎
Lines changed: 2 additions & 3 deletions b/‎benchmarks/gen_metadata/run.py‎
Lines changed: 2 additions & 3 deletions
diff --git a/‎benchmarks/nightly/autogen.yaml‎
Lines changed: 123 additions & 124 deletions b/‎benchmarks/nightly/autogen.yaml‎
Lines changed: 123 additions & 124 deletions
@@ -12,8 +12,6 @@
 
 from os.path import abspath, exists
 
-CURRENT_DIR = os.path.dirname(os.path.abspath(__file__))
-
 
 def setup_tritonbench_cwd():
     original_dir = abspath(os.getcwd())
@@ -35,6 +33,7 @@ def setup_tritonbench_cwd():
 setup_tritonbench_cwd()
 
 from tritonbench.operators import list_operators, load_opbench_by_name
+from tritonbench.utils.path_utils import REPO_PATH
 
 # operators that are not supported by tritonbench-oss
 SKIP_OPERATORS = ["decoding_attention"]
@@ -105,7 +104,7 @@ def main() -> None:
     parser.add_argument(
         "--output",
         type=str,
-        default=os.path.join(CURRENT_DIR, "metadata"),
+        default=os.path.join(REPO_PATH.joinpath("tritonbench"), "metadata"),
         help="generate metadata yaml files to the specific directory",
     )
     args = parser.parse_args()
 
@@ -1,146 +1,145 @@
 fp16_addmm_fwd:
-  op: addmm
-  args: --op addmm --baseline aten_addmm --metrics tflops,speedup --only triton_addmm,streamk_addmm,pt2_triton_matmul,aten_addmm
+  args: --op addmm --baseline aten_addmm --metrics latency,tflops,speedup --only streamk_addmm,triton_addmm,aten_addmm
+fp16_addmm_bwd:
+  args: --op addmm --baseline aten_addmm --metrics latency,tflops,speedup --only streamk_addmm,triton_addmm,aten_addmm
+    --bwd
 bf16xint16_gemm_fwd:
-  op: bf16xint16_gemm
-  args: --op bf16xint16_gemm --metrics tflops --only bf16xbf16
+  args: --op bf16xint16_gemm --baseline bf16xbf16 --metrics latency,tflops,speedup
+    --only bf16xbf16,bf16xint16,bf16xint16_casted
+bf16_blackwell_attentions_fwd:
+  args: --op blackwell_attentions --metrics latency,tflops --only triton_tutorial_flash_dp_blackwell,triton_tutorial_flash_dp_persistent_blackwell,triton_tutorial_flash_v2_blackwell,triton_tutorial_flash_v2_persistent_blackwell,triton_tutorial_flash_v2_tma_ws_persistent_blackwell
+  disabled: true
+bf16_blackwell_attentions_bwd:
+  args: --op blackwell_attentions --metrics latency,tflops --only triton_tutorial_flash_dp_blackwell,triton_tutorial_flash_dp_persistent_blackwell,triton_tutorial_flash_v2_blackwell,triton_tutorial_flash_v2_persistent_blackwell,triton_tutorial_flash_v2_tma_ws_persistent_blackwell
+    --bwd
+  disabled: true
+cross_entropy_fwd:
+  args: --op cross_entropy --baseline cross_entropy_loss --metrics latency,speedup
+    --only liger_cross_entropy_loss,cross_entropy_loss
+cross_entropy_bwd:
+  args: --op cross_entropy --baseline cross_entropy_loss --metrics latency,speedup
+    --only liger_cross_entropy_loss,cross_entropy_loss --bwd
+embedding_fwd:
+  args: --op embedding --baseline torch_embedding --metrics latency,speedup --only
+    liger_embedding,torch_embedding
+embedding_bwd:
+  args: --op embedding --baseline torch_embedding --metrics latency,speedup --only
+    liger_embedding,torch_embedding --bwd
 bf16_flash_attention_fwd:
-  op: flash_attention
   args: --op flash_attention --baseline flash_v3 --metrics tflops,speedup --only triton_tutorial_flash_v2,flash_v3
-bf16_flex_attention_fwd:
-  op: flex_attention
-  args: --op flex_attention --baseline eager --metrics tflops,speedup --only compiled,eager
+bf16_flash_attention_bwd:
+  args: --op flash_attention --baseline flash_v3 --metrics tflops,speedup --bwd --only
+    triton_tutorial_flash_v2,flash_v3 --causal
 fp8_attention_fwd:
-  op: fp8_attention
-  args: --op fp8_attention --metrics tflops --only triton_flash_v2_tma
-  disabled: true
-fp8_fused_quant_gemm_rowwise_fwd:
-  op: fp8_fused_quant_gemm_rowwise
-  args: --op fp8_fused_quant_gemm_rowwise --metrics tflops --only rms_norm_fused
+  args: --op fp8_attention --baseline triton_flash_v2 --metrics latency,tflops,speedup
+    --only triton_flash_v2,triton_flash_v2_tma,triton_flash_v2_ws
   disabled: true
 fp8_gemm_fwd:
-  op: fp8_gemm
-  args: --op fp8_gemm --baseline torch_fp8_gemm --metrics tflops,speedup --only triton_tma_persistent_fp8_gemm,torch_fp8_gemm
+  args: --op fp8_gemm --baseline torch_fp8_gemm --metrics latency,tflops,speedup --only
+    triton_fp8_gemm,triton_persistent_fp8_gemm,triton_tma_persistent_fp8_gemm,torch_fp8_gemm
   disabled: true
-fp8_gemm_blockwise_fwd:
-  op: fp8_gemm_blockwise
-  args: --op fp8_gemm_blockwise --baseline _cutlass --metrics tflops,speedup --only
-    _triton,_cutlass
 fp8_gemm_rowwise_fwd:
-  op: fp8_gemm_rowwise
-  args: --op fp8_gemm_rowwise --baseline _cutlass_or_ck --metrics tflops,speedup --only
-    _triton,_cutlass_or_ck
-  disabled: true
-fp8_gemm_rowwise_grouped_fwd:
-  op: fp8_gemm_rowwise_grouped
-  args: --op fp8_gemm_rowwise_grouped --baseline _cutlass_or_ck --metrics tflops,speedup
-    --only _triton,_cutlass_or_ck
+  args: --op fp8_gemm_rowwise --baseline _cutlass_or_ck --metrics latency,tflops,speedup
+    --only _aoti_fp8_triton_mm,_cutlass_or_ck
   disabled: true
-fp16_gemm_fwd:
-  op: gemm
-  args: --op gemm --baseline aten_matmul --metrics speedup --only triton_tutorial_matmul,aten_matmul
-fp16_grouped_gemm_fwd:
-  op: grouped_gemm
-  args: --op grouped_gemm --baseline torch --metrics tflops,speedup --only triton,torch
-int4_gemm_fwd:
-  op: int4_gemm
-  args: --op int4_gemm --baseline tinygemm --metrics tflops,speedup --only triton,tinygemm
-low_mem_dropout_fwd:
-  op: low_mem_dropout
-  args: --op low_mem_dropout --baseline torch_dropout --metrics speedup --only triton_dropout,torch_dropout
-bf16_ragged_attention_fwd:
-  op: ragged_attention
-  args: --op ragged_attention --metrics tflops --only hstu
-softmax_fwd:
-  op: softmax
-  args: --op softmax --baseline naive_softmax --metrics speedup --only triton_softmax,naive_softmax
-welford_fwd:
-  op: welford
-  args: --op welford --baseline test_no_welford --metrics speedup --only test_welford,test_no_welford
-jsd_fwd:
-  op: jsd
-  args: --op jsd --baseline torch_jsd --metrics speedup --only liger_jsd,torch_jsd
-kl_div_fwd:
-  op: kl_div
-  args: --op kl_div --baseline torch_kl_div --metrics speedup --only liger_kl_div,torch_kl_div
-layer_norm_fwd:
-  op: layer_norm
-  args: --op layer_norm --baseline torch_layer_norm --metrics speedup --only liger_layer_norm,torch_layer_norm
-swiglu_fwd:
-  op: swiglu
-  args: --op swiglu --baseline torch_swiglu --metrics speedup --only liger_swiglu,torch_swiglu
-rope_fwd:
-  op: rope
-  args: --op rope --baseline apply_rotary_pos_emb --metrics speedup --only liger_rotary_pos_emb,apply_rotary_pos_emb
-rms_norm_fwd:
-  op: rms_norm
-  args: --op rms_norm --baseline llama_rms --metrics speedup --only liger_rms,llama_rms
 fused_linear_cross_entropy_fwd:
-  op: fused_linear_cross_entropy
-  args: --op fused_linear_cross_entropy --baseline torch_lm_head_ce --metrics speedup
+  args: --op fused_linear_cross_entropy --baseline torch_lm_head_ce --metrics latency,speedup
     --only liger_lm_head_ce,torch_lm_head_ce
-fused_linear_jsd_fwd:
-  op: fused_linear_jsd
-  args: --op fused_linear_jsd --baseline torch_lm_head_jsd --metrics speedup --only
-    liger_lm_head_jsd,torch_lm_head_jsd
-geglu_fwd:
-  op: geglu
-  args: --op geglu --baseline torch_geglu --metrics speedup --only liger_geglu,torch_geglu
-cross_entropy_fwd:
-  op: cross_entropy
-  args: --op cross_entropy --baseline cross_entropy_loss --metrics speedup --only
-    liger_cross_entropy_loss,cross_entropy_loss
-embedding_fwd:
-  op: embedding
-  args: --op embedding --baseline torch_embedding --metrics speedup --only liger_embedding,torch_embedding
-cross_entropy_bwd:
-  op: cross_entropy
-  args: --op cross_entropy --baseline cross_entropy_loss --metrics speedup --bwd --only
-    liger_cross_entropy_loss,cross_entropy_loss
-embedding_bwd:
-  op: embedding
-  args: --op embedding --baseline torch_embedding --metrics speedup --bwd --only liger_embedding,torch_embedding
-bf16_flash_attention_bwd:
-  op: flash_attention
-  args: --op flash_attention --baseline flash_v3 --metrics tflops,speedup --bwd --only
-    triton_tutorial_flash_v2,flash_v3 --causal
-bf16_flex_attention_bwd:
-  op: flex_attention
-  args: --op flex_attention --baseline eager --metrics tflops,speedup --bwd --only
-    compiled,eager
 fused_linear_cross_entropy_bwd:
-  op: fused_linear_cross_entropy
-  args: --op fused_linear_cross_entropy --baseline torch_lm_head_ce --metrics speedup
-    --bwd --only liger_lm_head_ce,torch_lm_head_ce
-fused_linear_jsd_bwd:
-  op: fused_linear_jsd
-  args: --op fused_linear_jsd --baseline torch_lm_head_jsd --metrics speedup --bwd
+  args: --op fused_linear_cross_entropy --baseline torch_lm_head_ce --metrics latency,speedup
+    --only liger_lm_head_ce,torch_lm_head_ce --bwd
+fused_linear_jsd_fwd:
+  args: --op fused_linear_jsd --baseline torch_lm_head_jsd --metrics latency,speedup
     --only liger_lm_head_jsd,torch_lm_head_jsd
+fused_linear_jsd_bwd:
+  args: --op fused_linear_jsd --baseline torch_lm_head_jsd --metrics latency,speedup
+    --only liger_lm_head_jsd,torch_lm_head_jsd --bwd
+gather_gemv_fwd:
+  args: --op gather_gemv --baseline eager_gather_gemv --metrics latency,speedup --only
+    triton_gather_gemv,eager_gather_gemv
+geglu_fwd:
+  args: --op geglu --baseline torch_geglu --metrics latency,speedup --only liger_geglu,torch_geglu
 geglu_bwd:
-  op: geglu
-  args: --op geglu --baseline torch_geglu --metrics speedup --bwd --only liger_geglu,torch_geglu
+  args: --op geglu --baseline torch_geglu --metrics latency,speedup --only liger_geglu,torch_geglu
+    --bwd
+fp16_gemm_fwd:
+  args: --op gemm --baseline aten_matmul --metrics latency,speedup --only matmul_partition_k,streamk_matmul,triton_ops_matmul,triton_tutorial_matmul,aten_matmul
+fp16_gemm_bwd:
+  args: --op gemm --baseline aten_matmul --metrics latency,speedup --only matmul_partition_k,streamk_matmul,triton_ops_matmul,triton_tutorial_matmul,aten_matmul
+    --bwd
+bf16_grouped_gemm_fwd:
+  args: --op grouped_gemm --baseline aten_grouped_mm --metrics latency,tflops,speedup
+    --only triton_grouped_gemm,aten_grouped_mm
+int4_gemm_fwd:
+  args: --op int4_gemm --baseline eager_int4_gemm --metrics latency,tflops,speedup
+    --only preprocessed_triton_int4_gemm,triton_int4_gemm,eager_int4_gemm
+fp32_jagged_mean_fwd:
+  args: --op jagged_mean --baseline torch_jagged_mean_torch_sum --metrics latency,speedup
+    --only triton_jagged_mean_simple_fused,triton_jagged_mean_variable_length_loop,torch_jagged_mean_torch_sum
+fp32_jagged_softmax_fwd:
+  args: --op jagged_softmax --baseline torch_jagged_softmax_unbind_torch_softmax --metrics
+    latency,speedup --only triton_jagged_softmax_simple_fused,triton_jagged_softmax_variable_length_loop,torch_jagged_softmax_unbind_torch_softmax
+fp32_jagged_sum_fwd:
+  args: --op jagged_sum --baseline torch_jagged_sum_no_pad --metrics latency,speedup
+    --only triton_jagged_sum_no_pad_simple_fused,triton_jagged_sum_no_pad_variable_length_loop,torch_jagged_sum_no_pad
+jsd_fwd:
+  args: --op jsd --baseline torch_jsd --metrics latency,speedup --only liger_jsd,torch_jsd
 jsd_bwd:
-  op: jsd
-  args: --op jsd --baseline torch_jsd --metrics speedup --bwd --only liger_jsd,torch_jsd
+  args: --op jsd --baseline torch_jsd --metrics latency,speedup --only liger_jsd,torch_jsd
+    --bwd
+kl_div_fwd:
+  args: --op kl_div --baseline torch_kl_div --metrics latency,speedup --only liger_kl_div,torch_kl_div
 kl_div_bwd:
-  op: kl_div
-  args: --op kl_div --baseline torch_kl_div --metrics speedup --bwd --only liger_kl_div,torch_kl_div
+  args: --op kl_div --baseline torch_kl_div --metrics latency,speedup --only liger_kl_div,torch_kl_div
+    --bwd
+launch_latency_fwd:
+  args: --op launch_latency --metrics walltime
+layer_norm_fwd:
+  args: --op layer_norm --baseline torch_layer_norm --metrics latency,speedup --only
+    liger_layer_norm,triton_fused_layer_norm,triton_layer_norm,torch_layer_norm
 layer_norm_bwd:
-  op: layer_norm
-  args: --op layer_norm --baseline torch_layer_norm --metrics speedup --bwd --only
-    liger_layer_norm,torch_layer_norm
+  args: --op layer_norm --baseline torch_layer_norm --metrics latency,speedup --only
+    liger_layer_norm,triton_fused_layer_norm,triton_layer_norm,torch_layer_norm --bwd
+low_mem_dropout_fwd:
+  args: --op low_mem_dropout --baseline eager_dropout --metrics latency,speedup --only
+    seeded_dropout,triton_dropout,eager_dropout
+bf16_ragged_attention_fwd:
+  args: --op ragged_attention --metrics latency,tflops --only hstu
 bf16_ragged_attention_bwd:
-  op: ragged_attention
-  args: --op ragged_attention --metrics tflops --bwd --only hstu
+  args: --op ragged_attention --metrics latency,tflops --only hstu --bwd
+rms_norm_fwd:
+  args: --op rms_norm --baseline llama_rms --metrics latency,speedup --only liger_rms,triton_fused_rmsnorm,llama_rms
 rms_norm_bwd:
-  op: rms_norm
-  args: --op rms_norm --baseline llama_rms --metrics speedup --bwd --only liger_rms,llama_rms
+  args: --op rms_norm --baseline llama_rms --metrics latency,speedup --only liger_rms,triton_fused_rmsnorm,llama_rms
+    --bwd
+rope_fwd:
+  args: --op rope --baseline apply_rotary_pos_emb --metrics latency,speedup --only
+    liger_rotary_pos_emb,apply_rotary_pos_emb
 rope_bwd:
-  op: rope
-  args: --op rope --baseline apply_rotary_pos_emb --metrics speedup --bwd --only liger_rotary_pos_emb,apply_rotary_pos_emb
+  args: --op rope --baseline apply_rotary_pos_emb --metrics latency,speedup --only
+    liger_rotary_pos_emb,apply_rotary_pos_emb --bwd
+fp16_softmax_fwd:
+  args: --op softmax --baseline naive_softmax --metrics latency,speedup --only triton_softmax,naive_softmax
+fp16_softmax_bwd:
+  args: --op softmax --baseline naive_softmax --metrics latency,speedup --only triton_softmax,naive_softmax
+    --bwd
+sum_fwd:
+  args: --op sum --baseline torch_sum --metrics latency,speedup --only triton_sum,torch_sum
+swiglu_fwd:
+  args: --op swiglu --baseline torch_swiglu --metrics latency,speedup --only liger_swiglu,torch_swiglu
 swiglu_bwd:
-  op: swiglu
-  args: --op swiglu --baseline torch_swiglu --metrics speedup --bwd --only liger_swiglu,torch_swiglu
-launch_latency:
-  op: launch_latency
-  args: --op launch_latency --metrics walltime
+  args: --op swiglu --baseline torch_swiglu --metrics latency,speedup --only liger_swiglu,torch_swiglu
+    --bwd
+template_attention_fwd:
+  args: --op template_attention --baseline test_no_exp2 --metrics latency,speedup
+    --only test_no_exp2,test_with_exp2
+vector_add_fwd:
+  args: --op vector_add --baseline torch_add --metrics latency,speedup --only triton_add,torch_add
+vector_exp_fwd:
+  args: --op vector_exp --baseline torch_exp --metrics latency,speedup --only triton_exp,torch_exp
+vector_exp_bwd:
+  args: --op vector_exp --baseline torch_exp --metrics latency,speedup --only triton_exp,torch_exp
+    --bwd
+welford_fwd:
+  args: --op welford --baseline eager_layer_norm --metrics latency,speedup --only
+    test_no_welford,triton_welford,eager_layer_norm