yiming0416
diff --git a/‎test/inductor/test_fxir_backend.py‎
Lines changed: 417 additions & 0 deletions b/‎test/inductor/test_fxir_backend.py‎
Lines changed: 417 additions & 0 deletions
diff --git a/‎torch/_higher_order_ops/triton_kernel_wrap.py‎
Lines changed: 22 additions & 8 deletions b/‎torch/_higher_order_ops/triton_kernel_wrap.py‎
Lines changed: 22 additions & 8 deletions
diff --git a/‎torch/_inductor/codegen/common.py‎
Lines changed: 59 additions & 1 deletion b/‎torch/_inductor/codegen/common.py‎
Lines changed: 59 additions & 1 deletion
diff --git a/‎torch/_inductor/codegen/wrapper.py‎
Lines changed: 71 additions & 2 deletions b/‎torch/_inductor/codegen/wrapper.py‎
Lines changed: 71 additions & 2 deletions
@@ -1750,25 +1750,39 @@ def check_grid(
         # normalize to tuple
         return tuple(grid)
 
-    def call_HOP(
+    def store_non_graphable_args(
         self,
-        variable: "TraceableTritonKernelWrapper",
-        grids: list["TritonGridTupleType"],
         combined_args: dict[str, Any],
-        tx: None,
-    ) -> None:
-        assert tx is None
-        assert isinstance(variable, TraceableTritonKernelWrapper)
+    ) -> tuple[dict, int]:
+        """
+        Some args cannot be stored in the FX graph.
+        Put them in the side table.
+        """
 
         def is_graphable(val: Any) -> bool:
-            return isinstance(val, fx.node.base_types)
+            return isinstance(val, (fx.node.base_types, fx.Node))
 
         non_graphable_args = {
             k: v for k, v in combined_args.items() if not is_graphable(v)
         }
         graphable_args = {k: v for k, v in combined_args.items() if is_graphable(v)}
 
         constant_args_idx = kernel_side_table.add_constant_args(non_graphable_args)
+
+        return graphable_args, constant_args_idx
+
+    def call_HOP(
+        self,
+        variable: "TraceableTritonKernelWrapper",
+        grids: list["TritonGridTupleType"],
+        combined_args: dict[str, Any],
+        tx: None,
+    ) -> None:
+        assert tx is None
+        assert isinstance(variable, TraceableTritonKernelWrapper)
+
+        graphable_args, constant_args_idx = self.store_non_graphable_args(combined_args)
+
         assert isinstance(variable.kernel_idx, int)
         return triton_kernel_wrapper_mutation(
             kernel_idx=variable.kernel_idx,
 
@@ -1,5 +1,6 @@
 from __future__ import annotations
 
+import atexit
 import contextlib
 import dataclasses
 import enum
@@ -8,8 +9,11 @@
 import logging
 import math
 import operator
+import os
 import re
+import tempfile
 import typing
+from abc import ABC, abstractmethod
 from enum import auto, Enum
 from itertools import chain
 from typing import (
@@ -60,6 +64,8 @@
 if TYPE_CHECKING:
     from collections.abc import Iterator, MutableMapping, Sequence
 
+    from torch.fx import GraphModule
+
     from ..ir import Buffer, ChoiceCaller, FixedLayout, IRNode
     from ..loop_body import LoopBody
     from ..scheduler import BaseScheduling, Scheduler, SchedulerNode
@@ -83,6 +89,38 @@ def data_type_logger(msg: str) -> None:
         schedule_log.debug("Data type propagation: %s", msg)
 
 
+@dataclasses.dataclass
+class FileBackedGraphModule:
+    """
+    Output of FX wrapper codegen. Exposes the same methods as ModuleType, but these
+    map back to a GraphModule instead of Python source.
+    """
+
+    gm: GraphModule
+    compiled_fn: Callable[..., Any]
+
+    def __post_init__(self) -> None:
+        # Write the code to a file for compatibility with debugging utilities.
+        # The file is deleted upon program termination.
+        self.tempfile = tempfile.NamedTemporaryFile(
+            mode="w+", suffix=".py", delete=False
+        )
+        atexit.register(os.remove, self.tempfile.name)
+        with self.tempfile as f:
+            f.write(self.value)
+
+    @property
+    def __file__(self) -> str:
+        return self.tempfile.name
+
+    def call(self, args: list[Any]) -> Any:
+        return self.compiled_fn(*args)
+
+    @property
+    def value(self) -> str:
+        return self.gm.code
+
+
 class WorkspaceZeroMode(enum.Enum):
     UNINITIALIZED = 0
     ZERO_ON_CALL = 1  # kernel may leave workspace dirty
@@ -103,8 +141,22 @@ def from_bool(zero_fill: bool) -> WorkspaceZeroMode:
         return WorkspaceZeroMode.UNINITIALIZED
 
 
+class CodegenSymbol(ABC):
+    """
+    An IR object possibly corresponding to a variable in the wrapper code.
+    """
+
+    @abstractmethod
+    def get_name(self) -> str:
+        pass
+
+    @abstractmethod
+    def get_example(self) -> Union[torch.Tensor, sympy.Symbol]:
+        pass
+
+
 @ir_dataclass(frozen=True)
-class WorkspaceArg:
+class WorkspaceArg(CodegenSymbol):
     """A temporary buffer used for a single kernel, then discarded.
 
     Not registered as a traditional buffer since there are no users,
@@ -167,6 +219,9 @@ def get_device(self) -> torch.device:
     def get_dtype(self) -> torch.dtype:
         return self.dtype
 
+    def get_example(self) -> Union[torch.Tensor, sympy.Symbol]:
+        return self.get_layout().get_example()
+
     def get_layout(self) -> FixedLayout:
         from ..ir import FixedLayout
 
@@ -185,6 +240,9 @@ def layout(self) -> FixedLayout:
     maybe_get_output_spec = get_layout
     maybe_get_layout = get_layout
 
+    def get_offset(self) -> sympy.Expr:
+        return sympy.S.Zero
+
     def get_size(self) -> list[sympy.Expr]:
         return [self.count]
 
 
@@ -74,6 +74,7 @@
     import triton
 
     from ..graph import GraphLowering
+    from .wrapper_fxir import FxConverter
 
 
 log = logging.getLogger(__name__)
@@ -83,6 +84,7 @@
 
 ReuseKey = tuple[torch.device, torch.dtype, str, bool]
 BufferLike = Union[ir.Buffer, WorkspaceArg]
+FxConversionFunc = Callable[["WrapperLine"], None]
 
 
 def buffer_reuse_key(node: BufferLike) -> ReuseKey:
@@ -349,7 +351,8 @@ def push(self, key: ReuseKey, item: FreeIfNotReusedLine) -> None:
 
 
 class WrapperLine:
-    pass
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        raise NotImplementedError("FX codegen not yet supported for type {type(self)}")
 
 
 @dataclasses.dataclass
@@ -364,6 +367,9 @@ def codegen(self, code: IndentedBuffer) -> None:
         self.wrapper.push_codegened_graph(self.graph)
         code.do_indent()
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_enter_subgraph
+
 
 @dataclasses.dataclass
 class CommentLine(WrapperLine):
@@ -372,6 +378,10 @@ class CommentLine(WrapperLine):
     def codegen(self, code: IndentedBuffer) -> None:
         code.writeline(self.line)
 
+    @staticmethod
+    def codegen_fx(converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_comment
+
 
 @dataclasses.dataclass
 class ExitSubgraphLine(WrapperLine):
@@ -384,6 +394,9 @@ def codegen(self, code: IndentedBuffer) -> None:
         self.wrapper.pop_codegened_graph()
         code.do_unindent()
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_exit_subgraph
+
 
 @dataclasses.dataclass
 class EnterDeviceContextManagerLine(WrapperLine):
@@ -419,12 +432,18 @@ def codegen(self, code: IndentedBuffer) -> None:
             code.do_indent()
             code.writeline(V.graph.device_ops.set_device(self.device_idx))
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_enter_device_context_manager
+
 
 class ExitDeviceContextManagerLine(WrapperLine):
     def codegen(self, code: IndentedBuffer) -> None:
         if not V.graph.cpp_wrapper:
             code.do_unindent()
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_exit_device_context_manager
+
 
 @dataclasses.dataclass
 class ExternKernelAllocLine(WrapperLine):
@@ -436,6 +455,9 @@ def codegen(self, code: IndentedBuffer) -> None:
         args = [*node.codegen_args(), *node.codegen_kwargs()]
         self.wrapper._generate_extern_kernel_alloc_helper(self.node, args)
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_extern_kernel_alloc
+
 
 @dataclasses.dataclass
 class ExternKernelOutLine(WrapperLine):
@@ -466,6 +488,9 @@ def codegen(self, code: IndentedBuffer) -> None:
             device,
         )
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_extern_kernel_out
+
 
 @dataclasses.dataclass
 class FreeLine(WrapperLine):
@@ -476,6 +501,9 @@ def codegen(self, code: IndentedBuffer) -> None:
         assert self.node.get_name() not in V.graph.removed_buffers
         code.writeline(self.wrapper.make_buffer_free(self.node))
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_free
+
 
 @dataclasses.dataclass
 class KernelCallLine(WrapperLine):
@@ -505,6 +533,9 @@ def codegen(self, code: IndentedBuffer) -> None:
             original_fxnode_name=self.original_fxnode_name,
         )
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_kernel_call
+
 
 @dataclasses.dataclass
 class KernelDefinitionLine(WrapperLine):
@@ -524,6 +555,9 @@ def codegen(self, code: IndentedBuffer) -> None:
             cpp_definition=self.cpp_definition,
         )
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_kernel_definition
+
 
 @dataclasses.dataclass
 class MemoryPlanningLine(WrapperLine):
@@ -580,6 +614,9 @@ def codegen(self, code: IndentedBuffer) -> None:
         line = self.wrapper.make_buffer_allocation(self.node)
         code.writeline(line)
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_allocate
+
 
 @dataclasses.dataclass
 class FreeIfNotReusedLine(MemoryPlanningLine):
@@ -603,6 +640,9 @@ def codegen(self, code: IndentedBuffer) -> None:
         if not self.is_reused:
             code.writeline(self.wrapper.make_buffer_free(self.node))
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_free_if_not_reused
+
 
 @dataclasses.dataclass
 class ReinterpretLine(MemoryPlanningLine):
@@ -620,6 +660,9 @@ def codegen(self, code: IndentedBuffer) -> None:
             self.reused_as.get_name(), self.layout.view
         )
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_reinterpret
+
 
 @dataclasses.dataclass
 class ReuseLine(MemoryPlanningLine):
@@ -641,9 +684,13 @@ def codegen(self, code: IndentedBuffer) -> None:
             self.wrapper.make_buffer_reuse(self.node, self.reused_as, self.delete_old)
         )
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_reuse
+
 
 class NullLine(MemoryPlanningLine):
-    pass
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_null
 
 
 @dataclasses.dataclass
@@ -717,13 +764,19 @@ def make_allocation_line(
                 f"Unsupported comm buffer type: {comm_buffer_type}"
             )
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_comm_buffer_allocate
+
 
 @dataclasses.dataclass
 class CommBufferFreeLine(CommBufferLine):
     def codegen(self, code: IndentedBuffer) -> None:
         line = self.wrapper.make_buffer_free(self.node)
         code.writeline(f"{line} # {self.comm_buffer_type.value} buffer free")
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_comm_buffer_free
+
 
 @dataclasses.dataclass
 class MultiOutputLine(WrapperLine):
@@ -760,6 +813,22 @@ def codegen_list_tuple_access(basename, indices):  # type: ignore[no-untyped-def
             f"{self.wrapper.declare}{self.result_name} = {value}{self.wrapper.ending}"
         )
 
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_multi_output
+
+
+@dataclasses.dataclass
+class SymbolicCallArgLine(WrapperLine):
+    wrapper: PythonWrapperCodegen
+    arg: SymbolicCallArg
+    graph: GraphLowering
+
+    def codegen(self, code: IndentedBuffer) -> None:
+        self.wrapper._generate_symbolic_call_arg_helper(self.arg, self.graph)
+
+    def codegen_fx(self, converter: FxConverter) -> FxConversionFunc:
+        return converter._generate_symbolic_call_arg
+
 
 @dataclasses.dataclass
 class SymbolicCallArgLine(WrapperLine):