[RUNTIME] now decoupling entry point from cubin (#696)

2022-09-22 16:44:22 -07:00
parent df67068bb0
commit 8c3d4d5749
3 changed files with 188 additions and 273 deletions
--- a/python/src/triton.cc
+++ b/python/src/triton.cc
@@ -430,150 +430,90 @@ void init_triton_runtime(py::module &&m) {
 /*****************************************************************************/
 typedef std::map<std::string, py::object> asm_map_t;

-// --------------------------------------- 
-// Load provided assembly code into driver
-// --------------------------------------- 
-
-// CUDA
-std::tuple<uint64_t, uint64_t, uint64_t, uint64_t> cu_load_binary(const std::string& name, asm_map_t &asm_map, size_t n_shared_bytes, uint64_t dev){
-  // load assembly
-  std::string assembly;
-  if(asm_map.find("cubin") != asm_map.end())
-    assembly = py::cast<std::string>(asm_map["cubin"]);
-  else
-    assembly = py::cast<std::string>(asm_map["ptx"]);
-  // create driver handles
-  CUfunction fun;
-  CUmodule mod;
-  drv::dispatch::cuModuleLoadData(&mod, assembly.c_str());
-  drv::dispatch::cuModuleGetFunction(&fun, mod, name.c_str());
-  // get allocated registers and spilled registers from the function
-  int n_regs = 0;
-  int n_spills = 0;
-  drv::dispatch::cuFuncGetAttribute(&n_regs, CU_FUNC_ATTRIBUTE_NUM_REGS, fun);
-  drv::dispatch::cuFuncGetAttribute(&n_spills, CU_FUNC_ATTRIBUTE_LOCAL_SIZE_BYTES, fun);
-  n_spills /= 4;
-  // set dynamic shared memory if necessary
-  int shared_optin;
-  drv::dispatch::cuDeviceGetAttribute(&shared_optin, CU_DEVICE_ATTRIBUTE_MAX_SHARED_MEMORY_PER_BLOCK_OPTIN, dev);
-  if(n_shared_bytes > 49152 && shared_optin > 49152){
-    drv::dispatch::cuFuncSetCacheConfig(fun, CU_FUNC_CACHE_PREFER_SHARED);
-    int shared_total, shared_static;
-    drv::dispatch::cuDeviceGetAttribute(&shared_total, CU_DEVICE_ATTRIBUTE_MAX_SHARED_MEMORY_PER_MULTIPROCESSOR, dev);
-    drv::dispatch::cuFuncGetAttribute(&shared_static, CU_FUNC_ATTRIBUTE_SHARED_SIZE_BYTES, fun);
-    drv::dispatch::cuFuncSetAttribute(fun, CU_FUNC_ATTRIBUTE_MAX_DYNAMIC_SHARED_SIZE_BYTES, shared_optin - shared_static);
-  }
-  return std::make_tuple((uint64_t)mod, (uint64_t)fun, (uint64_t)n_regs, (uint64_t)n_spills);
-}
-
-// ROCM
-std::tuple<uint64_t, uint64_t, uint64_t, uint64_t> hip_load_binary(const std::string& name, asm_map_t &asm_map, size_t n_shared_bytes, uint64_t dev){
-  py::bytes _assembly = asm_map["hsaco"];
-  std::string assembly = py::cast<std::string>(_assembly);
-  // HSA-CO -> hipModule
-  hipModule_t mod = drv::amdgpu_to_hipmodule(assembly);
-  // Handle to the kernel
-  hipFunction_t fun;
-  drv::dispatch::hipModuleGetFunction(&fun, mod, name.c_str());
-  // record asm
-  return std::make_tuple((uint64_t)mod, (uint64_t)fun, 0, 0);
-}
-
 // --------------------------------------- 
 // Compile Triton-IR to assembly
 // --------------------------------------- 

-// CUDA
-std::tuple<std::string, asm_map_t, int> cu_compile_ttir(
-    const std::string &name, ir::module &ir, uint64_t device, int num_warps,
-    int num_stages, asm_map_t &asm_map,
-    const triton::codegen::ExternLibMap &extern_lib_map) {
-  py::gil_scoped_release allow_threads;
-  llvm::LLVMContext ctx;
-  // device properties
-  CUdevice dev = (CUdevice)device;
-  size_t major = cuGetInfo<CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR>(dev);
-  size_t minor = cuGetInfo<CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MINOR>(dev);
-  size_t cc = major*10 + minor;
-  int version;
-  std::string ptxas_path = drv::path_to_ptxas(version);
-  // Triton-IR -> NVPTX LLVM-IR
-  triton::codegen::nvidia_cu_target target(cc);
-  int n_shared_bytes;
-  auto llvm = triton::codegen::add_passes_to_emit_bin(
-      ir, ctx, &target, num_warps, num_stages, n_shared_bytes, extern_lib_map);
-  std::string tmp;
-  llvm::raw_string_ostream llir(tmp);
-  llir << *llvm;
-  llir.flush();
-  asm_map["llir"] = py::cast(tmp);
-  // LLVM-IR -> PTX
-  std::string ptx = drv::llir_to_ptx(llvm.get(), cc, version);
-  asm_map["ptx"] = py::cast(ptx);
-  // PTX -> Binary
-  std::string cubin = drv::ptx_to_cubin(ptx, ptxas_path, cc);
-  if(!cubin.empty()){
-    py::bytes bytes(cubin);
-    asm_map["cubin"] = bytes;
-  }
-  return std::make_tuple(name, asm_map, n_shared_bytes);
-}
-
-// HIP
-std::tuple<std::string, asm_map_t, int> hip_compile_ttir(
-    const std::string &name, ir::module &ir, uint64_t device, int num_warps,
-    int num_stages, asm_map_t &asm_map,
-    const triton::codegen::ExternLibMap &extern_lib_map) {
-  llvm::LLVMContext ctx;
-  // Triton-IR -> NVPTX LLVM-IR
-  triton::codegen::amd_cl_target target;
-  int n_shared_bytes;
-  auto llvm = triton::codegen::add_passes_to_emit_bin(
-      ir, ctx, &target, num_warps, num_stages, n_shared_bytes, extern_lib_map);
-  std::string tmp;
-  llvm::raw_string_ostream llir(tmp);
-  llir << *llvm;
-  llir.flush();
-  asm_map["llir"] = py::cast(tmp);
-  // LLVM-IR -> HSA-CO
-  std::string path = drv::llir_to_amdgpu(llvm.get(), "gfx908");
-  asm_map["hsaco"] = py::cast(path);
-  return std::make_tuple(name, asm_map, n_shared_bytes);
-}
-
 void init_triton_codegen(py::module &&m) {
-  m.def(
-      "compile_ttir",
-      [](backend_t backend, ir::module &ir, uint64_t device, int num_warps,
-         int num_stages, py::dict& extern_libs) {
-        std::string name = ir.get_function_list()[0]->get_name();
-        // record asm as we generate
-        asm_map_t asm_map;
-        std::ostringstream ttir;
-        ir.print(ttir);
-        asm_map["ttir"] = py::cast(ttir.str());
-        llvm::LLVMContext ctx;
-        // construct extern lib map
-        triton::codegen::ExternLibMap extern_lib_map;
-        for (auto item : extern_libs) {
-          auto name = item.first.cast<std::string>();
-          auto path = item.second.cast<std::string>();
-          extern_lib_map.emplace(
-              name, triton::codegen::create_extern_lib(name, path));
-        }
-        if(backend == CUDA)
-          return cu_compile_ttir(name, ir, device, num_warps, num_stages, asm_map, extern_lib_map);
-        assert(backend == ROCM);
-        return hip_compile_ttir(name, ir, device, num_warps, num_stages, asm_map, extern_lib_map);
+  m.def("compile_ttir",
+      [](backend_t backend, ir::module &ir, uint64_t device, int num_warps, int num_stages, py::dict& extern_libs) {
+          py::gil_scoped_release allow_threads;
+          std::string name = ir.get_function_list()[0]->get_name();
+          // record asm as we generate
+          asm_map_t asm_map;
+          std::ostringstream ttir;
+          ir.print(ttir);
+          asm_map["ttir"] = py::cast(ttir.str());
+          llvm::LLVMContext ctx;
+          // construct extern lib map
+          triton::codegen::ExternLibMap extern_lib_map;
+          for (auto item : extern_libs) {
+            auto name = item.first.cast<std::string>();
+            auto path = item.second.cast<std::string>();
+            extern_lib_map.emplace(
+                name, triton::codegen::create_extern_lib(name, path));
+          }
+          // device properties
+          CUdevice dev = (CUdevice)device;
+          size_t major = cuGetInfo<CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR>(dev);
+          size_t minor = cuGetInfo<CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MINOR>(dev);
+          size_t cc = major*10 + minor;
+          int version;
+          std::string ptxas_path = drv::path_to_ptxas(version);
+          // Triton-IR -> NVPTX LLVM-IR
+          triton::codegen::nvidia_cu_target target(cc);
+          int n_shared_bytes;
+          auto llvm = triton::codegen::add_passes_to_emit_bin(
+              ir, ctx, &target, num_warps, num_stages, n_shared_bytes, extern_lib_map);
+          std::string tmp;
+          llvm::raw_string_ostream llir(tmp);
+          llir << *llvm;
+          llir.flush();
+          asm_map["llir"] = py::cast(tmp);
+          // LLVM-IR -> PTX
+          std::string ptx = drv::llir_to_ptx(llvm.get(), cc, version);
+          asm_map["ptx"] = py::cast(ptx);
+          // PTX -> Binary
+          std::string cubin = drv::ptx_to_cubin(ptx, ptxas_path, cc);
+          if(!cubin.empty()){
+            py::bytes bytes(cubin);
+            asm_map["cubin"] = bytes;
+          }
+          return std::make_tuple(name, asm_map, n_shared_bytes);
      },
      py::return_value_policy::take_ownership);
-  m.def("load_binary", [](backend_t backend, const std::string& name, asm_map_t &asm_map, size_t n_shared_bytes, uint64_t dev){
-	py::gil_scoped_release allow_threads;
-        if(backend == CUDA)
-          return cu_load_binary(name, asm_map, n_shared_bytes, dev);
-        assert(backend == ROCM);
-        return hip_load_binary(name, asm_map, n_shared_bytes, dev);
-      }, py::return_value_policy::take_ownership);
+  
+
+  // --------------------------------------- 
+  // Load provided assembly code into driver
+  // --------------------------------------- 
+  m.def("load_binary", [](const std::string& name, const std::string& data, size_t n_shared_bytes, uint64_t device){
+	      py::gil_scoped_release allow_threads;
+        // create driver handles
+        CUfunction fun;
+        CUmodule mod;
+        drv::dispatch::cuModuleLoadData(&mod, data.c_str());
+        drv::dispatch::cuModuleGetFunction(&fun, mod, name.c_str());
+        // get allocated registers and spilled registers from the function
+        int n_regs = 0;
+        int n_spills = 0;
+        drv::dispatch::cuFuncGetAttribute(&n_regs, CU_FUNC_ATTRIBUTE_NUM_REGS, fun);
+        drv::dispatch::cuFuncGetAttribute(&n_spills, CU_FUNC_ATTRIBUTE_LOCAL_SIZE_BYTES, fun);
+        n_spills /= 4;
+        // set dynamic shared memory if necessary
+        int shared_optin;
+        drv::dispatch::cuDeviceGetAttribute(&shared_optin, CU_DEVICE_ATTRIBUTE_MAX_SHARED_MEMORY_PER_BLOCK_OPTIN, device);
+        if(n_shared_bytes > 49152 && shared_optin > 49152){
+          drv::dispatch::cuFuncSetCacheConfig(fun, CU_FUNC_CACHE_PREFER_SHARED);
+          int shared_total, shared_static;
+          drv::dispatch::cuDeviceGetAttribute(&shared_total, CU_DEVICE_ATTRIBUTE_MAX_SHARED_MEMORY_PER_MULTIPROCESSOR, device);
+          drv::dispatch::cuFuncGetAttribute(&shared_static, CU_FUNC_ATTRIBUTE_SHARED_SIZE_BYTES, fun);
+          drv::dispatch::cuFuncSetAttribute(fun, CU_FUNC_ATTRIBUTE_MAX_DYNAMIC_SHARED_SIZE_BYTES, shared_optin - shared_static);
+        }
+        return std::make_tuple((uint64_t)mod, (uint64_t)fun, (uint64_t)n_regs, (uint64_t)n_spills);
+      }, 
+      py::return_value_policy::take_ownership
+  );
  

  struct InstanceDescriptor