[CODEGEN] Now padding shared memory for layout conversion (#468)

2022-03-03 22:19:05 -08:00
parent d9dd97492f
commit bb5765df5c
4 changed files with 62 additions and 35 deletions
--- a/lib/codegen/analysis/swizzle.cc
+++ b/lib/codegen/analysis/swizzle.cc
@@ -14,41 +14,42 @@ void swizzle::run(ir::module &) {
    max_phase_.clear();

    for(auto &x: layouts_->get_all()){
-      shared_layout* layout = dynamic_cast<shared_layout*>(x.second);
-      if(!layout)
+      shared_layout* out_layout = dynamic_cast<shared_layout*>(x.second);
+      if(!out_layout)
        continue;
-      ir::value* mma_dot_a = layout->hmma_dot_a();
-      ir::value* mma_dot_b = layout->hmma_dot_b();
-
-      if(!mma_dot_a && !mma_dot_b){
-        per_phase_[layout] = 1;
-        max_phase_[layout] = 1;
-        vec_[layout] = 1;
-        continue;
-      }
-      auto ord = layout->get_order();
-      scanline_layout* in_layout = dynamic_cast<scanline_layout*>(layout->get_arg_layout());
+      scanline_layout* in_layout = dynamic_cast<scanline_layout*>(out_layout->get_arg_layout());
      if(!in_layout)
        continue;
-      int dtsize = layout->get_type()->get_scalar_ty()->get_primitive_size_in_bits() / 8;
+
+      ir::value* mma_dot_a = out_layout->hmma_dot_a();
+      ir::value* mma_dot_b = out_layout->hmma_dot_b();
+
+      if(!mma_dot_a && !mma_dot_b){
+        per_phase_[out_layout] = 1;
+        max_phase_[out_layout] = 1;
+        vec_[out_layout] = 1;
+        continue;
+      }
+      auto ord = out_layout->get_order();
+      int dtsize = out_layout->get_type()->get_scalar_ty()->get_primitive_size_in_bits() / 8;
      if(tgt_->as_nvidia() && tgt_->as_nvidia()->sm() < 80){
        int inner = mma_dot_a ? 0 : 1;
-        per_phase_[layout] = std::max<int>(128 / (in_layout->mts(ord[0])*in_layout->nts(ord[0])*dtsize), 1);
-        max_phase_[layout] = (ord[inner] == 1 ? 8 : 4) / per_phase_[layout];
+        per_phase_[out_layout] = std::max<int>(128 / (in_layout->mts(ord[0])*in_layout->nts(ord[0])*dtsize), 1);
+        max_phase_[out_layout] = (ord[inner] == 1 ? 8 : 4) / per_phase_[out_layout];
        if(mma_dot_a)
-          vec_[layout] = 2*layouts_->get(mma_dot_a)->to_mma()->rep(0);
+          vec_[out_layout] = 2*layouts_->get(mma_dot_a)->to_mma()->rep(0);
        else
-          vec_[layout] = 2*layouts_->get(mma_dot_b)->to_mma()->rep(1);
+          vec_[out_layout] = 2*layouts_->get(mma_dot_b)->to_mma()->rep(1);
      }
      else {
-        if (!layout->allow_swizzle()) {
-          per_phase_[layout] = 1;
-          max_phase_[layout] = 1;
-          vec_[layout] = 1;
+        if (!out_layout->allow_swizzle()) {
+          per_phase_[out_layout] = 1;
+          max_phase_[out_layout] = 1;
+          vec_[out_layout] = 1;
        } else {
-          per_phase_[layout] = std::max<int>(128 / (in_layout->mts(ord[0])*in_layout->nts(ord[0])*dtsize), 1);
-          max_phase_[layout] = layout->get_mma_strided() / per_phase_[layout];
-          vec_[layout]       = layout->get_mma_vec();
+          per_phase_[out_layout] = std::max<int>(128 / (in_layout->mts(ord[0])*in_layout->nts(ord[0])*dtsize), 1);
+          max_phase_[out_layout] = out_layout->get_mma_strided() / per_phase_[out_layout];
+          vec_[out_layout]       = out_layout->get_mma_vec();
        }
      }
    }