more work on heuristics

2019-07-21 18:11:54 -07:00
parent 484e3871cf
commit b1d81a5802
17 changed files with 268 additions and 99 deletions
--- a/examples/python/tensorflow/dot.cpp
+++ b/examples/python/tensorflow/dot.cpp
@@ -49,7 +49,7 @@ class DotOp : public OpKernel {
    triton::driver::cu_buffer db(ctx, (CUdeviceptr)b.flat<Eigen::half>().data(), false);
    triton::driver::cu_buffer dc(ctx, (CUdeviceptr)c->flat<float>().data(), false);
    // template
-    triton::dnn::gemm dot(M, N, K, false, false, "fp16", "fp16", 4, 4);
+    triton::dnn::dot dot(M, N, K, false, false, "fp16", "fp16", 8, 8);
    dot.enqueue(stream, {&da, &db, &dc});
  }

--- a/examples/python/tensorflow/shift.cpp
+++ b/examples/python/tensorflow/shift.cpp
@@ -19,7 +19,7 @@
 using namespace tensorflow;
 using GPUDevice = Eigen::GpuDevice;

-template<triton::dnn::shift::type OP>
+template<triton::dnn::shift::op_t OP>
 class ShiftConvOp : public OpKernel {
 public:
  explicit ShiftConvOp(OpKernelConstruction* context) : OpKernel(context), layout_(triton::dnn::shift::NCHW) {