diff --git a/master/.buildinfo b/master/.buildinfo
index 27604d52c..1927b47f5 100644
--- a/master/.buildinfo
+++ b/master/.buildinfo
@@ -1,4 +1,4 @@
 # Sphinx build info version 1
 # This file hashes the configuration used when building these files. When it is not found, a full rebuild will be done.
-config: 456fb2bf2c82c803cfdaa7bcb3e778a9
+config: aa051e1ca67e6f2658629dbe2c30cba0
 tags: 645f666f9bcd5a90fca523b33c5a78b7
diff --git a/master/.doctrees/environment.pickle b/master/.doctrees/environment.pickle
index 51eef543f..d57942e3b 100644
Binary files a/master/.doctrees/environment.pickle and b/master/.doctrees/environment.pickle differ
diff --git a/master/.doctrees/getting-started/installation.doctree b/master/.doctrees/getting-started/installation.doctree
index aeddca6d4..f5f6f0a71 100644
Binary files a/master/.doctrees/getting-started/installation.doctree and b/master/.doctrees/getting-started/installation.doctree differ
diff --git a/master/.doctrees/getting-started/tutorials/01-vector-add.doctree b/master/.doctrees/getting-started/tutorials/01-vector-add.doctree
index a5314eb19..b4fd24925 100644
Binary files a/master/.doctrees/getting-started/tutorials/01-vector-add.doctree and b/master/.doctrees/getting-started/tutorials/01-vector-add.doctree differ
diff --git a/master/.doctrees/getting-started/tutorials/02-fused-softmax.doctree b/master/.doctrees/getting-started/tutorials/02-fused-softmax.doctree
index 5caf7b6a1..3d287e9aa 100644
Binary files a/master/.doctrees/getting-started/tutorials/02-fused-softmax.doctree and b/master/.doctrees/getting-started/tutorials/02-fused-softmax.doctree differ
diff --git a/master/.doctrees/getting-started/tutorials/03-matrix-multiplication.doctree b/master/.doctrees/getting-started/tutorials/03-matrix-multiplication.doctree
index 9e2c12ece..9aed8a142 100644
Binary files a/master/.doctrees/getting-started/tutorials/03-matrix-multiplication.doctree and b/master/.doctrees/getting-started/tutorials/03-matrix-multiplication.doctree differ
diff --git a/master/.doctrees/getting-started/tutorials/04-low-memory-dropout.doctree b/master/.doctrees/getting-started/tutorials/04-low-memory-dropout.doctree
index 19a237748..70f20150d 100644
Binary files a/master/.doctrees/getting-started/tutorials/04-low-memory-dropout.doctree and b/master/.doctrees/getting-started/tutorials/04-low-memory-dropout.doctree differ
diff --git a/master/.doctrees/getting-started/tutorials/05-layer-norm.doctree b/master/.doctrees/getting-started/tutorials/05-layer-norm.doctree
index 266e9d4a3..62eb6bb44 100644
Binary files a/master/.doctrees/getting-started/tutorials/05-layer-norm.doctree and b/master/.doctrees/getting-started/tutorials/05-layer-norm.doctree differ
diff --git a/master/.doctrees/getting-started/tutorials/index.doctree b/master/.doctrees/getting-started/tutorials/index.doctree
index 7b5790de5..23adb18bc 100644
Binary files a/master/.doctrees/getting-started/tutorials/index.doctree and b/master/.doctrees/getting-started/tutorials/index.doctree differ
diff --git a/master/.doctrees/getting-started/tutorials/sg_execution_times.doctree b/master/.doctrees/getting-started/tutorials/sg_execution_times.doctree
index 0c2a47d6e..b38b1e4c7 100644
Binary files a/master/.doctrees/getting-started/tutorials/sg_execution_times.doctree and b/master/.doctrees/getting-started/tutorials/sg_execution_times.doctree differ
diff --git a/master/.doctrees/index.doctree b/master/.doctrees/index.doctree
index 1c542e1eb..f5a49c5ee 100644
Binary files a/master/.doctrees/index.doctree and b/master/.doctrees/index.doctree differ
diff --git a/master/.doctrees/programming-guide/chapter-1/introduction.doctree b/master/.doctrees/programming-guide/chapter-1/introduction.doctree
index 88eca63f5..e157a4cfa 100644
Binary files a/master/.doctrees/programming-guide/chapter-1/introduction.doctree and b/master/.doctrees/programming-guide/chapter-1/introduction.doctree differ
diff --git a/master/.doctrees/programming-guide/chapter-2/related-work.doctree b/master/.doctrees/programming-guide/chapter-2/related-work.doctree
index b12db3964..6491fe12b 100644
Binary files a/master/.doctrees/programming-guide/chapter-2/related-work.doctree and b/master/.doctrees/programming-guide/chapter-2/related-work.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.Config.doctree b/master/.doctrees/python-api/generated/triton.Config.doctree
index e4c4f9de6..d8f49e3ca 100644
Binary files a/master/.doctrees/python-api/generated/triton.Config.doctree and b/master/.doctrees/python-api/generated/triton.Config.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.autotune.doctree b/master/.doctrees/python-api/generated/triton.autotune.doctree
index 3e769328b..dcd3f1c8f 100644
Binary files a/master/.doctrees/python-api/generated/triton.autotune.doctree and b/master/.doctrees/python-api/generated/triton.autotune.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.heuristics.doctree b/master/.doctrees/python-api/generated/triton.heuristics.doctree
index 5bfe88276..13e83b997 100644
Binary files a/master/.doctrees/python-api/generated/triton.heuristics.doctree and b/master/.doctrees/python-api/generated/triton.heuristics.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.jit.doctree b/master/.doctrees/python-api/generated/triton.jit.doctree
index 04fa26a7a..d1bc2dab8 100644
Binary files a/master/.doctrees/python-api/generated/triton.jit.doctree and b/master/.doctrees/python-api/generated/triton.jit.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.arange.doctree b/master/.doctrees/python-api/generated/triton.language.arange.doctree
index fa7329484..4eb5b588f 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.arange.doctree and b/master/.doctrees/python-api/generated/triton.language.arange.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.atomic_add.doctree b/master/.doctrees/python-api/generated/triton.language.atomic_add.doctree
index 469064874..aca062b83 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.atomic_add.doctree and b/master/.doctrees/python-api/generated/triton.language.atomic_add.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.atomic_cas.doctree b/master/.doctrees/python-api/generated/triton.language.atomic_cas.doctree
index 2b7a00deb..2da19a0fc 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.atomic_cas.doctree and b/master/.doctrees/python-api/generated/triton.language.atomic_cas.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.atomic_max.doctree b/master/.doctrees/python-api/generated/triton.language.atomic_max.doctree
index 468d0938d..7fbf81859 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.atomic_max.doctree and b/master/.doctrees/python-api/generated/triton.language.atomic_max.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.atomic_min.doctree b/master/.doctrees/python-api/generated/triton.language.atomic_min.doctree
index 562b8e5fd..7ba78acbb 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.atomic_min.doctree and b/master/.doctrees/python-api/generated/triton.language.atomic_min.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.atomic_xchg.doctree b/master/.doctrees/python-api/generated/triton.language.atomic_xchg.doctree
index 680ab77e4..751bfedec 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.atomic_xchg.doctree and b/master/.doctrees/python-api/generated/triton.language.atomic_xchg.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.broadcast_to.doctree b/master/.doctrees/python-api/generated/triton.language.broadcast_to.doctree
index 210a06f9f..72a9221ca 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.broadcast_to.doctree and b/master/.doctrees/python-api/generated/triton.language.broadcast_to.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.cos.doctree b/master/.doctrees/python-api/generated/triton.language.cos.doctree
index 7ef13f742..b5d01a9ab 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.cos.doctree and b/master/.doctrees/python-api/generated/triton.language.cos.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.dot.doctree b/master/.doctrees/python-api/generated/triton.language.dot.doctree
index 8a65688dd..d8b587815 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.dot.doctree and b/master/.doctrees/python-api/generated/triton.language.dot.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.exp.doctree b/master/.doctrees/python-api/generated/triton.language.exp.doctree
index 7009e36c7..4a3ccb9c8 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.exp.doctree and b/master/.doctrees/python-api/generated/triton.language.exp.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.load.doctree b/master/.doctrees/python-api/generated/triton.language.load.doctree
index c2e86d128..ad04b6c61 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.load.doctree and b/master/.doctrees/python-api/generated/triton.language.load.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.log.doctree b/master/.doctrees/python-api/generated/triton.language.log.doctree
index a71afb324..acc41de3f 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.log.doctree and b/master/.doctrees/python-api/generated/triton.language.log.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.max.doctree b/master/.doctrees/python-api/generated/triton.language.max.doctree
index 9122d4278..5d70e4566 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.max.doctree and b/master/.doctrees/python-api/generated/triton.language.max.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.maximum.doctree b/master/.doctrees/python-api/generated/triton.language.maximum.doctree
index 983b40b14..e4ccfc22d 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.maximum.doctree and b/master/.doctrees/python-api/generated/triton.language.maximum.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.min.doctree b/master/.doctrees/python-api/generated/triton.language.min.doctree
index dec63115c..57d51cf94 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.min.doctree and b/master/.doctrees/python-api/generated/triton.language.min.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.minimum.doctree b/master/.doctrees/python-api/generated/triton.language.minimum.doctree
index 8bb5a5fba..72602e89c 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.minimum.doctree and b/master/.doctrees/python-api/generated/triton.language.minimum.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.multiple_of.doctree b/master/.doctrees/python-api/generated/triton.language.multiple_of.doctree
index ec05b5680..e58ab59fb 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.multiple_of.doctree and b/master/.doctrees/python-api/generated/triton.language.multiple_of.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.num_programs.doctree b/master/.doctrees/python-api/generated/triton.language.num_programs.doctree
index cb56731b6..c944c51c3 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.num_programs.doctree and b/master/.doctrees/python-api/generated/triton.language.num_programs.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.program_id.doctree b/master/.doctrees/python-api/generated/triton.language.program_id.doctree
index 3813a4aff..9ec57f95a 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.program_id.doctree and b/master/.doctrees/python-api/generated/triton.language.program_id.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.rand.doctree b/master/.doctrees/python-api/generated/triton.language.rand.doctree
index 3cbd1e6cc..35d7cf58b 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.rand.doctree and b/master/.doctrees/python-api/generated/triton.language.rand.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.randint.doctree b/master/.doctrees/python-api/generated/triton.language.randint.doctree
index b264b4eb7..3b66880ed 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.randint.doctree and b/master/.doctrees/python-api/generated/triton.language.randint.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.randint4x.doctree b/master/.doctrees/python-api/generated/triton.language.randint4x.doctree
index 441ec42b1..3b35387a1 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.randint4x.doctree and b/master/.doctrees/python-api/generated/triton.language.randint4x.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.randn.doctree b/master/.doctrees/python-api/generated/triton.language.randn.doctree
index a5f67d2a5..3ad74e17c 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.randn.doctree and b/master/.doctrees/python-api/generated/triton.language.randn.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.ravel.doctree b/master/.doctrees/python-api/generated/triton.language.ravel.doctree
index 574624fd6..dea119335 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.ravel.doctree and b/master/.doctrees/python-api/generated/triton.language.ravel.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.reshape.doctree b/master/.doctrees/python-api/generated/triton.language.reshape.doctree
index 591f75aa0..e6cd64dff 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.reshape.doctree and b/master/.doctrees/python-api/generated/triton.language.reshape.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.sigmoid.doctree b/master/.doctrees/python-api/generated/triton.language.sigmoid.doctree
index 8d1272a3b..15bf1a627 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.sigmoid.doctree and b/master/.doctrees/python-api/generated/triton.language.sigmoid.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.sin.doctree b/master/.doctrees/python-api/generated/triton.language.sin.doctree
index e4305d99c..b1faad4ab 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.sin.doctree and b/master/.doctrees/python-api/generated/triton.language.sin.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.softmax.doctree b/master/.doctrees/python-api/generated/triton.language.softmax.doctree
index f275dd969..59a86d78e 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.softmax.doctree and b/master/.doctrees/python-api/generated/triton.language.softmax.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.sqrt.doctree b/master/.doctrees/python-api/generated/triton.language.sqrt.doctree
index 715a7c288..0cd05fd0c 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.sqrt.doctree and b/master/.doctrees/python-api/generated/triton.language.sqrt.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.store.doctree b/master/.doctrees/python-api/generated/triton.language.store.doctree
index d99c5ca9e..865c218ba 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.store.doctree and b/master/.doctrees/python-api/generated/triton.language.store.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.sum.doctree b/master/.doctrees/python-api/generated/triton.language.sum.doctree
index 0c7a140e1..8dd1e85ec 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.sum.doctree and b/master/.doctrees/python-api/generated/triton.language.sum.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.where.doctree b/master/.doctrees/python-api/generated/triton.language.where.doctree
index b3b81797f..d6fef1e44 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.where.doctree and b/master/.doctrees/python-api/generated/triton.language.where.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.language.zeros.doctree b/master/.doctrees/python-api/generated/triton.language.zeros.doctree
index 8714bbcf4..db39c8bdf 100644
Binary files a/master/.doctrees/python-api/generated/triton.language.zeros.doctree and b/master/.doctrees/python-api/generated/triton.language.zeros.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.testing.Benchmark.doctree b/master/.doctrees/python-api/generated/triton.testing.Benchmark.doctree
index c2abe1815..9e83ee96f 100644
Binary files a/master/.doctrees/python-api/generated/triton.testing.Benchmark.doctree and b/master/.doctrees/python-api/generated/triton.testing.Benchmark.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.testing.do_bench.doctree b/master/.doctrees/python-api/generated/triton.testing.do_bench.doctree
index ddeed4fd9..1a85a490a 100644
Binary files a/master/.doctrees/python-api/generated/triton.testing.do_bench.doctree and b/master/.doctrees/python-api/generated/triton.testing.do_bench.doctree differ
diff --git a/master/.doctrees/python-api/generated/triton.testing.perf_report.doctree b/master/.doctrees/python-api/generated/triton.testing.perf_report.doctree
index a7b1f6705..b0905f553 100644
Binary files a/master/.doctrees/python-api/generated/triton.testing.perf_report.doctree and b/master/.doctrees/python-api/generated/triton.testing.perf_report.doctree differ
diff --git a/master/.doctrees/python-api/triton.doctree b/master/.doctrees/python-api/triton.doctree
index 3661712c4..7c643b2a7 100644
Binary files a/master/.doctrees/python-api/triton.doctree and b/master/.doctrees/python-api/triton.doctree differ
diff --git a/master/.doctrees/python-api/triton.language.doctree b/master/.doctrees/python-api/triton.language.doctree
index aa9699b65..5039c0111 100644
Binary files a/master/.doctrees/python-api/triton.language.doctree and b/master/.doctrees/python-api/triton.language.doctree differ
diff --git a/master/.doctrees/python-api/triton.testing.doctree b/master/.doctrees/python-api/triton.testing.doctree
index 0ce56bf0b..86c80bf9f 100644
Binary files a/master/.doctrees/python-api/triton.testing.doctree and b/master/.doctrees/python-api/triton.testing.doctree differ
diff --git a/master/_downloads/62d97d49a32414049819dd8bb8378080/01-vector-add.py b/master/_downloads/62d97d49a32414049819dd8bb8378080/01-vector-add.py
index d684106f1..51de7ac6c 100644
--- a/master/_downloads/62d97d49a32414049819dd8bb8378080/01-vector-add.py
+++ b/master/_downloads/62d97d49a32414049819dd8bb8378080/01-vector-add.py
@@ -24,9 +24,11 @@ def add_kernel(
     y_ptr,  # *Pointer* to second input vector
     output_ptr,  # *Pointer* to output vector
     n_elements,  # Size of the vector
+    time_start_ptr, time_end_ptr,
     BLOCK_SIZE: tl.constexpr,  # Number of elements each program should process
                  # NOTE: `constexpr` so it can be used as a shape value
 ):
+    tl.atomic_min(time_start_ptr, tl.clock())
     # There are multiple 'program's processing different data. We identify which program
     # we are here
     pid = tl.program_id(axis=0)  # We use a 1D launch grid so axis is 0
@@ -45,6 +47,7 @@ def add_kernel(
     output = x + y
     # Write x + y back to DRAM
     tl.store(output_ptr + offsets, output, mask=mask)
+    tl.atomic_max(time_end_ptr, tl.clock())
 
 
 # %%
@@ -53,6 +56,8 @@ def add_kernel(
 
 
 def add(x: torch.Tensor, y: torch.Tensor):
+    time_start = torch.zeros(1, dtype=torch.int64, device='cuda')
+    time_end = torch.zeros(1, dtype=torch.int64, device='cuda')
     # We need to preallocate the output
     output = torch.empty_like(x)
     assert x.is_cuda and y.is_cuda and output.is_cuda
@@ -65,7 +70,7 @@ def add(x: torch.Tensor, y: torch.Tensor):
     #  - each torch.tensor object is implicitly converted into a pointer to its first element.
     #  - `triton.jit`'ed functions can be index with a launch grid to obtain a callable GPU kernel
     #  - don't forget to pass meta-parameters as keywords arguments
-    add_kernel[grid](x, y, output, n_elements, BLOCK_SIZE=1024)
+    add_kernel[grid](x, y, output, n_elements, time_start, time_end, BLOCK_SIZE=1024)
     # We return a handle to z but, since `torch.cuda.synchronize()` hasn't been called, the kernel is still
     # running asynchronously at this point.
     return output
diff --git a/master/_downloads/662999063954282841dc90b8945f85ce/tutorials_jupyter.zip b/master/_downloads/662999063954282841dc90b8945f85ce/tutorials_jupyter.zip
index b1bd1383f..3ececce53 100644
Binary files a/master/_downloads/662999063954282841dc90b8945f85ce/tutorials_jupyter.zip and b/master/_downloads/662999063954282841dc90b8945f85ce/tutorials_jupyter.zip differ
diff --git a/master/_downloads/763344228ae6bc253ed1a6cf586aa30d/tutorials_python.zip b/master/_downloads/763344228ae6bc253ed1a6cf586aa30d/tutorials_python.zip
index 5dc522139..95b807c77 100644
Binary files a/master/_downloads/763344228ae6bc253ed1a6cf586aa30d/tutorials_python.zip and b/master/_downloads/763344228ae6bc253ed1a6cf586aa30d/tutorials_python.zip differ
diff --git a/master/_downloads/f191ee1e78dc52eb5f7cba88f71cef2f/01-vector-add.ipynb b/master/_downloads/f191ee1e78dc52eb5f7cba88f71cef2f/01-vector-add.ipynb
index a88ec6569..45bef9d0b 100644
--- a/master/_downloads/f191ee1e78dc52eb5f7cba88f71cef2f/01-vector-add.ipynb
+++ b/master/_downloads/f191ee1e78dc52eb5f7cba88f71cef2f/01-vector-add.ipynb
@@ -33,7 +33,7 @@
       },
       "outputs": [],
       "source": [
-        "import torch\n\nimport triton\nimport triton.language as tl\n\n\n@triton.jit\ndef add_kernel(\n    x_ptr,  # *Pointer* to first input vector\n    y_ptr,  # *Pointer* to second input vector\n    output_ptr,  # *Pointer* to output vector\n    n_elements,  # Size of the vector\n    BLOCK_SIZE: tl.constexpr,  # Number of elements each program should process\n                 # NOTE: `constexpr` so it can be used as a shape value\n):\n    # There are multiple 'program's processing different data. We identify which program\n    # we are here\n    pid = tl.program_id(axis=0)  # We use a 1D launch grid so axis is 0\n    # This program will process inputs that are offset from the initial data.\n    # for instance, if you had a vector of length 256 and block_size of 64, the programs\n    # would each access the elements [0:64, 64:128, 128:192, 192:256].\n    # Note that offsets is a list of pointers\n    block_start = pid * BLOCK_SIZE\n    offsets = block_start + tl.arange(0, BLOCK_SIZE)\n    # Create a mask to guard memory operations against out-of-bounds accesses\n    mask = offsets < n_elements\n    # Load x and y from DRAM, masking out any extra elements in case the input is not a\n    # multiple of the block size\n    x = tl.load(x_ptr + offsets, mask=mask)\n    y = tl.load(y_ptr + offsets, mask=mask)\n    output = x + y\n    # Write x + y back to DRAM\n    tl.store(output_ptr + offsets, output, mask=mask)"
+        "import torch\n\nimport triton\nimport triton.language as tl\n\n\n@triton.jit\ndef add_kernel(\n    x_ptr,  # *Pointer* to first input vector\n    y_ptr,  # *Pointer* to second input vector\n    output_ptr,  # *Pointer* to output vector\n    n_elements,  # Size of the vector\n    time_start_ptr, time_end_ptr,\n    BLOCK_SIZE: tl.constexpr,  # Number of elements each program should process\n                 # NOTE: `constexpr` so it can be used as a shape value\n):\n    tl.atomic_min(time_start_ptr, tl.clock())\n    # There are multiple 'program's processing different data. We identify which program\n    # we are here\n    pid = tl.program_id(axis=0)  # We use a 1D launch grid so axis is 0\n    # This program will process inputs that are offset from the initial data.\n    # for instance, if you had a vector of length 256 and block_size of 64, the programs\n    # would each access the elements [0:64, 64:128, 128:192, 192:256].\n    # Note that offsets is a list of pointers\n    block_start = pid * BLOCK_SIZE\n    offsets = block_start + tl.arange(0, BLOCK_SIZE)\n    # Create a mask to guard memory operations against out-of-bounds accesses\n    mask = offsets < n_elements\n    # Load x and y from DRAM, masking out any extra elements in case the input is not a\n    # multiple of the block size\n    x = tl.load(x_ptr + offsets, mask=mask)\n    y = tl.load(y_ptr + offsets, mask=mask)\n    output = x + y\n    # Write x + y back to DRAM\n    tl.store(output_ptr + offsets, output, mask=mask)\n    tl.atomic_max(time_end_ptr, tl.clock())"
       ]
     },
     {
@@ -51,7 +51,7 @@
       },
       "outputs": [],
       "source": [
-        "def add(x: torch.Tensor, y: torch.Tensor):\n    # We need to preallocate the output\n    output = torch.empty_like(x)\n    assert x.is_cuda and y.is_cuda and output.is_cuda\n    n_elements = output.numel()\n    # The SPMD launch grid denotes the number of kernel instances that run in parallel.\n    # It is analogous to CUDA launch grids. It can be either Tuple[int], or Callable(metaparameters) -> Tuple[int]\n    # In this case, we use a 1D grid where the size is the number of blocks\n    grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)\n    # NOTE:\n    #  - each torch.tensor object is implicitly converted into a pointer to its first element.\n    #  - `triton.jit`'ed functions can be index with a launch grid to obtain a callable GPU kernel\n    #  - don't forget to pass meta-parameters as keywords arguments\n    add_kernel[grid](x, y, output, n_elements, BLOCK_SIZE=1024)\n    # We return a handle to z but, since `torch.cuda.synchronize()` hasn't been called, the kernel is still\n    # running asynchronously at this point.\n    return output"
+        "def add(x: torch.Tensor, y: torch.Tensor):\n    time_start = torch.zeros(1, dtype=torch.int64, device='cuda')\n    time_end = torch.zeros(1, dtype=torch.int64, device='cuda')\n    # We need to preallocate the output\n    output = torch.empty_like(x)\n    assert x.is_cuda and y.is_cuda and output.is_cuda\n    n_elements = output.numel()\n    # The SPMD launch grid denotes the number of kernel instances that run in parallel.\n    # It is analogous to CUDA launch grids. It can be either Tuple[int], or Callable(metaparameters) -> Tuple[int]\n    # In this case, we use a 1D grid where the size is the number of blocks\n    grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)\n    # NOTE:\n    #  - each torch.tensor object is implicitly converted into a pointer to its first element.\n    #  - `triton.jit`'ed functions can be index with a launch grid to obtain a callable GPU kernel\n    #  - don't forget to pass meta-parameters as keywords arguments\n    add_kernel[grid](x, y, output, n_elements, time_start, time_end, BLOCK_SIZE=1024)\n    # We return a handle to z but, since `torch.cuda.synchronize()` hasn't been called, the kernel is still\n    # running asynchronously at this point.\n    return output"
       ]
     },
     {
diff --git a/master/_images/sphx_glr_01-vector-add_001.png b/master/_images/sphx_glr_01-vector-add_001.png
index 8ac13e126..8ff42448f 100644
Binary files a/master/_images/sphx_glr_01-vector-add_001.png and b/master/_images/sphx_glr_01-vector-add_001.png differ
diff --git a/master/_images/sphx_glr_01-vector-add_thumb.png b/master/_images/sphx_glr_01-vector-add_thumb.png
index bc9e49567..66e610bbe 100644
Binary files a/master/_images/sphx_glr_01-vector-add_thumb.png and b/master/_images/sphx_glr_01-vector-add_thumb.png differ
diff --git a/master/_images/sphx_glr_02-fused-softmax_001.png b/master/_images/sphx_glr_02-fused-softmax_001.png
index dbb633acf..4072661db 100644
Binary files a/master/_images/sphx_glr_02-fused-softmax_001.png and b/master/_images/sphx_glr_02-fused-softmax_001.png differ
diff --git a/master/_images/sphx_glr_02-fused-softmax_thumb.png b/master/_images/sphx_glr_02-fused-softmax_thumb.png
index c9f7fb12e..950f2da8d 100644
Binary files a/master/_images/sphx_glr_02-fused-softmax_thumb.png and b/master/_images/sphx_glr_02-fused-softmax_thumb.png differ
diff --git a/master/_images/sphx_glr_03-matrix-multiplication_001.png b/master/_images/sphx_glr_03-matrix-multiplication_001.png
index f4b9d30d7..a6f841bcc 100644
Binary files a/master/_images/sphx_glr_03-matrix-multiplication_001.png and b/master/_images/sphx_glr_03-matrix-multiplication_001.png differ
diff --git a/master/_images/sphx_glr_03-matrix-multiplication_thumb.png b/master/_images/sphx_glr_03-matrix-multiplication_thumb.png
index d0c48d331..255098687 100644
Binary files a/master/_images/sphx_glr_03-matrix-multiplication_thumb.png and b/master/_images/sphx_glr_03-matrix-multiplication_thumb.png differ
diff --git a/master/_images/sphx_glr_05-layer-norm_001.png b/master/_images/sphx_glr_05-layer-norm_001.png
index aa114592f..96ddbc96b 100644
Binary files a/master/_images/sphx_glr_05-layer-norm_001.png and b/master/_images/sphx_glr_05-layer-norm_001.png differ
diff --git a/master/_images/sphx_glr_05-layer-norm_thumb.png b/master/_images/sphx_glr_05-layer-norm_thumb.png
index 6012163b5..f0226894d 100644
Binary files a/master/_images/sphx_glr_05-layer-norm_thumb.png and b/master/_images/sphx_glr_05-layer-norm_thumb.png differ
diff --git a/master/_sources/getting-started/tutorials/01-vector-add.rst.txt b/master/_sources/getting-started/tutorials/01-vector-add.rst.txt
index 0a88e309b..2f9700c96 100644
--- a/master/_sources/getting-started/tutorials/01-vector-add.rst.txt
+++ b/master/_sources/getting-started/tutorials/01-vector-add.rst.txt
@@ -31,7 +31,7 @@ In this tutorial, you will write a simple vector addition using Triton and learn
 Compute Kernel
 --------------------------
 
-.. GENERATED FROM PYTHON SOURCE LINES 14-50
+.. GENERATED FROM PYTHON SOURCE LINES 14-53
 
 .. code-block:: default
 
@@ -48,9 +48,11 @@ Compute Kernel
         y_ptr,  # *Pointer* to second input vector
         output_ptr,  # *Pointer* to output vector
         n_elements,  # Size of the vector
+        time_start_ptr, time_end_ptr,
         BLOCK_SIZE: tl.constexpr,  # Number of elements each program should process
                      # NOTE: `constexpr` so it can be used as a shape value
     ):
+        tl.atomic_min(time_start_ptr, tl.clock())
         # There are multiple 'program's processing different data. We identify which program
         # we are here
         pid = tl.program_id(axis=0)  # We use a 1D launch grid so axis is 0
@@ -69,6 +71,7 @@ Compute Kernel
         output = x + y
         # Write x + y back to DRAM
         tl.store(output_ptr + offsets, output, mask=mask)
+        tl.atomic_max(time_end_ptr, tl.clock())
 
 
 
@@ -78,18 +81,20 @@ Compute Kernel
 
 
 
-.. GENERATED FROM PYTHON SOURCE LINES 51-53
+.. GENERATED FROM PYTHON SOURCE LINES 54-56
 
 Let's also declare a helper function to (1) allocate the `z` tensor
 and (2) enqueue the above kernel with appropriate grid/block sizes.
 
-.. GENERATED FROM PYTHON SOURCE LINES 53-74
+.. GENERATED FROM PYTHON SOURCE LINES 56-79
 
 .. code-block:: default
 
 
 
     def add(x: torch.Tensor, y: torch.Tensor):
+        time_start = torch.zeros(1, dtype=torch.int64, device='cuda')
+        time_end = torch.zeros(1, dtype=torch.int64, device='cuda')
         # We need to preallocate the output
         output = torch.empty_like(x)
         assert x.is_cuda and y.is_cuda and output.is_cuda
@@ -102,7 +107,7 @@ and (2) enqueue the above kernel with appropriate grid/block sizes.
         #  - each torch.tensor object is implicitly converted into a pointer to its first element.
         #  - `triton.jit`'ed functions can be index with a launch grid to obtain a callable GPU kernel
         #  - don't forget to pass meta-parameters as keywords arguments
-        add_kernel[grid](x, y, output, n_elements, BLOCK_SIZE=1024)
+        add_kernel[grid](x, y, output, n_elements, time_start, time_end, BLOCK_SIZE=1024)
         # We return a handle to z but, since `torch.cuda.synchronize()` hasn't been called, the kernel is still
         # running asynchronously at this point.
         return output
@@ -115,11 +120,11 @@ and (2) enqueue the above kernel with appropriate grid/block sizes.
 
 
 
-.. GENERATED FROM PYTHON SOURCE LINES 75-76
+.. GENERATED FROM PYTHON SOURCE LINES 80-81
 
 We can now use the above function to compute the element-wise sum of two `torch.tensor` objects and test its correctness:
 
-.. GENERATED FROM PYTHON SOURCE LINES 76-90
+.. GENERATED FROM PYTHON SOURCE LINES 81-95
 
 .. code-block:: default
 
@@ -154,11 +159,11 @@ We can now use the above function to compute the element-wise sum of two `torch.
 
 
 
-.. GENERATED FROM PYTHON SOURCE LINES 91-92
+.. GENERATED FROM PYTHON SOURCE LINES 96-97
 
 Seems like we're good to go!
 
-.. GENERATED FROM PYTHON SOURCE LINES 94-99
+.. GENERATED FROM PYTHON SOURCE LINES 99-104
 
 Benchmark
 -----------
@@ -166,7 +171,7 @@ We can now benchmark our custom op on vectors of increasing sizes to get a sense
 To make things easier, Triton has a set of built-in utilities that allow us to concisely plot the performance of your custom ops
 for different problem sizes.
 
-.. GENERATED FROM PYTHON SOURCE LINES 99-128
+.. GENERATED FROM PYTHON SOURCE LINES 104-133
 
 .. code-block:: default
 
@@ -206,12 +211,12 @@ for different problem sizes.
 
 
 
-.. GENERATED FROM PYTHON SOURCE LINES 129-131
+.. GENERATED FROM PYTHON SOURCE LINES 134-136
 
 We can now run the decorated function above. Pass `print_data=True` to see the performance number, `show_plots=True` to plot them, and/or
 `save_path='/path/to/results/' to save them to disk along with raw CSV data
 
-.. GENERATED FROM PYTHON SOURCE LINES 131-132
+.. GENERATED FROM PYTHON SOURCE LINES 136-137
 
 .. code-block:: default
 
@@ -232,22 +237,22 @@ We can now run the decorated function above. Pass `print_data=True` to see the p
 
     vector-add-performance:
                size      Triton       Torch
-    0        4096.0    9.600000    9.600000
-    1        8192.0   19.200000   19.200000
-    2       16384.0   38.400001   38.400001
-    3       32768.0   76.800002   76.800002
-    4       65536.0  127.999995  127.999995
-    5      131072.0  219.428568  219.428568
-    6      262144.0  341.333321  341.333321
-    7      524288.0  472.615390  472.615390
-    8     1048576.0  614.400016  614.400016
-    9     2097152.0  722.823517  722.823517
-    10    4194304.0  780.190482  780.190482
-    11    8388608.0  812.429770  812.429770
-    12   16777216.0  833.084721  833.084721
-    13   33554432.0  842.004273  843.811163
-    14   67108864.0  847.448255  848.362445
-    15  134217728.0  849.737435  850.656574
+    0        4096.0    4.800000    9.600000
+    1        8192.0    8.727273   19.200000
+    2       16384.0   17.454545   38.400001
+    3       32768.0   38.400001   76.800002
+    4       65536.0   69.818181  127.999995
+    5      131072.0  139.636363  219.428568
+    6      262144.0  219.428568  341.333321
+    7      524288.0  341.333321  472.615390
+    8     1048576.0  472.615390  614.400016
+    9     2097152.0  614.400016  702.171410
+    10    4194304.0  712.347810  780.190482
+    11    8388608.0  774.047204  812.429770
+    12   16777216.0  809.086412  833.084721
+    13   33554432.0  829.569620  842.004273
+    14   67108864.0  840.205105  848.362445
+    15  134217728.0  845.625825  850.656574
 
 
 
@@ -255,7 +260,7 @@ We can now run the decorated function above. Pass `print_data=True` to see the p
 
 .. rst-class:: sphx-glr-timing
 
-   **Total running time of the script:** ( 1 minutes  42.600 seconds)
+   **Total running time of the script:** ( 1 minutes  42.917 seconds)
 
 
 .. _sphx_glr_download_getting-started_tutorials_01-vector-add.py:
diff --git a/master/_sources/getting-started/tutorials/02-fused-softmax.rst.txt b/master/_sources/getting-started/tutorials/02-fused-softmax.rst.txt
index 9326cf35a..d9160d19b 100644
--- a/master/_sources/getting-started/tutorials/02-fused-softmax.rst.txt
+++ b/master/_sources/getting-started/tutorials/02-fused-softmax.rst.txt
@@ -278,17 +278,17 @@ We will then compare its performance against (1) :code:`torch.softmax` and (2) t
 
     softmax-performance:
               N      Triton  Torch (native)  Torch (jit)
-    0     256.0  512.000001      546.133347   186.181817
-    1     384.0  614.400016      585.142862   153.600004
-    2     512.0  655.360017      606.814814   154.566038
-    3     640.0  706.206879      640.000002   158.759699
-    4     768.0  722.823517      664.216187   162.754967
+    0     256.0  512.000001      546.133347   190.511628
+    1     384.0  585.142862      585.142862   151.703707
+    2     512.0  655.360017      585.142849   154.566038
+    3     640.0  682.666684      640.000002   160.000000
+    4     768.0  722.823517      646.736871   163.839992
     ..      ...         ...             ...          ...
-    93  12160.0  814.058574      406.179533   198.834951
-    94  12288.0  814.111783      415.661740   199.096718
-    95  12416.0  814.163950      412.149375   198.655991
-    96  12544.0  814.214963      412.971190   198.913776
-    97  12672.0  814.265046      411.679167   198.971549
+    93  12160.0  814.058574      405.755985   198.834951
+    94  12288.0  814.111783      415.222812   199.197579
+    95  12416.0  814.163950      412.149375   198.854847
+    96  12544.0  814.214963      412.971190   199.012395
+    97  12672.0  814.265046      412.097543   199.167004
 
     [98 rows x 4 columns]
 
@@ -306,7 +306,7 @@ In the above plot, we can see that:
 
 .. rst-class:: sphx-glr-timing
 
-   **Total running time of the script:** ( 3 minutes  19.345 seconds)
+   **Total running time of the script:** ( 3 minutes  27.571 seconds)
 
 
 .. _sphx_glr_download_getting-started_tutorials_02-fused-softmax.py:
diff --git a/master/_sources/getting-started/tutorials/03-matrix-multiplication.rst.txt b/master/_sources/getting-started/tutorials/03-matrix-multiplication.rst.txt
index 020e790a7..bf8b14884 100644
--- a/master/_sources/getting-started/tutorials/03-matrix-multiplication.rst.txt
+++ b/master/_sources/getting-started/tutorials/03-matrix-multiplication.rst.txt
@@ -459,36 +459,36 @@ We can now compare the performance of our kernel against that of cuBLAS. Here we
     matmul-performance:
              M     cuBLAS  ...     Triton  Triton (+ LeakyReLU)
     0    256.0   2.730667  ...   3.276800              2.978909
-    1    384.0   7.372800  ...   8.507077              7.899428
-    2    512.0  14.563555  ...  16.384000             16.384000
+    1    384.0   7.372800  ...   7.899428              8.507077
+    2    512.0  14.563555  ...  15.420235             15.420235
     3    640.0  22.260869  ...  24.380953             24.380953
-    4    768.0  32.768000  ...  34.028308             34.028308
-    5    896.0  39.025776  ...  40.140799             39.025776
-    6   1024.0  49.932191  ...  52.428801             52.428801
-    7   1152.0  45.242181  ...  46.656000             46.656000
-    8   1280.0  51.200001  ...  56.888887             56.888887
-    9   1408.0  64.138541  ...  67.305878             66.485074
-    10  1536.0  80.430545  ...  79.526831             78.643199
-    11  1664.0  62.929456  ...  62.492442             61.636381
-    12  1792.0  72.512412  ...  72.512412             72.047592
-    13  1920.0  69.467336  ...  70.172588             69.818184
-    14  2048.0  73.262953  ...  76.608294             76.608294
-    15  2176.0  83.500614  ...  85.998493             85.632545
-    16  2304.0  68.643310  ...  77.057651             76.319081
-    17  2432.0  71.305746  ...  85.393507             85.134737
-    18  2560.0  78.019048  ...  80.709358             81.108913
-    19  2688.0  83.004501  ...  89.464755             89.254248
-    20  2816.0  80.767055  ...  83.552120             82.602666
-    21  2944.0  81.298583  ...  82.237674             81.967162
-    22  3072.0  81.707223  ...  88.473602             87.516392
-    23  3200.0  84.377059  ...  94.955488             94.674553
-    24  3328.0  83.034941  ...  84.695641             83.905938
-    25  3456.0  81.108217  ...  85.133652             81.029251
-    26  3584.0  86.623693  ...  98.483450             98.160909
-    27  3712.0  81.682211  ...  88.404730             84.017953
-    28  3840.0  82.592983  ...  92.006659             85.169042
-    29  3968.0  90.791620  ...  86.236000             90.522206
-    30  4096.0  86.369197  ...  85.001726             91.304576
+    4    768.0  32.768000  ...  35.389441             34.028308
+    5    896.0  37.971025  ...  40.140799             39.025776
+    6   1024.0  49.932191  ...  53.773130             53.773130
+    7   1152.0  45.242181  ...  48.161033             47.396572
+    8   1280.0  51.200001  ...  57.690139             57.690139
+    9   1408.0  64.138541  ...  69.009825             67.305878
+    10  1536.0  79.526831  ...  80.430545             79.526831
+    11  1664.0  63.372618  ...  63.372618             62.929456
+    12  1792.0  72.983276  ...  63.142831             63.142831
+    13  1920.0  69.120002  ...  71.626943             70.892307
+    14  2048.0  73.584279  ...  78.033565             77.672296
+    15  2176.0  83.500614  ...  87.115360             86.739860
+    16  2304.0  68.446623  ...  77.810656             77.307030
+    17  2432.0  71.125224  ...  75.522751             75.320281
+    18  2560.0  77.833728  ...  81.715711             81.512437
+    19  2688.0  83.737433  ...  90.966561             90.532356
+    20  2816.0  79.443003  ...  82.916747             84.035084
+    21  2944.0  81.832567  ...  83.198715             82.102191
+    22  3072.0  81.121923  ...  88.197981             87.381335
+    23  3200.0  83.116885  ...  96.385543             96.096095
+    24  3328.0  82.939284  ...  84.895397             85.096096
+    25  3456.0  77.745004  ...  86.596744             84.332184
+    26  3584.0  86.540320  ...  91.380335             97.416461
+    27  3712.0  85.748791  ...  88.404730             86.341700
+    28  3840.0  84.874902  ...  93.247896             85.300426
+    29  3968.0  92.372393  ...  80.015697             78.220472
+    30  4096.0  93.990003  ...  93.206754             86.036145
 
     [31 rows x 5 columns]
 
@@ -498,7 +498,7 @@ We can now compare the performance of our kernel against that of cuBLAS. Here we
 
 .. rst-class:: sphx-glr-timing
 
-   **Total running time of the script:** ( 6 minutes  0.645 seconds)
+   **Total running time of the script:** ( 6 minutes  48.521 seconds)
 
 
 .. _sphx_glr_download_getting-started_tutorials_03-matrix-multiplication.py:
diff --git a/master/_sources/getting-started/tutorials/04-low-memory-dropout.rst.txt b/master/_sources/getting-started/tutorials/04-low-memory-dropout.rst.txt
index da96d2c09..4dd4cf9de 100644
--- a/master/_sources/getting-started/tutorials/04-low-memory-dropout.rst.txt
+++ b/master/_sources/getting-started/tutorials/04-low-memory-dropout.rst.txt
@@ -240,7 +240,7 @@ References
 
 .. rst-class:: sphx-glr-timing
 
-   **Total running time of the script:** ( 0 minutes  0.482 seconds)
+   **Total running time of the script:** ( 0 minutes  0.327 seconds)
 
 
 .. _sphx_glr_download_getting-started_tutorials_04-low-memory-dropout.py:
diff --git a/master/_sources/getting-started/tutorials/05-layer-norm.rst.txt b/master/_sources/getting-started/tutorials/05-layer-norm.rst.txt
index 58bd93a57..b230a1826 100644
--- a/master/_sources/getting-started/tutorials/05-layer-norm.rst.txt
+++ b/master/_sources/getting-started/tutorials/05-layer-norm.rst.txt
@@ -38,36 +38,36 @@ Layer Normalization
 
     layer-norm-backward:
               N      Triton       Torch        Apex
-    0    1024.0  311.088617   98.303995  303.407414
-    1    1536.0  347.773587  134.050910  341.333333
-    2    2048.0  420.102553  161.684218  325.509933
-    3    2560.0  455.111129  181.238943  326.808501
-    4    3072.0  511.999982  191.999993  317.793096
-    5    3584.0  547.872604  207.768111  310.527060
-    6    4096.0  564.965515  219.919464  295.207204
-    7    4608.0  504.986315  232.825259  291.799469
-    8    5120.0  527.381977  242.845844  288.450695
-    9    5632.0  542.843364  243.107920  288.820505
-    10   6144.0  546.133354  248.661056  286.879370
-    11   6656.0  532.479975  256.000009  285.767438
-    12   7168.0  505.976473  260.654538  286.242939
-    13   7680.0  481.253256  262.190612  278.429013
-    14   8192.0  463.698115  267.130429  284.939124
-    15   8704.0  417.791980  267.815384  284.987724
-    16   9216.0  432.845409  272.394084  288.751954
-    17   9728.0  439.683593  280.278512  289.667485
-    18  10240.0  448.467168  286.433562  290.153487
-    19  10752.0  425.821771  247.172406  290.922209
-    20  11264.0  427.071098  245.760001  286.676558
-    21  11776.0  423.724129  249.667843  288.981596
-    22  12288.0  419.504980  254.673582  294.323369
-    23  12800.0  413.458944  253.674644  288.180121
-    24  13312.0  412.242569  252.859526  289.916513
-    25  13824.0  405.594132  257.190689  292.056329
-    26  14336.0  394.568805  254.297107  286.719986
-    27  14848.0  386.498925  257.665934  289.246765
-    28  15360.0  373.117425  257.970599  286.211174
-    29  15872.0  371.274849  261.806182  289.899545
+    0    1024.0  356.173905   99.497980  315.076934
+    1    1536.0  405.098894  134.050910  344.523365
+    2    2048.0  486.653476  159.067963  321.254900
+    3    2560.0  458.507457  182.314537  326.808501
+    4    3072.0  515.580429  191.501303  319.168834
+    5    3584.0  551.384634  207.768111  307.199992
+    6    4096.0  568.231237  220.907859  293.444785
+    7    4608.0  502.690905  232.336141  290.267724
+    8    5120.0  527.381977  243.326731  287.102804
+    9    5632.0  540.671974  244.426754  291.310338
+    10   6144.0  548.163546  251.202731  288.000001
+    11   6656.0  532.479975  255.590406  286.279570
+    12   7168.0  510.480705  253.734520  277.919225
+    13   7680.0  487.619051  266.743841  284.884090
+    14   8192.0  468.114289  258.694729  278.481578
+    15   8704.0  415.300208  267.472468  284.987724
+    16   9216.0  429.483477  272.394084  290.077383
+    17   9728.0  438.033784  280.278512  288.950501
+    18  10240.0  443.610086  287.102804  290.153487
+    19  10752.0  426.525614  246.699797  290.267711
+    20  11264.0  427.071098  245.536784  286.069848
+    21  11776.0  418.702211  249.447482  288.981596
+    22  12288.0  414.784810  254.673582  294.323369
+    23  12800.0  410.146863  254.094291  288.180121
+    24  13312.0  409.599999  252.161013  289.129403
+    25  13824.0  404.112047  257.190689  291.799461
+    26  14336.0  395.930964  256.000002  289.129416
+    27  14848.0  385.662341  257.479779  288.777966
+    28  15360.0  380.433442  258.332158  286.656296
+    29  15872.0  372.363640  261.806182  290.562936
 
 
 
@@ -339,7 +339,7 @@ Layer Normalization
 
 .. rst-class:: sphx-glr-timing
 
-   **Total running time of the script:** ( 2 minutes  12.550 seconds)
+   **Total running time of the script:** ( 2 minutes  14.583 seconds)
 
 
 .. _sphx_glr_download_getting-started_tutorials_05-layer-norm.py:
diff --git a/master/_sources/getting-started/tutorials/sg_execution_times.rst.txt b/master/_sources/getting-started/tutorials/sg_execution_times.rst.txt
index f0856eb7b..8975bcca2 100644
--- a/master/_sources/getting-started/tutorials/sg_execution_times.rst.txt
+++ b/master/_sources/getting-started/tutorials/sg_execution_times.rst.txt
@@ -5,16 +5,16 @@
 
 Computation times
 =================
-**13:15.622** total execution time for **getting-started_tutorials** files:
+**14:13.919** total execution time for **getting-started_tutorials** files:
 
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_03-matrix-multiplication.py` (``03-matrix-multiplication.py``) | 06:00.645 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_03-matrix-multiplication.py` (``03-matrix-multiplication.py``) | 06:48.521 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_02-fused-softmax.py` (``02-fused-softmax.py``)                 | 03:19.345 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_02-fused-softmax.py` (``02-fused-softmax.py``)                 | 03:27.571 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_05-layer-norm.py` (``05-layer-norm.py``)                       | 02:12.550 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_05-layer-norm.py` (``05-layer-norm.py``)                       | 02:14.583 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_01-vector-add.py` (``01-vector-add.py``)                       | 01:42.600 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_01-vector-add.py` (``01-vector-add.py``)                       | 01:42.917 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_04-low-memory-dropout.py` (``04-low-memory-dropout.py``)       | 00:00.482 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_04-low-memory-dropout.py` (``04-low-memory-dropout.py``)       | 00:00.327 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
diff --git a/master/getting-started/tutorials/01-vector-add.html b/master/getting-started/tutorials/01-vector-add.html
index f17f0ceb1..a778e7110 100644
--- a/master/getting-started/tutorials/01-vector-add.html
+++ b/master/getting-started/tutorials/01-vector-add.html
@@ -214,9 +214,11 @@ to download the full example code</p>
     <span class="n">y_ptr</span><span class="p">,</span>  <span class="c1"># *Pointer* to second input vector</span>
     <span class="n">output_ptr</span><span class="p">,</span>  <span class="c1"># *Pointer* to output vector</span>
     <span class="n">n_elements</span><span class="p">,</span>  <span class="c1"># Size of the vector</span>
+    <span class="n">time_start_ptr</span><span class="p">,</span> <span class="n">time_end_ptr</span><span class="p">,</span>
     <span class="n">BLOCK_SIZE</span><span class="p">:</span> <span class="n">tl</span><span class="o">.</span><span class="n">constexpr</span><span class="p">,</span>  <span class="c1"># Number of elements each program should process</span>
                  <span class="c1"># NOTE: `constexpr` so it can be used as a shape value</span>
 <span class="p">):</span>
+    <span class="n">tl</span><span class="o">.</span><span class="n">atomic_min</span><span class="p">(</span><span class="n">time_start_ptr</span><span class="p">,</span> <span class="n">tl</span><span class="o">.</span><span class="n">clock</span><span class="p">())</span>
     <span class="c1"># There are multiple &#39;program&#39;s processing different data. We identify which program</span>
     <span class="c1"># we are here</span>
     <span class="n">pid</span> <span class="o">=</span> <span class="n">tl</span><span class="o">.</span><span class="n">program_id</span><span class="p">(</span><span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>  <span class="c1"># We use a 1D launch grid so axis is 0</span>
@@ -235,11 +237,14 @@ to download the full example code</p>
     <span class="n">output</span> <span class="o">=</span> <span class="n">x</span> <span class="o">+</span> <span class="n">y</span>
     <span class="c1"># Write x + y back to DRAM</span>
     <span class="n">tl</span><span class="o">.</span><span class="n">store</span><span class="p">(</span><span class="n">output_ptr</span> <span class="o">+</span> <span class="n">offsets</span><span class="p">,</span> <span class="n">output</span><span class="p">,</span> <span class="n">mask</span><span class="o">=</span><span class="n">mask</span><span class="p">)</span>
+    <span class="n">tl</span><span class="o">.</span><span class="n">atomic_max</span><span class="p">(</span><span class="n">time_end_ptr</span><span class="p">,</span> <span class="n">tl</span><span class="o">.</span><span class="n">clock</span><span class="p">())</span>
 </pre></div>
 </div>
 <p>Let’s also declare a helper function to (1) allocate the <cite>z</cite> tensor
 and (2) enqueue the above kernel with appropriate grid/block sizes.</p>
 <div class="highlight-default notranslate"><div class="highlight"><pre><span></span><span class="k">def</span> <span class="nf">add</span><span class="p">(</span><span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">y</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span>
+    <span class="n">time_start</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">int64</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="s1">&#39;cuda&#39;</span><span class="p">)</span>
+    <span class="n">time_end</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">int64</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="s1">&#39;cuda&#39;</span><span class="p">)</span>
     <span class="c1"># We need to preallocate the output</span>
     <span class="n">output</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">empty_like</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
     <span class="k">assert</span> <span class="n">x</span><span class="o">.</span><span class="n">is_cuda</span> <span class="ow">and</span> <span class="n">y</span><span class="o">.</span><span class="n">is_cuda</span> <span class="ow">and</span> <span class="n">output</span><span class="o">.</span><span class="n">is_cuda</span>
@@ -252,7 +257,7 @@ and (2) enqueue the above kernel with appropriate grid/block sizes.</p>
     <span class="c1">#  - each torch.tensor object is implicitly converted into a pointer to its first element.</span>
     <span class="c1">#  - `triton.jit`&#39;ed functions can be index with a launch grid to obtain a callable GPU kernel</span>
     <span class="c1">#  - don&#39;t forget to pass meta-parameters as keywords arguments</span>
-    <span class="n">add_kernel</span><span class="p">[</span><span class="n">grid</span><span class="p">](</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">,</span> <span class="n">output</span><span class="p">,</span> <span class="n">n_elements</span><span class="p">,</span> <span class="n">BLOCK_SIZE</span><span class="o">=</span><span class="mi">1024</span><span class="p">)</span>
+    <span class="n">add_kernel</span><span class="p">[</span><span class="n">grid</span><span class="p">](</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">,</span> <span class="n">output</span><span class="p">,</span> <span class="n">n_elements</span><span class="p">,</span> <span class="n">time_start</span><span class="p">,</span> <span class="n">time_end</span><span class="p">,</span> <span class="n">BLOCK_SIZE</span><span class="o">=</span><span class="mi">1024</span><span class="p">)</span>
     <span class="c1"># We return a handle to z but, since `torch.cuda.synchronize()` hasn&#39;t been called, the kernel is still</span>
     <span class="c1"># running asynchronously at this point.</span>
     <span class="k">return</span> <span class="n">output</span>
@@ -322,25 +327,25 @@ for different problem sizes.</p>
 <p class="sphx-glr-script-out">Out:</p>
 <div class="sphx-glr-script-out highlight-none notranslate"><div class="highlight"><pre><span></span>vector-add-performance:
            size      Triton       Torch
-0        4096.0    9.600000    9.600000
-1        8192.0   19.200000   19.200000
-2       16384.0   38.400001   38.400001
-3       32768.0   76.800002   76.800002
-4       65536.0  127.999995  127.999995
-5      131072.0  219.428568  219.428568
-6      262144.0  341.333321  341.333321
-7      524288.0  472.615390  472.615390
-8     1048576.0  614.400016  614.400016
-9     2097152.0  722.823517  722.823517
-10    4194304.0  780.190482  780.190482
-11    8388608.0  812.429770  812.429770
-12   16777216.0  833.084721  833.084721
-13   33554432.0  842.004273  843.811163
-14   67108864.0  847.448255  848.362445
-15  134217728.0  849.737435  850.656574
+0        4096.0    4.800000    9.600000
+1        8192.0    8.727273   19.200000
+2       16384.0   17.454545   38.400001
+3       32768.0   38.400001   76.800002
+4       65536.0   69.818181  127.999995
+5      131072.0  139.636363  219.428568
+6      262144.0  219.428568  341.333321
+7      524288.0  341.333321  472.615390
+8     1048576.0  472.615390  614.400016
+9     2097152.0  614.400016  702.171410
+10    4194304.0  712.347810  780.190482
+11    8388608.0  774.047204  812.429770
+12   16777216.0  809.086412  833.084721
+13   33554432.0  829.569620  842.004273
+14   67108864.0  840.205105  848.362445
+15  134217728.0  845.625825  850.656574
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 1 minutes  42.600 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 1 minutes  42.917 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-01-vector-add-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/62d97d49a32414049819dd8bb8378080/01-vector-add.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">01-vector-add.py</span></code></a></p>
diff --git a/master/getting-started/tutorials/02-fused-softmax.html b/master/getting-started/tutorials/02-fused-softmax.html
index 6cfc04fc2..25ee94a5a 100644
--- a/master/getting-started/tutorials/02-fused-softmax.html
+++ b/master/getting-started/tutorials/02-fused-softmax.html
@@ -369,17 +369,17 @@ We will then compare its performance against (1) <code class="code docutils lite
 <p class="sphx-glr-script-out">Out:</p>
 <div class="sphx-glr-script-out highlight-none notranslate"><div class="highlight"><pre><span></span>softmax-performance:
           N      Triton  Torch (native)  Torch (jit)
-0     256.0  512.000001      546.133347   186.181817
-1     384.0  614.400016      585.142862   153.600004
-2     512.0  655.360017      606.814814   154.566038
-3     640.0  706.206879      640.000002   158.759699
-4     768.0  722.823517      664.216187   162.754967
+0     256.0  512.000001      546.133347   190.511628
+1     384.0  585.142862      585.142862   151.703707
+2     512.0  655.360017      585.142849   154.566038
+3     640.0  682.666684      640.000002   160.000000
+4     768.0  722.823517      646.736871   163.839992
 ..      ...         ...             ...          ...
-93  12160.0  814.058574      406.179533   198.834951
-94  12288.0  814.111783      415.661740   199.096718
-95  12416.0  814.163950      412.149375   198.655991
-96  12544.0  814.214963      412.971190   198.913776
-97  12672.0  814.265046      411.679167   198.971549
+93  12160.0  814.058574      405.755985   198.834951
+94  12288.0  814.111783      415.222812   199.197579
+95  12416.0  814.163950      412.149375   198.854847
+96  12544.0  814.214963      412.971190   199.012395
+97  12672.0  814.265046      412.097543   199.167004
 
 [98 rows x 4 columns]
 </pre></div>
@@ -392,7 +392,7 @@ We will then compare its performance against (1) <code class="code docutils lite
 Note however that the PyTorch <cite>softmax</cite> operation is more general and will works on tensors of any shape.</p></li>
 </ul>
 </div></blockquote>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 3 minutes  19.345 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 3 minutes  27.571 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-02-fused-softmax-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/d91442ac2982c4e0cc3ab0f43534afbc/02-fused-softmax.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">02-fused-softmax.py</span></code></a></p>
diff --git a/master/getting-started/tutorials/03-matrix-multiplication.html b/master/getting-started/tutorials/03-matrix-multiplication.html
index 8702d0c18..775ea25c4 100644
--- a/master/getting-started/tutorials/03-matrix-multiplication.html
+++ b/master/getting-started/tutorials/03-matrix-multiplication.html
@@ -565,41 +565,41 @@ torch_output=tensor([[  1.1045, -36.9688,  31.4688,  ..., -11.3906,  24.4531, -3
 <div class="sphx-glr-script-out highlight-none notranslate"><div class="highlight"><pre><span></span>matmul-performance:
          M     cuBLAS  ...     Triton  Triton (+ LeakyReLU)
 0    256.0   2.730667  ...   3.276800              2.978909
-1    384.0   7.372800  ...   8.507077              7.899428
-2    512.0  14.563555  ...  16.384000             16.384000
+1    384.0   7.372800  ...   7.899428              8.507077
+2    512.0  14.563555  ...  15.420235             15.420235
 3    640.0  22.260869  ...  24.380953             24.380953
-4    768.0  32.768000  ...  34.028308             34.028308
-5    896.0  39.025776  ...  40.140799             39.025776
-6   1024.0  49.932191  ...  52.428801             52.428801
-7   1152.0  45.242181  ...  46.656000             46.656000
-8   1280.0  51.200001  ...  56.888887             56.888887
-9   1408.0  64.138541  ...  67.305878             66.485074
-10  1536.0  80.430545  ...  79.526831             78.643199
-11  1664.0  62.929456  ...  62.492442             61.636381
-12  1792.0  72.512412  ...  72.512412             72.047592
-13  1920.0  69.467336  ...  70.172588             69.818184
-14  2048.0  73.262953  ...  76.608294             76.608294
-15  2176.0  83.500614  ...  85.998493             85.632545
-16  2304.0  68.643310  ...  77.057651             76.319081
-17  2432.0  71.305746  ...  85.393507             85.134737
-18  2560.0  78.019048  ...  80.709358             81.108913
-19  2688.0  83.004501  ...  89.464755             89.254248
-20  2816.0  80.767055  ...  83.552120             82.602666
-21  2944.0  81.298583  ...  82.237674             81.967162
-22  3072.0  81.707223  ...  88.473602             87.516392
-23  3200.0  84.377059  ...  94.955488             94.674553
-24  3328.0  83.034941  ...  84.695641             83.905938
-25  3456.0  81.108217  ...  85.133652             81.029251
-26  3584.0  86.623693  ...  98.483450             98.160909
-27  3712.0  81.682211  ...  88.404730             84.017953
-28  3840.0  82.592983  ...  92.006659             85.169042
-29  3968.0  90.791620  ...  86.236000             90.522206
-30  4096.0  86.369197  ...  85.001726             91.304576
+4    768.0  32.768000  ...  35.389441             34.028308
+5    896.0  37.971025  ...  40.140799             39.025776
+6   1024.0  49.932191  ...  53.773130             53.773130
+7   1152.0  45.242181  ...  48.161033             47.396572
+8   1280.0  51.200001  ...  57.690139             57.690139
+9   1408.0  64.138541  ...  69.009825             67.305878
+10  1536.0  79.526831  ...  80.430545             79.526831
+11  1664.0  63.372618  ...  63.372618             62.929456
+12  1792.0  72.983276  ...  63.142831             63.142831
+13  1920.0  69.120002  ...  71.626943             70.892307
+14  2048.0  73.584279  ...  78.033565             77.672296
+15  2176.0  83.500614  ...  87.115360             86.739860
+16  2304.0  68.446623  ...  77.810656             77.307030
+17  2432.0  71.125224  ...  75.522751             75.320281
+18  2560.0  77.833728  ...  81.715711             81.512437
+19  2688.0  83.737433  ...  90.966561             90.532356
+20  2816.0  79.443003  ...  82.916747             84.035084
+21  2944.0  81.832567  ...  83.198715             82.102191
+22  3072.0  81.121923  ...  88.197981             87.381335
+23  3200.0  83.116885  ...  96.385543             96.096095
+24  3328.0  82.939284  ...  84.895397             85.096096
+25  3456.0  77.745004  ...  86.596744             84.332184
+26  3584.0  86.540320  ...  91.380335             97.416461
+27  3712.0  85.748791  ...  88.404730             86.341700
+28  3840.0  84.874902  ...  93.247896             85.300426
+29  3968.0  92.372393  ...  80.015697             78.220472
+30  4096.0  93.990003  ...  93.206754             86.036145
 
 [31 rows x 5 columns]
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 6 minutes  0.645 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 6 minutes  48.521 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-03-matrix-multiplication-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/d5fee5b55a64e47f1b5724ec39adf171/03-matrix-multiplication.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">03-matrix-multiplication.py</span></code></a></p>
diff --git a/master/getting-started/tutorials/04-low-memory-dropout.html b/master/getting-started/tutorials/04-low-memory-dropout.html
index 25123b974..a92537d2c 100644
--- a/master/getting-started/tutorials/04-low-memory-dropout.html
+++ b/master/getting-started/tutorials/04-low-memory-dropout.html
@@ -372,7 +372,7 @@ to explore the <cite>triton/language/random</cite> folder!</p>
 <dd><p>Nitish Srivastava and Geoffrey Hinton and Alex Krizhevsky and Ilya Sutskever and Ruslan Salakhutdinov, “Dropout: A Simple Way to Prevent Neural Networks from Overfitting”, JMLR 2014</p>
 </dd>
 </dl>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  0.482 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  0.327 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-04-low-memory-dropout-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/c9aed78977a4c05741d675a38dde3d7d/04-low-memory-dropout.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">04-low-memory-dropout.py</span></code></a></p>
diff --git a/master/getting-started/tutorials/05-layer-norm.html b/master/getting-started/tutorials/05-layer-norm.html
index 503b14773..f23dc1110 100644
--- a/master/getting-started/tutorials/05-layer-norm.html
+++ b/master/getting-started/tutorials/05-layer-norm.html
@@ -194,36 +194,36 @@ to download the full example code</p>
 <p class="sphx-glr-script-out">Out:</p>
 <div class="sphx-glr-script-out highlight-none notranslate"><div class="highlight"><pre><span></span>layer-norm-backward:
           N      Triton       Torch        Apex
-0    1024.0  311.088617   98.303995  303.407414
-1    1536.0  347.773587  134.050910  341.333333
-2    2048.0  420.102553  161.684218  325.509933
-3    2560.0  455.111129  181.238943  326.808501
-4    3072.0  511.999982  191.999993  317.793096
-5    3584.0  547.872604  207.768111  310.527060
-6    4096.0  564.965515  219.919464  295.207204
-7    4608.0  504.986315  232.825259  291.799469
-8    5120.0  527.381977  242.845844  288.450695
-9    5632.0  542.843364  243.107920  288.820505
-10   6144.0  546.133354  248.661056  286.879370
-11   6656.0  532.479975  256.000009  285.767438
-12   7168.0  505.976473  260.654538  286.242939
-13   7680.0  481.253256  262.190612  278.429013
-14   8192.0  463.698115  267.130429  284.939124
-15   8704.0  417.791980  267.815384  284.987724
-16   9216.0  432.845409  272.394084  288.751954
-17   9728.0  439.683593  280.278512  289.667485
-18  10240.0  448.467168  286.433562  290.153487
-19  10752.0  425.821771  247.172406  290.922209
-20  11264.0  427.071098  245.760001  286.676558
-21  11776.0  423.724129  249.667843  288.981596
-22  12288.0  419.504980  254.673582  294.323369
-23  12800.0  413.458944  253.674644  288.180121
-24  13312.0  412.242569  252.859526  289.916513
-25  13824.0  405.594132  257.190689  292.056329
-26  14336.0  394.568805  254.297107  286.719986
-27  14848.0  386.498925  257.665934  289.246765
-28  15360.0  373.117425  257.970599  286.211174
-29  15872.0  371.274849  261.806182  289.899545
+0    1024.0  356.173905   99.497980  315.076934
+1    1536.0  405.098894  134.050910  344.523365
+2    2048.0  486.653476  159.067963  321.254900
+3    2560.0  458.507457  182.314537  326.808501
+4    3072.0  515.580429  191.501303  319.168834
+5    3584.0  551.384634  207.768111  307.199992
+6    4096.0  568.231237  220.907859  293.444785
+7    4608.0  502.690905  232.336141  290.267724
+8    5120.0  527.381977  243.326731  287.102804
+9    5632.0  540.671974  244.426754  291.310338
+10   6144.0  548.163546  251.202731  288.000001
+11   6656.0  532.479975  255.590406  286.279570
+12   7168.0  510.480705  253.734520  277.919225
+13   7680.0  487.619051  266.743841  284.884090
+14   8192.0  468.114289  258.694729  278.481578
+15   8704.0  415.300208  267.472468  284.987724
+16   9216.0  429.483477  272.394084  290.077383
+17   9728.0  438.033784  280.278512  288.950501
+18  10240.0  443.610086  287.102804  290.153487
+19  10752.0  426.525614  246.699797  290.267711
+20  11264.0  427.071098  245.536784  286.069848
+21  11776.0  418.702211  249.447482  288.981596
+22  12288.0  414.784810  254.673582  294.323369
+23  12800.0  410.146863  254.094291  288.180121
+24  13312.0  409.599999  252.161013  289.129403
+25  13824.0  404.112047  257.190689  291.799461
+26  14336.0  395.930964  256.000002  289.129416
+27  14848.0  385.662341  257.479779  288.777966
+28  15360.0  380.433442  258.332158  286.656296
+29  15872.0  372.363640  261.806182  290.562936
 </pre></div>
 </div>
 <div class="line-block">
@@ -487,7 +487,7 @@ to download the full example code</p>
 <span class="n">bench_layer_norm</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">save_path</span><span class="o">=</span><span class="s1">&#39;.&#39;</span><span class="p">,</span> <span class="n">print_data</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 2 minutes  12.550 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 2 minutes  14.583 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-05-layer-norm-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/935c0dd0fbeb4b2e69588471cbb2d4b2/05-layer-norm.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">05-layer-norm.py</span></code></a></p>
diff --git a/master/getting-started/tutorials/sg_execution_times.html b/master/getting-started/tutorials/sg_execution_times.html
index e9bda1894..95064c406 100644
--- a/master/getting-started/tutorials/sg_execution_times.html
+++ b/master/getting-started/tutorials/sg_execution_times.html
@@ -174,7 +174,7 @@
             
   <div class="section" id="computation-times">
 <span id="sphx-glr-getting-started-tutorials-sg-execution-times"></span><h1>Computation times<a class="headerlink" href="#computation-times" title="Permalink to this headline">¶</a></h1>
-<p><strong>13:15.622</strong> total execution time for <strong>getting-started_tutorials</strong> files:</p>
+<p><strong>14:13.919</strong> total execution time for <strong>getting-started_tutorials</strong> files:</p>
 <table class="docutils align-default">
 <colgroup>
 <col style="width: 85%" />
@@ -183,23 +183,23 @@
 </colgroup>
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="03-matrix-multiplication.html#sphx-glr-getting-started-tutorials-03-matrix-multiplication-py"><span class="std std-ref">Matrix Multiplication</span></a> (<code class="docutils literal notranslate"><span class="pre">03-matrix-multiplication.py</span></code>)</p></td>
-<td><p>06:00.645</p></td>
+<td><p>06:48.521</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="02-fused-softmax.html#sphx-glr-getting-started-tutorials-02-fused-softmax-py"><span class="std std-ref">Fused Softmax</span></a> (<code class="docutils literal notranslate"><span class="pre">02-fused-softmax.py</span></code>)</p></td>
-<td><p>03:19.345</p></td>
+<td><p>03:27.571</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="05-layer-norm.html#sphx-glr-getting-started-tutorials-05-layer-norm-py"><span class="std std-ref">Layer Normalization</span></a> (<code class="docutils literal notranslate"><span class="pre">05-layer-norm.py</span></code>)</p></td>
-<td><p>02:12.550</p></td>
+<td><p>02:14.583</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="01-vector-add.html#sphx-glr-getting-started-tutorials-01-vector-add-py"><span class="std std-ref">Vector Addition</span></a> (<code class="docutils literal notranslate"><span class="pre">01-vector-add.py</span></code>)</p></td>
-<td><p>01:42.600</p></td>
+<td><p>01:42.917</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="04-low-memory-dropout.html#sphx-glr-getting-started-tutorials-04-low-memory-dropout-py"><span class="std std-ref">Low-Memory Dropout</span></a> (<code class="docutils literal notranslate"><span class="pre">04-low-memory-dropout.py</span></code>)</p></td>
-<td><p>00:00.482</p></td>
+<td><p>00:00.327</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 </tbody>
diff --git a/master/python-api/generated/triton.language.broadcast_to.html b/master/python-api/generated/triton.language.broadcast_to.html
index 3eda2344d..09889adb3 100644
--- a/master/python-api/generated/triton.language.broadcast_to.html
+++ b/master/python-api/generated/triton.language.broadcast_to.html
@@ -200,11 +200,11 @@
 <dl class="py function">
 <dt class="sig sig-object py" id="triton.language.broadcast_to">
 <span class="sig-prename descclassname"><span class="pre">triton.language.</span></span><span class="sig-name descname"><span class="pre">broadcast_to</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">shape</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#triton.language.broadcast_to" title="Permalink to this definition">¶</a></dt>
-<dd><p>Tries to broadcast the given block to a new <code class="code docutils literal notranslate"><span class="pre">shape</span></code>.</p>
+<dd><p>Tries to broadcast the given tensor to a new <code class="code docutils literal notranslate"><span class="pre">shape</span></code>.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
 <dd class="field-odd"><ul class="simple">
-<li><p><strong>input</strong> (<em>Block</em>) – The input block.</p></li>
+<li><p><strong>input</strong> (<em>Block</em>) – The input tensor.</p></li>
 <li><p><strong>shape</strong> (<em>Tuple</em><em>[</em><em>int</em><em>]</em>) – The desired shape.</p></li>
 </ul>
 </dd>
diff --git a/master/python-api/generated/triton.language.dot.html b/master/python-api/generated/triton.language.dot.html
index 1b7d6ca47..07b36fbb1 100644
--- a/master/python-api/generated/triton.language.dot.html
+++ b/master/python-api/generated/triton.language.dot.html
@@ -203,8 +203,8 @@
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
 <dd class="field-odd"><ul class="simple">
-<li><p><strong>input</strong> (2D block of scalar-type in {<code class="code docutils literal notranslate"><span class="pre">float16</span></code>, <code class="code docutils literal notranslate"><span class="pre">bfloat16</span></code>, <code class="code docutils literal notranslate"><span class="pre">float32</span></code>}) – The first block to be multiplied.</p></li>
-<li><p><strong>other</strong> (2D block of scalar-type in {<code class="code docutils literal notranslate"><span class="pre">float16</span></code>, <code class="code docutils literal notranslate"><span class="pre">bfloat16</span></code>, <code class="code docutils literal notranslate"><span class="pre">float32</span></code>}) – The second block to be multiplied.</p></li>
+<li><p><strong>input</strong> (2D tensor of scalar-type in {<code class="code docutils literal notranslate"><span class="pre">float16</span></code>, <code class="code docutils literal notranslate"><span class="pre">bfloat16</span></code>, <code class="code docutils literal notranslate"><span class="pre">float32</span></code>}) – The first tensor to be multiplied.</p></li>
+<li><p><strong>other</strong> (2D tensor of scalar-type in {<code class="code docutils literal notranslate"><span class="pre">float16</span></code>, <code class="code docutils literal notranslate"><span class="pre">bfloat16</span></code>, <code class="code docutils literal notranslate"><span class="pre">float32</span></code>}) – The second tensor to be multiplied.</p></li>
 </ul>
 </dd>
 </dl>
diff --git a/master/python-api/generated/triton.language.load.html b/master/python-api/generated/triton.language.load.html
index d27fa9fc3..5d7bb5f7a 100644
--- a/master/python-api/generated/triton.language.load.html
+++ b/master/python-api/generated/triton.language.load.html
@@ -201,7 +201,7 @@
 <dl class="py function">
 <dt class="sig sig-object py" id="triton.language.load">
 <span class="sig-prename descclassname"><span class="pre">triton.language.</span></span><span class="sig-name descname"><span class="pre">load</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pointer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">mask</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">other</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_modifier</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eviction_policy</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">volatile</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#triton.language.load" title="Permalink to this definition">¶</a></dt>
-<dd><p>Return a block of data whose values are, elementwise, loaded from memory at location defined by <code class="code docutils literal notranslate"><span class="pre">pointer</span></code>.</p>
+<dd><p>Return a tensor of data whose values are, elementwise, loaded from memory at location defined by <code class="code docutils literal notranslate"><span class="pre">pointer</span></code>.</p>
 <p><code class="code docutils literal notranslate"><span class="pre">mask</span></code> and <code class="code docutils literal notranslate"><span class="pre">other</span></code> are implicitly broadcast to <code class="code docutils literal notranslate"><span class="pre">pointer.shape</span></code>.</p>
 <p><code class="code docutils literal notranslate"><span class="pre">other</span></code> is implicitly typecast to <code class="code docutils literal notranslate"><span class="pre">pointer.dtype.element_ty</span></code>.</p>
 <dl class="field-list simple">
diff --git a/master/python-api/generated/triton.language.max.html b/master/python-api/generated/triton.language.max.html
index d2543cc40..6ab10e7d8 100644
--- a/master/python-api/generated/triton.language.max.html
+++ b/master/python-api/generated/triton.language.max.html
@@ -200,7 +200,7 @@
 <dl class="py function">
 <dt class="sig sig-object py" id="triton.language.max">
 <span class="sig-prename descclassname"><span class="pre">triton.language.</span></span><span class="sig-name descname"><span class="pre">max</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">axis</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#triton.language.max" title="Permalink to this definition">¶</a></dt>
-<dd><p>Returns the maximum of all elements in the <code class="code docutils literal notranslate"><span class="pre">input</span></code> block along the provided <code class="code docutils literal notranslate"><span class="pre">axis</span></code></p>
+<dd><p>Returns the maximum of all elements in the <code class="code docutils literal notranslate"><span class="pre">input</span></code> tensor along the provided <code class="code docutils literal notranslate"><span class="pre">axis</span></code></p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
 <dd class="field-odd"><ul class="simple">
diff --git a/master/python-api/generated/triton.language.maximum.html b/master/python-api/generated/triton.language.maximum.html
index 5b76b2b00..6479d32af 100644
--- a/master/python-api/generated/triton.language.maximum.html
+++ b/master/python-api/generated/triton.language.maximum.html
@@ -203,8 +203,8 @@
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
 <dd class="field-odd"><ul class="simple">
-<li><p><strong>input</strong> (<em>Block</em>) – the first input block</p></li>
-<li><p><strong>other</strong> (<em>Block</em>) – the second input block</p></li>
+<li><p><strong>input</strong> (<em>Block</em>) – the first input tensor</p></li>
+<li><p><strong>other</strong> (<em>Block</em>) – the second input tensor</p></li>
 </ul>
 </dd>
 </dl>
diff --git a/master/python-api/generated/triton.language.min.html b/master/python-api/generated/triton.language.min.html
index 5164958ed..71b0a1f8e 100644
--- a/master/python-api/generated/triton.language.min.html
+++ b/master/python-api/generated/triton.language.min.html
@@ -200,7 +200,7 @@
 <dl class="py function">
 <dt class="sig sig-object py" id="triton.language.min">
 <span class="sig-prename descclassname"><span class="pre">triton.language.</span></span><span class="sig-name descname"><span class="pre">min</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">axis</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#triton.language.min" title="Permalink to this definition">¶</a></dt>
-<dd><p>Returns the minimum of all elements in the <code class="code docutils literal notranslate"><span class="pre">input</span></code> block along the provided <code class="code docutils literal notranslate"><span class="pre">axis</span></code></p>
+<dd><p>Returns the minimum of all elements in the <code class="code docutils literal notranslate"><span class="pre">input</span></code> tensor along the provided <code class="code docutils literal notranslate"><span class="pre">axis</span></code></p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
 <dd class="field-odd"><ul class="simple">
diff --git a/master/python-api/generated/triton.language.minimum.html b/master/python-api/generated/triton.language.minimum.html
index 5ecd6976a..03c77db07 100644
--- a/master/python-api/generated/triton.language.minimum.html
+++ b/master/python-api/generated/triton.language.minimum.html
@@ -203,8 +203,8 @@
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
 <dd class="field-odd"><ul class="simple">
-<li><p><strong>input</strong> (<em>Block</em>) – the first input block</p></li>
-<li><p><strong>other</strong> (<em>Block</em>) – the second input block</p></li>
+<li><p><strong>input</strong> (<em>Block</em>) – the first input tensor</p></li>
+<li><p><strong>other</strong> (<em>Block</em>) – the second input tensor</p></li>
 </ul>
 </dd>
 </dl>
diff --git a/master/python-api/generated/triton.language.ravel.html b/master/python-api/generated/triton.language.ravel.html
index 7a084b104..7d38d4144 100644
--- a/master/python-api/generated/triton.language.ravel.html
+++ b/master/python-api/generated/triton.language.ravel.html
@@ -203,7 +203,7 @@
 <dd><p>Returns a contiguous flattened view of <code class="code docutils literal notranslate"><span class="pre">x</span></code></p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
-<dd class="field-odd"><p><strong>x</strong> (<em>Block</em>) – the input block</p>
+<dd class="field-odd"><p><strong>x</strong> (<em>Block</em>) – the input tensor</p>
 </dd>
 </dl>
 </dd></dl>
diff --git a/master/python-api/generated/triton.language.reshape.html b/master/python-api/generated/triton.language.reshape.html
index 9daa766bd..359500f19 100644
--- a/master/python-api/generated/triton.language.reshape.html
+++ b/master/python-api/generated/triton.language.reshape.html
@@ -200,11 +200,11 @@
 <dl class="py function">
 <dt class="sig sig-object py" id="triton.language.reshape">
 <span class="sig-prename descclassname"><span class="pre">triton.language.</span></span><span class="sig-name descname"><span class="pre">reshape</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">shape</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#triton.language.reshape" title="Permalink to this definition">¶</a></dt>
-<dd><p>Tries to reshape the given block to a new shape.</p>
+<dd><p>Tries to reshape the given tensor to a new shape.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
 <dd class="field-odd"><ul class="simple">
-<li><p><strong>input</strong> – The input block.</p></li>
+<li><p><strong>input</strong> – The input tensor.</p></li>
 <li><p><strong>shape</strong> (<em>Tuple</em><em>[</em><em>int</em><em>]</em>) – The desired shape.</p></li>
 </ul>
 </dd>
diff --git a/master/python-api/generated/triton.language.softmax.html b/master/python-api/generated/triton.language.softmax.html
index 8d3ba9d8e..01fdba1c7 100644
--- a/master/python-api/generated/triton.language.softmax.html
+++ b/master/python-api/generated/triton.language.softmax.html
@@ -203,7 +203,7 @@
 <h1>triton.language.softmax<a class="headerlink" href="#triton-language-softmax" title="Permalink to this headline">¶</a></h1>
 <dl class="py function">
 <dt class="sig sig-object py" id="triton.language.softmax">
-<span class="sig-prename descclassname"><span class="pre">triton.language.</span></span><span class="sig-name descname"><span class="pre">softmax</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ieee_rounding</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#triton.language.softmax" title="Permalink to this definition">¶</a></dt>
+<span class="sig-prename descclassname"><span class="pre">triton.language.</span></span><span class="sig-name descname"><span class="pre">softmax</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ieee_rounding</span></span><span class="p"><span class="pre">:</span></span> <span class="n"><span class="pre">triton.language.core.constexpr</span></span> <span class="o"><span class="pre">=</span></span> <span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#triton.language.softmax" title="Permalink to this definition">¶</a></dt>
 <dd><p>Computes the element-wise softmax of <code class="code docutils literal notranslate"><span class="pre">x</span></code></p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
diff --git a/master/python-api/generated/triton.language.store.html b/master/python-api/generated/triton.language.store.html
index 1211e48ef..e0116a6ab 100644
--- a/master/python-api/generated/triton.language.store.html
+++ b/master/python-api/generated/triton.language.store.html
@@ -201,13 +201,13 @@
 <dl class="py function">
 <dt class="sig sig-object py" id="triton.language.store">
 <span class="sig-prename descclassname"><span class="pre">triton.language.</span></span><span class="sig-name descname"><span class="pre">store</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pointer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">value</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">mask</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#triton.language.store" title="Permalink to this definition">¶</a></dt>
-<dd><p>Stores <code class="code docutils literal notranslate"><span class="pre">value</span></code> block of elements in memory, element-wise, at the memory locations specified by <code class="code docutils literal notranslate"><span class="pre">pointer</span></code>.</p>
+<dd><p>Stores <code class="code docutils literal notranslate"><span class="pre">value</span></code> tensor of elements in memory, element-wise, at the memory locations specified by <code class="code docutils literal notranslate"><span class="pre">pointer</span></code>.</p>
 <p><code class="code docutils literal notranslate"><span class="pre">value</span></code> is implicitly broadcast to <code class="code docutils literal notranslate"><span class="pre">pointer.shape</span></code> and typecast to <code class="code docutils literal notranslate"><span class="pre">pointer.dtype.element_ty</span></code>.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
 <dd class="field-odd"><ul class="simple">
 <li><p><strong>pointer</strong> (<em>Block of dtype=triton.PointerDType</em>) – The memory locations where the elements of <code class="code docutils literal notranslate"><span class="pre">value</span></code> are stored.</p></li>
-<li><p><strong>value</strong> (<em>Block</em>) – The block of elements to be stored.</p></li>
+<li><p><strong>value</strong> (<em>Block</em>) – The tensor of elements to be stored.</p></li>
 <li><p><strong>mask</strong> (<em>Block of triton.int1</em><em>, </em><em>optional</em>) – If mask[idx] is false, do not store <code class="code docutils literal notranslate"><span class="pre">value[idx]</span></code> at <code class="code docutils literal notranslate"><span class="pre">pointer[idx]</span></code>.</p></li>
 </ul>
 </dd>
diff --git a/master/python-api/generated/triton.language.sum.html b/master/python-api/generated/triton.language.sum.html
index e06596043..465e7e027 100644
--- a/master/python-api/generated/triton.language.sum.html
+++ b/master/python-api/generated/triton.language.sum.html
@@ -200,7 +200,7 @@
 <dl class="py function">
 <dt class="sig sig-object py" id="triton.language.sum">
 <span class="sig-prename descclassname"><span class="pre">triton.language.</span></span><span class="sig-name descname"><span class="pre">sum</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">axis</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#triton.language.sum" title="Permalink to this definition">¶</a></dt>
-<dd><p>Returns the sum of all elements in the <code class="code docutils literal notranslate"><span class="pre">input</span></code> block along the provided <code class="code docutils literal notranslate"><span class="pre">axis</span></code></p>
+<dd><p>Returns the sum of all elements in the <code class="code docutils literal notranslate"><span class="pre">input</span></code> tensor along the provided <code class="code docutils literal notranslate"><span class="pre">axis</span></code></p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
 <dd class="field-odd"><ul class="simple">
diff --git a/master/python-api/generated/triton.language.where.html b/master/python-api/generated/triton.language.where.html
index c9d0f4997..22e00a92d 100644
--- a/master/python-api/generated/triton.language.where.html
+++ b/master/python-api/generated/triton.language.where.html
@@ -198,7 +198,7 @@
 <dl class="py function">
 <dt class="sig sig-object py" id="triton.language.where">
 <span class="sig-prename descclassname"><span class="pre">triton.language.</span></span><span class="sig-name descname"><span class="pre">where</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">condition</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">x</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">y</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#triton.language.where" title="Permalink to this definition">¶</a></dt>
-<dd><p>Returns a block of elements from either <code class="code docutils literal notranslate"><span class="pre">x</span></code> or <code class="code docutils literal notranslate"><span class="pre">y</span></code>, depending on <code class="code docutils literal notranslate"><span class="pre">condition</span></code>.</p>
+<dd><p>Returns a tensor of elements from either <code class="code docutils literal notranslate"><span class="pre">x</span></code> or <code class="code docutils literal notranslate"><span class="pre">y</span></code>, depending on <code class="code docutils literal notranslate"><span class="pre">condition</span></code>.</p>
 <p>Note that <code class="code docutils literal notranslate"><span class="pre">x</span></code> and <code class="code docutils literal notranslate"><span class="pre">y</span></code> are always evaluated regardless of the value of <code class="code docutils literal notranslate"><span class="pre">condition</span></code>.</p>
 <p>If you want to avoid unintented memory operations, use the <code class="code docutils literal notranslate"><span class="pre">mask</span></code> arguments in <cite>triton.load</cite> and <cite>triton.store</cite> instead.</p>
 <p>The shape of <code class="code docutils literal notranslate"><span class="pre">x</span></code> and <code class="code docutils literal notranslate"><span class="pre">y</span></code> are both broadcast to the shape of <code class="code docutils literal notranslate"><span class="pre">condition</span></code>.
diff --git a/master/python-api/generated/triton.language.zeros.html b/master/python-api/generated/triton.language.zeros.html
index b39199178..92929bb39 100644
--- a/master/python-api/generated/triton.language.zeros.html
+++ b/master/python-api/generated/triton.language.zeros.html
@@ -199,7 +199,7 @@
 <dl class="py function">
 <dt class="sig sig-object py" id="triton.language.zeros">
 <span class="sig-prename descclassname"><span class="pre">triton.language.</span></span><span class="sig-name descname"><span class="pre">zeros</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">shape</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dtype</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#triton.language.zeros" title="Permalink to this definition">¶</a></dt>
-<dd><p>Returns a block filled with the scalar value 0 for the given <code class="code docutils literal notranslate"><span class="pre">shape</span></code> and <code class="code docutils literal notranslate"><span class="pre">dtype</span></code>.</p>
+<dd><p>Returns a tensor filled with the scalar value 0 for the given <code class="code docutils literal notranslate"><span class="pre">shape</span></code> and <code class="code docutils literal notranslate"><span class="pre">dtype</span></code>.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
 <dd class="field-odd"><ul class="simple">
diff --git a/master/python-api/triton.language.html b/master/python-api/triton.language.html
index 1e61548d8..a214d7b0d 100644
--- a/master/python-api/triton.language.html
+++ b/master/python-api/triton.language.html
@@ -278,7 +278,7 @@
 <td><p>Returns contiguous values within the open interval [<code class="code docutils literal notranslate"><span class="pre">start</span></code>, <code class="code docutils literal notranslate"><span class="pre">end</span></code>).</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="generated/triton.language.zeros.html#triton.language.zeros" title="triton.language.zeros"><code class="xref py py-obj docutils literal notranslate"><span class="pre">zeros</span></code></a></p></td>
-<td><p>Returns a block filled with the scalar value 0 for the given <code class="code docutils literal notranslate"><span class="pre">shape</span></code> and <code class="code docutils literal notranslate"><span class="pre">dtype</span></code>.</p></td>
+<td><p>Returns a tensor filled with the scalar value 0 for the given <code class="code docutils literal notranslate"><span class="pre">shape</span></code> and <code class="code docutils literal notranslate"><span class="pre">dtype</span></code>.</p></td>
 </tr>
 </tbody>
 </table>
@@ -292,10 +292,10 @@
 </colgroup>
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.language.broadcast_to.html#triton.language.broadcast_to" title="triton.language.broadcast_to"><code class="xref py py-obj docutils literal notranslate"><span class="pre">broadcast_to</span></code></a></p></td>
-<td><p>Tries to broadcast the given block to a new <code class="code docutils literal notranslate"><span class="pre">shape</span></code>.</p></td>
+<td><p>Tries to broadcast the given tensor to a new <code class="code docutils literal notranslate"><span class="pre">shape</span></code>.</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="generated/triton.language.reshape.html#triton.language.reshape" title="triton.language.reshape"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reshape</span></code></a></p></td>
-<td><p>Tries to reshape the given block to a new shape.</p></td>
+<td><p>Tries to reshape the given tensor to a new shape.</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.language.ravel.html#triton.language.ravel" title="triton.language.ravel"><code class="xref py py-obj docutils literal notranslate"><span class="pre">ravel</span></code></a></p></td>
 <td><p>Returns a contiguous flattened view of <code class="code docutils literal notranslate"><span class="pre">x</span></code></p></td>
@@ -326,10 +326,10 @@
 </colgroup>
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.language.load.html#triton.language.load" title="triton.language.load"><code class="xref py py-obj docutils literal notranslate"><span class="pre">load</span></code></a></p></td>
-<td><p>Return a block of data whose values are, elementwise, loaded from memory at location defined by <code class="code docutils literal notranslate"><span class="pre">pointer</span></code>.</p></td>
+<td><p>Return a tensor of data whose values are, elementwise, loaded from memory at location defined by <code class="code docutils literal notranslate"><span class="pre">pointer</span></code>.</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="generated/triton.language.store.html#triton.language.store" title="triton.language.store"><code class="xref py py-obj docutils literal notranslate"><span class="pre">store</span></code></a></p></td>
-<td><p>Stores <code class="code docutils literal notranslate"><span class="pre">value</span></code> block of elements in memory, element-wise, at the memory locations specified by <code class="code docutils literal notranslate"><span class="pre">pointer</span></code>.</p></td>
+<td><p>Stores <code class="code docutils literal notranslate"><span class="pre">value</span></code> tensor of elements in memory, element-wise, at the memory locations specified by <code class="code docutils literal notranslate"><span class="pre">pointer</span></code>.</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.language.atomic_cas.html#triton.language.atomic_cas" title="triton.language.atomic_cas"><code class="xref py py-obj docutils literal notranslate"><span class="pre">atomic_cas</span></code></a></p></td>
 <td><p>Performs an atomic compare-and-swap at the memory location specified by <code class="code docutils literal notranslate"><span class="pre">pointer</span></code>.</p></td>
@@ -349,7 +349,7 @@
 </colgroup>
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.language.where.html#triton.language.where" title="triton.language.where"><code class="xref py py-obj docutils literal notranslate"><span class="pre">where</span></code></a></p></td>
-<td><p>Returns a block of elements from either <code class="code docutils literal notranslate"><span class="pre">x</span></code> or <code class="code docutils literal notranslate"><span class="pre">y</span></code>, depending on <code class="code docutils literal notranslate"><span class="pre">condition</span></code>.</p></td>
+<td><p>Returns a tensor of elements from either <code class="code docutils literal notranslate"><span class="pre">x</span></code> or <code class="code docutils literal notranslate"><span class="pre">y</span></code>, depending on <code class="code docutils literal notranslate"><span class="pre">condition</span></code>.</p></td>
 </tr>
 </tbody>
 </table>
@@ -395,13 +395,13 @@
 </colgroup>
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.language.max.html#triton.language.max" title="triton.language.max"><code class="xref py py-obj docutils literal notranslate"><span class="pre">max</span></code></a></p></td>
-<td><p>Returns the maximum of all elements in the <code class="code docutils literal notranslate"><span class="pre">input</span></code> block along the provided <code class="code docutils literal notranslate"><span class="pre">axis</span></code></p></td>
+<td><p>Returns the maximum of all elements in the <code class="code docutils literal notranslate"><span class="pre">input</span></code> tensor along the provided <code class="code docutils literal notranslate"><span class="pre">axis</span></code></p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="generated/triton.language.min.html#triton.language.min" title="triton.language.min"><code class="xref py py-obj docutils literal notranslate"><span class="pre">min</span></code></a></p></td>
-<td><p>Returns the minimum of all elements in the <code class="code docutils literal notranslate"><span class="pre">input</span></code> block along the provided <code class="code docutils literal notranslate"><span class="pre">axis</span></code></p></td>
+<td><p>Returns the minimum of all elements in the <code class="code docutils literal notranslate"><span class="pre">input</span></code> tensor along the provided <code class="code docutils literal notranslate"><span class="pre">axis</span></code></p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.language.sum.html#triton.language.sum" title="triton.language.sum"><code class="xref py py-obj docutils literal notranslate"><span class="pre">sum</span></code></a></p></td>
-<td><p>Returns the sum of all elements in the <code class="code docutils literal notranslate"><span class="pre">input</span></code> block along the provided <code class="code docutils literal notranslate"><span class="pre">axis</span></code></p></td>
+<td><p>Returns the sum of all elements in the <code class="code docutils literal notranslate"><span class="pre">input</span></code> tensor along the provided <code class="code docutils literal notranslate"><span class="pre">axis</span></code></p></td>
 </tr>
 </tbody>
 </table>
diff --git a/master/searchindex.js b/master/searchindex.js
index e0687bf58..498b18a03 100644
--- a/master/searchindex.js
+++ b/master/searchindex.js
@@ -1 +1 @@
-Search.setIndex({docnames:["getting-started/installation","getting-started/tutorials/01-vector-add","getting-started/tutorials/02-fused-softmax","getting-started/tutorials/03-matrix-multiplication","getting-started/tutorials/04-low-memory-dropout","getting-started/tutorials/05-layer-norm","getting-started/tutorials/index","getting-started/tutorials/sg_execution_times","index","programming-guide/chapter-1/introduction","programming-guide/chapter-2/related-work","python-api/generated/triton.Config","python-api/generated/triton.autotune","python-api/generated/triton.heuristics","python-api/generated/triton.jit","python-api/generated/triton.language.arange","python-api/generated/triton.language.atomic_add","python-api/generated/triton.language.atomic_cas","python-api/generated/triton.language.atomic_max","python-api/generated/triton.language.atomic_min","python-api/generated/triton.language.atomic_xchg","python-api/generated/triton.language.broadcast_to","python-api/generated/triton.language.cos","python-api/generated/triton.language.dot","python-api/generated/triton.language.exp","python-api/generated/triton.language.load","python-api/generated/triton.language.log","python-api/generated/triton.language.max","python-api/generated/triton.language.maximum","python-api/generated/triton.language.min","python-api/generated/triton.language.minimum","python-api/generated/triton.language.multiple_of","python-api/generated/triton.language.num_programs","python-api/generated/triton.language.program_id","python-api/generated/triton.language.rand","python-api/generated/triton.language.randint","python-api/generated/triton.language.randint4x","python-api/generated/triton.language.randn","python-api/generated/triton.language.ravel","python-api/generated/triton.language.reshape","python-api/generated/triton.language.sigmoid","python-api/generated/triton.language.sin","python-api/generated/triton.language.softmax","python-api/generated/triton.language.sqrt","python-api/generated/triton.language.store","python-api/generated/triton.language.sum","python-api/generated/triton.language.where","python-api/generated/triton.language.zeros","python-api/generated/triton.testing.Benchmark","python-api/generated/triton.testing.do_bench","python-api/generated/triton.testing.perf_report","python-api/triton","python-api/triton.language","python-api/triton.testing"],envversion:{"sphinx.domains.c":2,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":4,"sphinx.domains.index":1,"sphinx.domains.javascript":2,"sphinx.domains.math":2,"sphinx.domains.python":3,"sphinx.domains.rst":2,"sphinx.domains.std":2,"sphinx.ext.intersphinx":1,sphinx:56},filenames:["getting-started/installation.rst","getting-started/tutorials/01-vector-add.rst","getting-started/tutorials/02-fused-softmax.rst","getting-started/tutorials/03-matrix-multiplication.rst","getting-started/tutorials/04-low-memory-dropout.rst","getting-started/tutorials/05-layer-norm.rst","getting-started/tutorials/index.rst","getting-started/tutorials/sg_execution_times.rst","index.rst","programming-guide/chapter-1/introduction.rst","programming-guide/chapter-2/related-work.rst","python-api/generated/triton.Config.rst","python-api/generated/triton.autotune.rst","python-api/generated/triton.heuristics.rst","python-api/generated/triton.jit.rst","python-api/generated/triton.language.arange.rst","python-api/generated/triton.language.atomic_add.rst","python-api/generated/triton.language.atomic_cas.rst","python-api/generated/triton.language.atomic_max.rst","python-api/generated/triton.language.atomic_min.rst","python-api/generated/triton.language.atomic_xchg.rst","python-api/generated/triton.language.broadcast_to.rst","python-api/generated/triton.language.cos.rst","python-api/generated/triton.language.dot.rst","python-api/generated/triton.language.exp.rst","python-api/generated/triton.language.load.rst","python-api/generated/triton.language.log.rst","python-api/generated/triton.language.max.rst","python-api/generated/triton.language.maximum.rst","python-api/generated/triton.language.min.rst","python-api/generated/triton.language.minimum.rst","python-api/generated/triton.language.multiple_of.rst","python-api/generated/triton.language.num_programs.rst","python-api/generated/triton.language.program_id.rst","python-api/generated/triton.language.rand.rst","python-api/generated/triton.language.randint.rst","python-api/generated/triton.language.randint4x.rst","python-api/generated/triton.language.randn.rst","python-api/generated/triton.language.ravel.rst","python-api/generated/triton.language.reshape.rst","python-api/generated/triton.language.sigmoid.rst","python-api/generated/triton.language.sin.rst","python-api/generated/triton.language.softmax.rst","python-api/generated/triton.language.sqrt.rst","python-api/generated/triton.language.store.rst","python-api/generated/triton.language.sum.rst","python-api/generated/triton.language.where.rst","python-api/generated/triton.language.zeros.rst","python-api/generated/triton.testing.Benchmark.rst","python-api/generated/triton.testing.do_bench.rst","python-api/generated/triton.testing.perf_report.rst","python-api/triton.rst","python-api/triton.language.rst","python-api/triton.testing.rst"],objects:{"triton.Config":{__init__:[11,1,1,""]},"triton.language":{arange:[15,2,1,""],atomic_add:[16,2,1,""],atomic_cas:[17,2,1,""],atomic_max:[18,2,1,""],atomic_min:[19,2,1,""],atomic_xchg:[20,2,1,""],broadcast_to:[21,2,1,""],cos:[22,2,1,""],dot:[23,2,1,""],exp:[24,2,1,""],load:[25,2,1,""],log:[26,2,1,""],max:[27,2,1,""],maximum:[28,2,1,""],min:[29,2,1,""],minimum:[30,2,1,""],multiple_of:[31,2,1,""],num_programs:[32,2,1,""],program_id:[33,2,1,""],rand:[34,2,1,""],randint4x:[36,2,1,""],randint:[35,2,1,""],randn:[37,2,1,""],ravel:[38,2,1,""],reshape:[39,2,1,""],sigmoid:[40,2,1,""],sin:[41,2,1,""],softmax:[42,2,1,""],sqrt:[43,2,1,""],store:[44,2,1,""],sum:[45,2,1,""],where:[46,2,1,""],zeros:[47,2,1,""]},"triton.testing":{Benchmark:[48,0,1,""],do_bench:[49,2,1,""],perf_report:[50,2,1,""]},"triton.testing.Benchmark":{__init__:[48,1,1,""]},triton:{Config:[11,0,1,""],autotune:[12,2,1,""],heuristics:[13,2,1,""],jit:[14,2,1,""]}},objnames:{"0":["py","class","Python class"],"1":["py","method","Python method"],"2":["py","function","Python function"]},objtypes:{"0":"py:class","1":"py:method","2":"py:function"},terms:{"0":[1,2,3,4,5,7,9,10,32,33,34,37,47,49],"00":7,"0000":3,"000001":2,"000002":2,"000009":5,"001726":3,"004273":1,"004501":3,"006659":3,"01":[1,3,7],"017953":3,"019048":3,"02":[2,7],"025776":3,"028308":3,"029251":3,"03":[3,7],"034941":3,"04":[4,7],"047592":3,"05":[5,7],"050910":5,"056329":5,"057651":3,"058574":2,"06":7,"0625":3,"071098":5,"08199":4,"08452":4,"084721":1,"088617":5,"0938":3,"096718":2,"0f":10,"0s":4,"1":[1,2,3,4,5,8,10,13,32,33,34,37],"10":[1,3,4,5,34,35,36,37],"100":[2,49],"1024":[1,3,4,5,12],"10240":5,"102553":5,"1045":3,"1048576":1,"106434":4,"10752":5,"107920":5,"108217":3,"108913":3,"11":[0,1,3,5],"111129":5,"111783":2,"11264":5,"1152":3,"117425":5,"11776":5,"12":[1,3,5,7],"12160":2,"12288":[2,5],"123":4,"12416":2,"12544":2,"12672":2,"127":1,"128":[1,2,3,5,12],"1280":3,"12800":5,"13":[1,3,5,7],"130429":5,"131072":1,"1328":3,"13312":5,"133347":2,"133354":5,"133652":3,"134":5,"134217728":1,"134737":3,"13686":4,"13824":5,"138541":3,"14":[1,3,5],"140799":3,"1408":3,"142862":2,"14336":5,"14848":5,"149375":2,"149397":4,"15":[1,3,5,7],"153":2,"153487":5,"1536":[3,5],"15360":5,"154":2,"158":2,"15872":5,"16":[2,3,5,10,47],"160909":3,"161":5,"162":2,"16384":1,"163950":2,"1664":3,"16777216":1,"169042":3,"17":[3,5],"172406":5,"172588":3,"17879":4,"1792":3,"179533":2,"18":[3,5],"180121":5,"181":5,"181817":2,"1823":2,"186":2,"19":[1,2,3,5,7],"190482":1,"190612":5,"190689":5,"191":5,"192":1,"1920":3,"198":2,"1982":10,"1983":9,"1984":10,"1989":10,"199":2,"1991":[9,10],"1999":10,"1d":[1,2,3],"1e":[1,2,3,5],"1s":4,"2":[1,2,3,4,5,8,10,11,13,32,33,49],"20":[3,5,49],"200000":1,"200001":3,"2004":10,"2006":10,"2011":4,"2012":10,"2013":9,"2014":[4,9],"2016":[9,10],"2017":9,"2018":[9,10],"2019":10,"2021":[9,10],"2048":[2,3,5],"206879":2,"207":5,"207204":5,"2097152":1,"21":[3,5],"211174":5,"212868":4,"2141":1,"214186":4,"214963":2,"216187":2,"2176":3,"219":[1,5],"22":[3,5],"220":3,"23":[3,5],"2304":3,"232":5,"236000":3,"237674":3,"238943":5,"24":[3,5],"242":5,"242181":3,"242569":5,"242939":5,"243":5,"2432":3,"245":[3,5],"246765":5,"247":5,"248":5,"249":5,"25":[3,5,49],"252":5,"253":5,"253256":5,"254":5,"254248":3,"256":[1,2,3,5,11],"2560":[3,5],"257":5,"26":[3,5],"260":5,"260869":3,"261":5,"262":5,"262144":1,"262953":3,"265046":2,"2656":3,"267":5,"2688":3,"27":[3,5],"272":5,"274849":5,"276800":3,"278":5,"278512":5,"28":[1,3,5],"280":5,"2812":3,"2816":3,"284":5,"285":5,"286":5,"288":5,"289":5,"2891":3,"29":[3,5],"290":5,"291":5,"292":5,"293429":4,"294":5,"2944":3,"295":5,"297107":5,"298583":3,"2d":[3,5,23],"2m":2,"2mn":2,"3":[0,1,2,3,4,5,10],"30":3,"303":5,"303995":5,"304576":3,"305746":3,"305878":3,"3072":[3,5],"3076":1,"31":3,"310":5,"311":5,"3125":3,"317":5,"319081":3,"32":[3,5,11],"3200":3,"323369":5,"325":5,"326":5,"32768":1,"3281":3,"33":3,"3328":3,"333321":1,"333333":5,"33554432":1,"34":3,"341":[1,5],"34172":4,"3438":3,"345":[2,7],"3456":3,"347":5,"3477":3,"3516":3,"3555":3,"3584":[3,5],"36":3,"360017":2,"362445":1,"369197":3,"371":5,"3712":3,"3713":1,"371721":4,"372800":3,"373":5,"377059":3,"38":1,"380953":3,"381977":5,"384":[2,3],"3840":3,"384000":3,"386":5,"39":3,"3906":3,"393507":3,"394":5,"394084":5,"3968":3,"3984":3,"3986":4,"3d":[32,33],"3mn":2,"4":[1,2,3,5,10,11,12,35],"40":3,"400001":1,"400016":[1,2],"4023":3,"403344":4,"403347":4,"404730":3,"405":5,"406":2,"4062":3,"407414":5,"408716":4,"4096":[1,2,3,5],"411":2,"412":[2,5],"413":5,"415":2,"41576":4,"417":5,"419":5,"4194304":1,"42":[1,7],"420":5,"42142":4,"423":5,"425":5,"427":5,"428372":4,"428568":1,"428801":3,"429013":5,"429770":1,"430545":3,"431969":4,"432":5,"433562":5,"439":5,"448":5,"448255":1,"4492":3,"45":3,"450695":5,"4531":3,"455":5,"458944":5,"46":3,"4608":5,"4609":3,"463":5,"464755":3,"467168":5,"467336":3,"4688":3,"472":1,"473602":3,"479975":5,"481":5,"482":[4,7],"483450":3,"485074":3,"49":3,"492442":3,"4940":1,"498925":5,"4m":2,"4x":2,"5":[1,3,4,5,10,49],"500":5,"5000":3,"500614":3,"504":5,"504980":5,"505":5,"507077":3,"509933":5,"51":3,"511":5,"512":[2,3,4,5],"5120":5,"512412":3,"516392":3,"52":3,"522206":3,"524288":1,"526831":3,"527":5,"527060":5,"5312":3,"532":5,"54":3,"541":4,"542":5,"546":[2,5],"547":5,"550":[5,7],"552120":3,"56":3,"5632":5,"563555":3,"564":5,"566038":2,"568431":4,"568805":5,"585":2,"5859":3,"586858":4,"5898":3,"592983":3,"594132":5,"5mn":2,"6":[0,1,3,5],"600":[1,7],"600000":1,"600004":2,"602666":3,"606":2,"608294":3,"6094":3,"61":3,"614":[1,2],"6144":5,"615390":1,"62":3,"622":7,"623693":3,"632545":3,"636381":3,"64":[1,3,5],"640":[2,3],"643199":3,"643310":3,"645":[3,7],"64kb":5,"654538":5,"655":2,"65536":[1,5],"655991":2,"656000":3,"656574":1,"66":3,"661056":5,"661740":2,"664":2,"6656":5,"665934":5,"667485":5,"667843":5,"67":3,"67086":4,"67108864":1,"6724":1,"673582":5,"674553":3,"674644":5,"676558":5,"679167":2,"68":3,"682211":3,"683593":5,"684218":5,"69":3,"6953":3,"695641":3,"698115":5,"7":[0,1,3,5,10],"70":3,"7031":3,"706":2,"7070":3,"707223":3,"707878":4,"709358":3,"71":3,"7168":5,"719258":4,"719986":5,"72":3,"722":[1,2],"724129":5,"73":3,"730667":3,"737435":1,"743443":4,"7500":3,"751954":5,"754967":2,"759699":2,"76":[1,3],"760001":5,"767055":3,"767438":5,"768":[2,3],"7680":5,"768000":3,"768111":5,"77":3,"773587":5,"78":3,"780":1,"781":2,"79":3,"791620":3,"791980":5,"793096":5,"79719":4,"799469":5,"8":[1,2,3,5,10,11,12,47,49],"80":[3,49],"800002":1,"806182":5,"806694":4,"808501":5,"81":3,"811163":1,"812":1,"814":2,"814814":2,"815384":5,"817432":4,"818184":3,"8192":[1,5],"82":3,"820505":5,"821771":5,"823517":[1,2],"825259":5,"83":3,"833":1,"834951":2,"838026":4,"8388608":1,"84":3,"842":1,"84284":4,"843":1,"843364":5,"845409":5,"845844":5,"847":1,"848":1,"849":1,"85":3,"850":1,"859526":5,"86":3,"87":3,"8704":5,"872604":5,"879370":5,"88":3,"8828":3,"8867":3,"888887":3,"89":3,"8906":3,"8945":3,"896":3,"899428":3,"899545":5,"8mn":2,"9":[0,1,2,3,4,5],"90":3,"905938":3,"91":3,"913776":2,"916513":5,"919464":5,"92":3,"9216":5,"9219":3,"922209":5,"929456":3,"93":2,"932191":3,"9375":3,"939124":5,"94":[2,3],"9492":3,"95":2,"952835":4,"9531":3,"955488":3,"96":[2,5],"965515":5,"967162":3,"9688":3,"97":2,"970599":5,"971190":2,"971549":2,"9728":5,"9733":1,"976473":5,"978909":3,"98":[2,3,5],"9805":3,"981596":5,"98432":1,"9844":3,"986315":5,"987724":5,"998493":3,"999982":5,"999993":5,"999995":1,"abstract":[9,10],"break":10,"byte":2,"case":[1,2,9,10,13,16,17,18,19,20],"class":[2,5,9,10,11,48],"default":49,"do":[2,3,9,10,12,25,44],"float":[2,9,10,49],"function":[1,2,3,4,5,10,11,12,13,14,48,49,50],"import":[1,2,3,4,5,9,10],"int":[1,9,10,13,15,21,32,33,39,47,49],"new":[21,39,47],"return":[1,2,3,4,5,12,15,16,17,18,19,20,23,25,27,29,32,33,34,35,36,37,38,45,46,47,49,50],"static":[0,9,10],"super":3,"switch":3,"true":[1,2,3,5,23,46],"try":[3,5,11],"var":[5,10],"voil\u00e0":4,"while":[3,5,9],A:[3,4,9,10],And:[0,3],As:[2,3,4,9,10],At:[4,10],But:4,By:49,For:[3,9,10,11],If:[4,10,35,44,46,48],In:[1,2,3,4,10],It:[1,3,4,6,8,10,12,14],NOT:5,Of:9,On:10,One:3,The:[1,2,3,4,9,10,16,17,18,19,20,21,23,32,33,34,35,36,37,39,44,46,50],There:1,These:10,To:[1,4,6,9,10,12],_:5,__expf:2,__init__:[11,48],_db:5,_dropout:4,_dw:5,_layer_norm_bwd_dwdb:5,_layer_norm_bwd_dx_fus:5,_layer_norm_fwd_fus:5,_matmul:3,_seeded_dropout:4,a100:[3,10],a_ptr:3,ab:1,abl:10,about:[1,2,3,4,8],abov:[1,2,3,4,10,12],academ:9,acc:[3,9,10],acceler:9,access:[1,3,9,10,14],accomod:3,accordingli:10,account:10,accumul:[3,5,10],accuraci:[3,9],achiev:[3,9,10],across:[2,4,9,10],activ:3,actual:[3,9,10],ad:5,add:[1,4,5,7,16],add_kernel:1,addit:[2,6,7,9,49],addition:10,address:[9,25],adopt:10,advanc:[2,3,9],advoc:10,affect:3,affin:10,after:3,against:[0,1,2,3,8],aggress:[9,10],agnost:[9,10],ahead:10,aim:[2,8],al:[9,10],alex:4,algebra:10,algorithm:[3,4,9,10],alia:10,all:[2,3,4,6,9,10,12,27,29,31,45,48],allclos:[2,3],allen1984:10,allen:10,alloc:[1,2,3,5,9],allow:[1,2,5,9,10],allow_tf32:23,along:[1,3,27,29,32,33,45,49],also:[1,2,3,4,5,9,10],altern:4,alwai:[10,46],amd:9,amen:10,amount:[5,9],ampl:10,an:[1,2,3,4,9,10,11,16,17,18,19,20,34,35,36,37],analog:1,analysi:[9,10],analyz:10,ancourt1991:10,ancourt:10,ani:[1,2,3,10,12,13,48],anoth:[2,10],anytim:12,apart:10,apex:5,apex_layer_norm:5,api:48,appear:48,appli:[3,4,5,9,10],applic:[4,10,13],approach:[9,10],appropri:1,approxim:2,ar:[0,1,2,3,4,9,10,11,12,14,25,31,44,46,48],arang:[1,2,3,4,5],arbitrari:3,architectur:[3,9],area:10,arg:[1,2,3,5,11,13,14,48],argument:[1,2,3,11,12,13,14,46,48],arrai:[10,47],arrang:3,art:[9,10],artifici:4,arxiv:[9,10],ask:2,aspect:10,asplo:9,assert:[1,2,3,4],assert_almost_equ:5,assum:[2,48],asynchron:[1,9],atom:[16,17,18,19,20],atomic_ca:5,atomic_xchg:5,auguin1983:9,auguin:9,auto:[2,3,10,11,12,13],autograd:5,autom:9,automat:[2,3,9,10,11],autotun:[3,10],avail:[0,4,9,10],avoid:[2,12,46],awar:9,awkward:4,axi:[1,2,3,4,5,27,29,32,33,45,48],b:[3,5,9,10],b_ptr:3,back:[1,2,3,4,5],backpropag:4,backward:5,bad:4,baghdadi2021:[9,10],baghdadi:[9,10],balanc:10,bandwidth:2,base:[4,8,9,10],basic:[1,6,10],becom:9,been:[1,9,10],befor:[3,11,12,16,17,18,19,20],begin:10,behavior:[10,12],being:[2,4],believ:10,below:[4,6,10],bench:[0,12],bench_layer_norm:5,benchmark:[0,5,49,50],benefit:[2,9,10],best:[1,9],between:[1,9],bfloat16:23,bia:5,bit:4,block:[1,2,3,4,9,10,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,34,35,36,37,38,39,40,41,42,43,44,45,46,47],block_siz:[1,2,4,5,10,12,13],block_size_k:3,block_size_m:[3,5],block_size_n:[3,5],block_start:[1,4],blue:[1,2,3,5],boil:10,bool:[46,48],both:[10,46],bound:[1,2,3,10],branch:10,broad:9,broadcast:[21,25,44,46],buffer:5,build:[0,3],built:[1,10],c:[3,9,10],c_mask:3,c_ptr:3,cach:[9,10,25],cache_modifi:25,call:[1,3,10,11,14,35],callabl:[1,13,14,49],can:[0,1,2,3,4,9,10,12,50],cannot:[3,9,10],capabl:[8,9],cast:5,cd:[0,6],cdiv:[1,3,4,5],ceil:13,certain:13,cgo:[9,10],challeng:4,chang:[3,4,12,25],chapter:8,characterist:10,cheap:9,check:[3,8],checkpoint:4,chen2018:9,chen:9,chip:2,choic:8,click:[1,2,3,4,5],clone:[0,5],close:10,cmake:0,cmp:[16,17,18,19,20],coalesc:9,code:[1,2,3,4,5,6,9,10],col:[3,5,10],col_offset:2,color:48,column:[2,3],com:[0,5],combin:9,come:[2,3,10],command:0,common:10,commonli:10,compar:[2,3,4,5,8,10,16,17,18,19,20],compat:23,compil:[2,3,8,9,11,14,31],complet:10,complex:10,compos:[4,9],composit:10,comprehens:[9,10],comput:[4,5,8,9,10,13,22,24,26,28,30,40,41,42,43],computation:[9,10],concern:10,concis:[1,48],condit:[10,46],config:[3,12],configur:[3,11,12,50],confirm:2,connectom:9,consecut:10,consequ:9,consid:2,consist:4,constexpr:[1,2,3,4,5,34,35,36,37],constraint:[3,10],construct:9,constructor:48,consum:3,contain:[10,16,17,18,19,20,48],contextu:10,contigu:[3,15,38],control:[9,10],conveni:3,convert:[1,3,14],convolut:9,cooper:11,copi:[4,9,16,17,18,19,20],core:[9,10,34,35,36,37],correct:1,correspond:[1,2,3,48],cosin:22,cost:10,could:[2,10],count:5,cours:9,cpython:0,creat:[1,2,3,5,9],crucial:4,csv:1,ctx:5,cubla:[3,9],cuda:[1,2,3,4,5,9],cudnn:9,current:33,custom:[1,2,3,8],cut:3,cvpr:9,d:[2,4,12,14],dart:10,darte1999:10,data:[1,3,4,5,9,10,16,17,18,19,20,25,46,47],data_ptr:14,dataflow:10,david:4,db:5,db_ref:5,db_tri:5,deal:4,decad:9,decim:5,declar:1,decompos:10,decor:[1,3,12,13,14],decreas:4,dedic:3,deep:[3,4,9,10],def:[1,2,3,4,5,12,13],defin:[1,2,3,10,25],definit:10,denomin:2,denot:1,dens:10,depend:[0,6,10,46],deploi:9,describ:[4,10],design:10,desir:[21,39],detail:[3,10],detect:9,develop:[9,10],devic:[1,2,3,5],dg:5,dialect:10,dict:[12,13],dictionari:[11,13],diesel:10,differ:[1,2,3,4,9,10,12,48],difficult:10,difficulti:[3,9],dijkstra82:10,dijkstra:10,dim:[2,5,10],dimens:[3,23,27,29,45],dimension:[3,10,23],dir:0,direct:3,disjoint:10,disk:1,dissert:10,distribut:[2,4,10],divis:3,dnn:[8,9,10],do_bench:[1,2,3,5],doc:4,doe:[1,2,3,10],doesn:[5,10],domain:[9,10],don:[1,2,3],done:[3,9,27,29,45],dot:3,doubli:3,doubt:10,down:[3,10],download:[0,1,2,3,4,5,6],dram:[1,2],dropout:[6,7],dror:4,dsl:[8,9,10],dtype:[1,2,3,5,16,17,18,19,20,25,44,47],dw:5,dw_ref:5,dw_tri:5,dx:5,dx_ref:5,dx_tri:5,dy:5,e:[0,2,3,4,6,9,10,47],each:[1,2,3,4,5,9,10,11,13],earli:12,early_config_prun:12,eas:10,easi:[3,4],easier:[1,2,9],easili:3,ed:[1,3],education:2,effect:10,effici:[3,4,9,36],effort:10,eg:12,either:[1,32,33,46],elango2018:10,elango:10,element:[1,2,3,4,5,22,24,26,27,28,29,30,40,41,42,43,44,45,46,48],element_s:[2,5],element_ti:[16,17,18,19,20,25,44],elementwis:[2,25],els:[3,5],emerg:9,empti:[3,5],empty_lik:[1,2,4,5],enabl:10,encod:10,encourag:4,end:[9,10,15],enforc:10,engin:10,enqueu:[1,2,5],ensur:10,entir:10,entri:36,environ:8,ep:5,equal:10,error:3,especi:9,et:[4,9,10],euromicro:9,evalu:[3,4,12,46],even:[4,10],eviction_polici:25,evidenc:9,evolv:9,exampl:[1,2,3,4,5,6,9,10,11],except:5,exchang:20,execut:[7,9,10,11,50],exist:[9,10],exp:2,expect:[2,16,17,18,19,20],expens:[9,10,13],explor:[4,9],exponenti:[2,24],express:[9,10],extend:[3,4],extra:1,extras_requir:5,extrem:10,f:[1,2,3,10],facilit:[9,10],fact:10,fairli:3,fals:[5,25,42,44,46,48,49],far:2,fast:[2,5,9,10],faster:[2,35],fastest:10,featur:5,feel:3,fetch:9,few:10,field:[9,12],figur:10,file:[1,2,3,7],fill:47,final_db:5,final_dw:5,fine:4,first:[1,3,4,5,8,10,23,28,30],first_pid_m:3,firstli:4,fit:2,fix:48,flag:2,flatten:38,flexibl:9,float16:[3,5,23,47],float32:[1,2,3,4,5,23,34,37],flow:[9,10],fly:4,fn:[14,49],focu:[3,10],folder:4,follow:[0,2,3,8,9,10],footprint:4,forc:4,forget:1,formal:10,format:10,forward:5,found:[16,17,18,19,20],foundat:10,four:36,fp16:3,fp32:3,frac:4,framework:[9,10],free:3,from:[1,2,3,4,9,10,25,46],full:[1,2,3,4,5],fulli:10,func:10,fundament:10,further:[4,10],fuse:[3,5,6,7],fusedlayernorm:5,fusion:[2,10],g:[3,4,9,10,47],galleri:[1,2,3,4,5,6],gb:[1,2,5],gbp:[1,2,5],gener:[1,2,3,4,5,6,9,10,34,35,36,37,48],geoffrei:4,geq:10,get:[1,2,3,4,7],girbal2006:10,girbal:10,git:0,github:[0,5],give:9,given:[2,3,4,21,32,33,34,35,36,37,39,47],global:10,go:[1,3,10],good:[1,10],gpgpu:9,gpu:[1,2,4,8,9,10,11,14],grad:5,grad_to_non:[5,49],gradient:[5,49],grammat:10,graphic:9,greater:2,green:[1,2,3,5],grid:[1,2,3,4,5,32,33],grid_m:3,grid_n:3,grosser2012:10,grosser:10,group:3,group_id:3,group_m:3,group_size_m:[3,5],grow:10,guard:[1,2],guid:9,ha:[1,3,4,9,10,32,33],had:1,halid:[9,10],hand:10,handl:[1,2,4,10],handwritten:9,hard:3,harder:10,hardwar:[3,8,10],has_apex:5,hasn:1,have:[2,4,9,10,14,23,46,48],heavi:9,helper:[1,2],henc:3,here:[1,2,3,4,5],heurist:[2,5],hierarch:9,hierarchi:10,high:[3,9,10],higher:3,highli:9,highlight:10,hint:10,hinton:4,hit:3,how:[1,2,3,8,9,13],howev:[2,10],html:4,http:[0,4,5],i:[1,2,3,4,5,9,10],id:[3,33],idea:9,ideal:2,ident:2,identifi:1,idx:[25,44],ieee_round:42,ilya:4,imag:[9,10],implement:[1,2,3,4,9,10],implicitli:[1,14,25,44],importantli:10,impos:10,improv:[3,4],incompat:[3,10],incorrect:3,increas:[1,2,3,4],incred:9,increment:10,inde:10,independ:[2,5,10],index:1,indic:[10,46],induc:10,industri:9,inequ:10,inf:2,inform:10,infrastructur:10,initi:[1,3],inner:[3,23],inplac:3,input:[1,2,3,4,5,10,12,13,21,22,23,24,26,27,28,29,30,31,38,39,40,41,42,43,45],input_ptr:2,input_row_strid:2,instal:[6,8],instanc:[1,2,3,4,5,9,11,32,33],instanti:4,instead:[2,46],instruct:[8,9],int1:[25,44],int32:[4,5,35,36],integ:10,interchang:10,interest:[5,9,10],intermedi:10,intern:[2,10],interv:15,intrins:10,introduc:4,introduct:8,invari:[2,10],invoc:4,ipynb:[1,2,3,4,5],ir:10,irregular:[2,10],is_contigu:[3,4],is_cuda:1,isn:3,issu:[9,10],iter:[3,9,10],its:[1,2,3,10,12],j:[3,9,10],jit:[1,2,3,4,5,12,13],jmlr:4,john:4,johnson:4,journal:10,jrk2013:9,jupyt:[1,2,3,4,5,6],just:[3,10,13],k:[3,4,9,10],kb:9,keep:4,kei:[3,9,12],kellei:9,kernel:[4,5,8,9,11,12,13],keyword:[1,11],ki:10,kind:2,know:31,known:10,krizhevski:4,kwarg:[11,14],l2:5,label:[1,2,3,48],lam1991:9,lam:9,lambda:[1,2,3,4,5,13],languag:[1,2,3,4,5,8,9,14],larg:[9,10],last:3,later:[2,10],latest:0,lattner2004:10,lattner2019:10,lattner:10,launch:[1,2,3,32,33],law:10,layer:[6,7,9,10],layer_norm:5,layernorm:5,lead:[4,9,10],leaky_relu:3,leakyrelu:3,learn:[1,2,3,4,8,9,10],least:10,lee2017:9,lee:9,left:10,legal:10,length:1,less:[4,5,9,10],let:[1,2,4,31],letter:10,level:[3,9,10],li:9,librari:[0,3,9,10],lifelong:10,like:[1,4,9,10,35],limit:[2,4],lindenstrauss:4,line:[1,2,3,4,10,48],line_arg:[1,2,3,5,48],line_nam:[1,2,3,5,48],line_v:[1,2,3,5,48],linear:[9,10],link:0,list:[1,3,12,13,48,49,50],litteratur:10,ll:4,llvm11:0,llvm:[0,10],load:[1,2,3,4,5,10,46],local:[9,10],locat:[3,16,17,18,19,20,25,44],lock:5,lock_id:5,log2:13,log:48,logarithm:[1,26],look:[4,8,9],loop:[3,10,11],low:[6,7,10],m:[0,2,3,5,9],machin:[9,10],machineri:[9,10],made:9,mai:[2,10,13],main:[3,9,10],maintain:[2,10],major:[3,10],make:[1,2,9,10],manag:[4,9],mani:[9,10],manual:[2,10],manual_se:[1,2,3],map:3,mapl:10,mark:[4,50],markedli:9,mask:[1,2,3,4,5,16,18,19,20,25,44,46],match:[3,16,17,18,19,20],math:13,mathbb:10,mathbf:10,mathcal:[10,37],mathemat:10,matmul:[3,10],matmul_kernel:3,matric:[2,3],matrix:[2,4,6,7,9,10,11,23],matrix_s:10,matter:[3,9,10],max:[1,2,5,18],max_fused_s:5,max_m:[1,2,3,5],maxim:[8,10,36],maximum:[1,2,27],mb:[7,9],mean1:5,mean2:5,mean:[3,5,10,12],mechan:[2,10],median:49,memori:[1,2,3,6,7,9,10,16,17,18,19,20,25,44,46],mention:3,meta:[1,2,3,4,5,11,12,13],metaparamet:1,method:[10,11,14,48,50],methodolog:10,micro:9,min:[3,5,19],min_m:[1,2,3,5],minimum:29,minut:[1,2,3,4,5],miss:10,mitig:10,ml:9,mlir:10,mn:2,mode:5,model:[1,9,10,12],modern:[3,8,9,10],modular:10,modulenotfounderror:5,moor:10,mora:4,more:[2,3,4,8,9,10,48],most:[3,10],mostli:11,move:3,movement:4,ms:[1,2,3,5,49],much:[2,3],mullapudi2016:10,mullapudi:10,multi:[3,9,10],multipl:[1,4,6,7,9,10,11,12,31,35],multipli:[3,4,5,10,23],must:[2,3,15,23,46],n:[2,3,5,9,37],n_col:2,n_element:[1,4],n_round:[34,35,36,37],n_row:2,naiv:[2,4],naive_softmax:2,name:[1,2,3,12,13,48],nativ:[1,2,3],natur:[2,9,26],nb:9,necessari:2,need:[1,2,3,4,35],nelement:2,nest:[3,10],net:10,network:[4,9,10],neural:[4,9,10],neurosci:9,never:4,next:[2,3],next_power_of_2:[2,5],nightli:0,nip:9,nitish:4,nn:[3,5],non:9,none:[2,3,5,11,12,16,18,19,20,25,44,48,49],nonzero:46,norm:[4,5,7],normal:[2,6,7],normalized_shap:5,note:[0,1,2,3,4,10,12,14,46],notebook:[1,2,3,4,5,6],notic:[2,10],notori:[3,9],novel:9,now:[1,3],num_pid_in_group:3,num_pid_m:3,num_pid_n:3,num_stag:[3,11,12],num_warp:[2,3,5,11,12],number:[1,2,3,4,5,10,11,12,32,34,35,36,37],numel:[1,4,5],numer:[2,9],nvidia:[5,9,25],o:[2,4],object:[1,3,9,11,12,14,16,17,18,19,20],obtain:1,obvious:2,occur:10,off:5,offer:9,offici:0,offs_am:3,offs_bn:3,offs_cm:3,offs_cn:3,offs_k:3,offset:[1,4,5,34,35,36,37],often:3,omega:10,onc:[2,9,10],one:[2,3,4,5,6,9,10,48],onli:[2,3,4,9,10,14],op:[1,2],open:15,openai:0,opencl:9,oper:[1,2,3,4,6,9,16,17,18,19,20,46],opportun:9,opsila:9,optim:[9,10],option:[3,12,25,44,48,49],orang:5,order:[2,3,6,10],org:4,origin:10,osdi:9,other:[2,3,4,5,8,10,14,23,25,28,30],otherwis:[4,46],our:[1,2,3,9],out:[1,2,3,4,5,8,10],outlin:10,output2:4,output3:4,output:[1,2,3,4,5],output_ptr:[1,2,4],output_row_start_ptr:2,output_row_strid:2,output_torch:1,output_triton:1,over:[2,4,9,10],overfit:4,overflow:2,own:3,p:[4,10],pa:3,packag:14,pact:10,pad:2,par:3,paradigm:[9,10],paragraph:4,parallel:[1,2,3,4,5,8,9,10,11],paralleliz:9,param:13,paramet:[1,3,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50],parametr:9,part:[3,4,10],partial:5,partial_db:5,partial_dw:5,particular:[2,3],particularli:[9,10],partit:9,pass:[1,5,10,11],past:[9,10],path:1,pattern:9,pb:3,peak:10,per:[2,4,5],percentil:49,perf:3,perf_model:12,perf_report:[1,2,3,5,48],perform:[1,2,4,9,10,12,16,17,18,19,20,49],persist:4,person:10,perspect:10,phase:10,philosophi:10,philox:[4,36],pid:[1,3,4,5],pid_m:3,pid_n:3,pip:[0,6],pipelin:[9,10,11],platform:[8,10],pldi:9,plot:[0,1,2,3,48],plot_nam:[1,2,3,5,48],pmatrix:10,point:[1,10,36],pointer:[1,2,4,5,14,16,17,18,19,20,25,44],pointerdtyp:[16,17,18,19,20,25,44],polli:10,polyhedr:9,polyhedra:10,popular:10,portabl:[9,10],pose:9,posit:[5,13],possibl:[1,2,3,10,11],power:[2,4,10,13,15],ppopp:10,practic:[1,2,3,9],pragma:9,pre:[0,9],pre_hook:11,prealloc:1,predic:12,predict:10,prefer:2,premis:9,present:0,preserv:10,preserve_rng_st:4,prevent:[4,10],primer:10,primit:[9,14],principl:10,print:[1,3,4],print_data:[1,2,3,5],prng:4,probabl:[4,10],problem:1,problemat:10,procedur:10,process:[1,5,9,10],processor:9,produc:[3,4],product:[8,10,23],program:[1,2,3,4,5,8,9,32,33],program_id:[1,2,3,4,5],programm:[9,10],prohibitev:13,project:[4,9],promot:[3,10],properli:2,properti:10,propos:9,proprietari:3,provid:[1,2,3,4,5,8,10,12,27,29,45,49],prune:[4,12],prune_configs_bi:12,pseudo:[3,4,36],pseudorandom:4,ptr:3,ptx:25,purpos:[9,10],push:10,put:4,py:[0,1,2,3,4,5,7],pypi:[0,5],pytest:0,python:[1,2,3,4,5,6,14],pytorch:[1,2,4],qquad:10,r:2,ragan:9,rais:5,rand:[1,4,5],randint4x:35,randn:[2,3,4,5],randn_lik:5,random:[4,34,35,36,37],randomli:4,rang:[1,2,3,5,9,10],rapidli:[9,10],rate:3,rather:9,raw:1,rdom:10,re:[1,3],read:[2,3,6],reader:10,real:9,reason:10,recent:9,recommend:6,recomput:[4,9],record_clock:49,rectifi:9,redmon2016:9,redmon:9,reduct:[2,5,27,29,45],refer:1,regardless:[4,46],regim:4,regrett:9,regular:[4,10],rel:[1,10],relat:8,releas:[0,5,9],reli:10,relu:3,remain:[9,48],rememb:3,reorder:10,rep:[5,49],repetit:49,repres:[2,3,10,11],requir:[2,4,10],requires_grad:5,requires_grad_:5,research:[9,10],reset:[12,49],reset_to_zero:12,reshap:5,resolut:10,resourc:9,resp:10,respect:10,restrict:10,result:[0,1,2,9,10],ret:2,retain_graph:5,retriev:10,reus:3,revisit:9,right:10,rise:10,role:10,ron:4,root:43,roughli:3,row:[2,3,4,5],row_idx:2,row_minus_max:2,row_start_ptr:2,rstd:5,run:[0,1,2,3,4,5,8,10,12,14,50],runtim:[10,49],runtimeerror:5,ruslan:4,rvar:10,s:[1,2,4,5,10,36],said:10,salakhutdinov:4,salmon2011:4,salmon:4,same:[4,9,48],sato2019:10,sato:10,save:[1,2,3],save_for_backward:5,save_path:[1,5],saved_tensor:5,sc:10,scalabl:10,scalar:[4,9,23,34,35,36,37,47],scale:48,scan:10,schedul:9,scienc:10,scientif:10,scop:10,scope:10,script:[0,1,2,3,4,5],second:[1,2,3,4,5,10,23,28,30],secondli:4,section:[3,10],see:[1,2,3,4,10],seed:[34,35,36,37],seeded_dropout:4,seem:[1,10],select:[9,10,46],self:[11,48],semant:10,semi:10,sens:[1,9,10],separ:[5,10],sequenc:9,set:[1,4,10],setup:[0,5],sever:[9,10],shall:10,shape:[1,2,3,4,5,10,21,25,39,44,46,47],share:9,shaw:4,shift:2,should:[1,3,5,9,10,11,27,29,45,48],show_plot:[1,2,3],shown:10,side:10,sight:10,signal:9,significantli:2,sigplan:10,simd:9,simpl:[1,2,3,4],simplest:6,simpli:10,simplic:3,simplifi:4,sinc:[1,2,3],sine:41,singl:[2,4,9,35],size:[1,2,4,10],slower:[9,10],slowest:10,sm80:11,sm:10,smaller:[3,4],smallest:[2,13],snemi3d:9,so:[1,2,3,4,5,10],softmax:[4,6,7],softmax_kernel:2,softmax_output:2,softwar:11,solid:10,solut:3,solv:10,some:3,sometim:10,sourc:[1,2,3,4,5,6,10],space:[9,10],spars:[4,9,10],spatial:10,speak:3,special:9,specif:[3,9],specifi:[10,13,16,17,18,19,20,44],speed:2,sphinx:[1,2,3,4,5,6],split:10,spmd:[1,9,10],sqrt:5,squar:43,sram:[2,3,5],srivastava2014:4,srivastava:4,stabil:2,stabl:0,stage:11,stai:5,standard:10,start:[5,6,15],started_tutori:7,state:[4,9,10],statement:10,staticmethod:5,std:5,step:10,still:[1,2,3,10],stop:15,store:[1,2,3,4,5,16,17,18,19,20,46],str:[12,13,25,48],straightforward:3,strategi:[4,10],stream:[5,35],strength:9,stride:[2,3,4,5],stride_ak:3,stride_am:3,stride_bk:3,stride_bn:3,stride_cm:3,stride_cn:3,stride_xi:3,stride_xj:3,structur:[9,10],style:[1,2,3,5,48],subscript:10,substanti:9,substract:2,subtract:2,successfulli:10,suffer:10,suit:9,sum:[1,2,5],sum_db:5,sum_dw:5,superhuman:9,support:[4,5,10],sure:2,surprisingli:9,surround:10,suspicion:2,sutskev:[4,9],sutskever2014:9,swap:[16,17,18,19,20],swizzl:9,synchron:[1,9],system:[0,3,9,10],t:[1,2,3,5,10],t_:10,tabul:4,taco:10,take:[3,4,8,12,13],taken:10,target:9,techniqu:[9,10],temperatur:4,tempor:10,tend:10,tension:9,tensor:[1,2,3,4,5,9,10,12,14,49],tensorrt:9,test:[0,1,5,8],test_layer_norm:5,text:10,tflop:3,th:49,than:[2,3,5,9,10,35,48],thei:[3,9,10],them:1,themselv:3,theoret:2,therebi:10,therefor:3,theta:10,theta_:10,thi:[1,2,3,4,5,9,10,11,12,13,14,36,48],thing:[1,4],think:2,those:2,though:[9,10],thought:10,thread:[2,9,11],through:[6,10],throughout:[10,48],throughput:8,tile:10,time:[0,1,2,3,4,5,9,10,12,35,49],tiramisu:[9,10],tl:[1,2,3,4,5,47],tmp:0,tog:10,togeth:4,tolist:4,top_k:12,topic:10,torch:[1,2,3,4,5,14,49],torch_output:3,torch_relu:3,total:[1,2,3,4,5,7],tradit:[4,9,10],transform:[4,10],travers:10,trend:9,tri:[21,39],trick:2,tricki:4,trigger:[3,12],triton:[0,1,2,3,4,5,6,9,10],triton_output:3,trivial:9,tune:[2,3,10,12,13],tuner:11,tupl:[1,21,39,47],tutori:[1,2,3,4,8],tutorials_jupyt:6,tutorials_python:6,tvm:[9,10],two:[1,2,3,10,12,13,15,23],type:[13,23,25,46,47],typecast:[25,44],typic:10,u:[0,34],un:10,uncommon:10,underneath:10,understand:2,undesir:12,unfortun:[3,10],unifi:9,uniformli:4,unint:46,unit:[0,9],univers:10,unrol:10,up:2,updat:[3,10,12],us:[1,2,3,4,5,9,10,11,12,13,14,35,46,48,50],util:[1,5],v100:10,v:5,val:[16,17,18,19,20],valid:1,valu:[1,2,3,4,12,13,15,16,17,18,19,20,22,24,25,26,27,29,31,40,41,42,43,44,45,46,47,48,50],valuabl:2,variabl:[3,11],variant:9,variou:6,vasilach:[9,10],vasilache2018:[9,10],vast:10,vec:10,vector:[4,6,7,9,10],vendor:3,veri:[2,4,10],verif:10,verifi:[2,10],via:10,view:38,visibl:10,vision:9,volatil:25,vs:0,w:[5,10],w_shape:5,wa:4,wai:[2,3,4],want:[2,4,46],warmup:49,warp:[2,5,11],wast:2,wdy:5,we:[1,2,3,4,9,10],weight:5,well:[4,9,10],whatev:12,wheel:0,when:[2,3,4,9,10,11,12,14,46],where:[1,3,4,5,10,13,44],whether:[9,48],which:[1,2,3,4,5,9,10,12,27,29,45,48],whose:[1,2,3,4,10,12,25],wide:10,wise:[1,2,22,24,26,28,30,40,41,42,43,44],wish:[3,10],within:[3,14,15],without:10,wolf:10,wolfe1989:10,won:2,word:10,work:[2,4,8,9],workload:[3,11],wors:[3,9,10],would:[1,2,4],wouldn:10,wrapper:3,write:[1,2,3,4,5,6,8,10],wrote:2,x:[1,2,3,4,5,10,22,24,26,28,30,38,40,41,42,43,46,48],x_arg:5,x_keep:4,x_keep_ptr:4,x_log:[1,48],x_max:2,x_name:[1,2,3,5,48],x_ptr:[1,4,12,13],x_shape:5,x_size:[12,13],x_val:[1,2,3,5,48],xhat:5,xi:10,xii:10,xlabel:48,xmean:5,xo:10,y:[1,2,3,5,10,28,30,46,48],y_fwd:5,y_log:48,y_name:[1,2],y_ptr:1,y_ref:5,y_torch:2,y_tri:5,y_triton:2,year:10,yet:[9,10],yi:10,yield:46,yii:10,ylabel:[1,2,3,5,48],yo:10,you:[0,1,2,3,4,6,9,12,35,46],your:[0,1,8],yourself:[2,3],z:[1,2,10],zero:[3,4,5,12],zip:6},titles:["Installation","Vector Addition","Fused Softmax","Matrix Multiplication","Low-Memory Dropout","Layer Normalization","Tutorials","Computation times","Welcome to Triton\u2019s documentation!","Introduction","Related Work","triton.Config","triton.autotune","triton.heuristics","triton.jit","triton.language.arange","triton.language.atomic_add","triton.language.atomic_cas","triton.language.atomic_max","triton.language.atomic_min","triton.language.atomic_xchg","triton.language.broadcast_to","triton.language.cos","triton.language.dot","triton.language.exp","triton.language.load","triton.language.log","triton.language.max","triton.language.maximum","triton.language.min","triton.language.minimum","triton.language.multiple_of","triton.language.num_programs","triton.language.program_id","triton.language.rand","triton.language.randint","triton.language.randint4x","triton.language.randn","triton.language.ravel","triton.language.reshape","triton.language.sigmoid","triton.language.sin","triton.language.softmax","triton.language.sqrt","triton.language.store","triton.language.sum","triton.language.where","triton.language.zeros","triton.testing.Benchmark","triton.testing.do_bench","triton.testing.perf_report","triton","triton.language","triton.testing"],titleterms:{"final":3,addit:1,advantag:10,algebra:52,api:8,arang:15,arithmet:3,atom:52,atomic_add:16,atomic_ca:17,atomic_max:18,atomic_min:19,atomic_xchg:20,autotun:12,baselin:4,benchmark:[1,2,3,48],binari:0,broadcast_to:21,cach:3,challeng:9,co:22,comparison:52,compil:[10,52],comput:[1,2,3,7],config:11,creation:52,distribut:0,do_bench:49,document:8,dot:23,dropout:4,exercis:4,exp:24,from:0,further:8,fuse:2,gener:52,get:8,go:8,heurist:13,hint:52,index:52,instal:0,introduct:9,jit:14,kernel:[1,2,3],l2:3,languag:[10,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,52],layer:5,limit:10,linear:52,load:25,log:26,low:4,manipul:52,math:52,matrix:3,max:27,maximum:28,memori:[4,52],min:29,minimum:30,model:52,motiv:[2,3,9],multipl:3,multiple_of:31,normal:5,num_program:32,number:52,op:52,optim:3,packag:0,perf_report:50,perform:3,pointer:3,polyhedr:10,program:[10,52],program_id:33,python:[0,8],rand:34,randint4x:36,randint:35,randn:37,random:52,ravel:38,reduct:52,refer:[4,9,10],relat:10,represent:10,reshap:39,result:3,s:8,schedul:10,seed:4,shape:52,sigmoid:40,sin:41,softmax:[2,42],sourc:0,sqrt:43,squar:3,start:8,store:44,sum:45,test:[2,3,48,49,50,53],time:7,triton:[8,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53],tutori:6,unit:[2,3],vector:1,welcom:8,where:46,work:10,zero:47}})
\ No newline at end of file
+Search.setIndex({docnames:["getting-started/installation","getting-started/tutorials/01-vector-add","getting-started/tutorials/02-fused-softmax","getting-started/tutorials/03-matrix-multiplication","getting-started/tutorials/04-low-memory-dropout","getting-started/tutorials/05-layer-norm","getting-started/tutorials/index","getting-started/tutorials/sg_execution_times","index","programming-guide/chapter-1/introduction","programming-guide/chapter-2/related-work","python-api/generated/triton.Config","python-api/generated/triton.autotune","python-api/generated/triton.heuristics","python-api/generated/triton.jit","python-api/generated/triton.language.arange","python-api/generated/triton.language.atomic_add","python-api/generated/triton.language.atomic_cas","python-api/generated/triton.language.atomic_max","python-api/generated/triton.language.atomic_min","python-api/generated/triton.language.atomic_xchg","python-api/generated/triton.language.broadcast_to","python-api/generated/triton.language.cos","python-api/generated/triton.language.dot","python-api/generated/triton.language.exp","python-api/generated/triton.language.load","python-api/generated/triton.language.log","python-api/generated/triton.language.max","python-api/generated/triton.language.maximum","python-api/generated/triton.language.min","python-api/generated/triton.language.minimum","python-api/generated/triton.language.multiple_of","python-api/generated/triton.language.num_programs","python-api/generated/triton.language.program_id","python-api/generated/triton.language.rand","python-api/generated/triton.language.randint","python-api/generated/triton.language.randint4x","python-api/generated/triton.language.randn","python-api/generated/triton.language.ravel","python-api/generated/triton.language.reshape","python-api/generated/triton.language.sigmoid","python-api/generated/triton.language.sin","python-api/generated/triton.language.softmax","python-api/generated/triton.language.sqrt","python-api/generated/triton.language.store","python-api/generated/triton.language.sum","python-api/generated/triton.language.where","python-api/generated/triton.language.zeros","python-api/generated/triton.testing.Benchmark","python-api/generated/triton.testing.do_bench","python-api/generated/triton.testing.perf_report","python-api/triton","python-api/triton.language","python-api/triton.testing"],envversion:{"sphinx.domains.c":2,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":4,"sphinx.domains.index":1,"sphinx.domains.javascript":2,"sphinx.domains.math":2,"sphinx.domains.python":3,"sphinx.domains.rst":2,"sphinx.domains.std":2,"sphinx.ext.intersphinx":1,sphinx:56},filenames:["getting-started/installation.rst","getting-started/tutorials/01-vector-add.rst","getting-started/tutorials/02-fused-softmax.rst","getting-started/tutorials/03-matrix-multiplication.rst","getting-started/tutorials/04-low-memory-dropout.rst","getting-started/tutorials/05-layer-norm.rst","getting-started/tutorials/index.rst","getting-started/tutorials/sg_execution_times.rst","index.rst","programming-guide/chapter-1/introduction.rst","programming-guide/chapter-2/related-work.rst","python-api/generated/triton.Config.rst","python-api/generated/triton.autotune.rst","python-api/generated/triton.heuristics.rst","python-api/generated/triton.jit.rst","python-api/generated/triton.language.arange.rst","python-api/generated/triton.language.atomic_add.rst","python-api/generated/triton.language.atomic_cas.rst","python-api/generated/triton.language.atomic_max.rst","python-api/generated/triton.language.atomic_min.rst","python-api/generated/triton.language.atomic_xchg.rst","python-api/generated/triton.language.broadcast_to.rst","python-api/generated/triton.language.cos.rst","python-api/generated/triton.language.dot.rst","python-api/generated/triton.language.exp.rst","python-api/generated/triton.language.load.rst","python-api/generated/triton.language.log.rst","python-api/generated/triton.language.max.rst","python-api/generated/triton.language.maximum.rst","python-api/generated/triton.language.min.rst","python-api/generated/triton.language.minimum.rst","python-api/generated/triton.language.multiple_of.rst","python-api/generated/triton.language.num_programs.rst","python-api/generated/triton.language.program_id.rst","python-api/generated/triton.language.rand.rst","python-api/generated/triton.language.randint.rst","python-api/generated/triton.language.randint4x.rst","python-api/generated/triton.language.randn.rst","python-api/generated/triton.language.ravel.rst","python-api/generated/triton.language.reshape.rst","python-api/generated/triton.language.sigmoid.rst","python-api/generated/triton.language.sin.rst","python-api/generated/triton.language.softmax.rst","python-api/generated/triton.language.sqrt.rst","python-api/generated/triton.language.store.rst","python-api/generated/triton.language.sum.rst","python-api/generated/triton.language.where.rst","python-api/generated/triton.language.zeros.rst","python-api/generated/triton.testing.Benchmark.rst","python-api/generated/triton.testing.do_bench.rst","python-api/generated/triton.testing.perf_report.rst","python-api/triton.rst","python-api/triton.language.rst","python-api/triton.testing.rst"],objects:{"triton.Config":{__init__:[11,1,1,""]},"triton.language":{arange:[15,2,1,""],atomic_add:[16,2,1,""],atomic_cas:[17,2,1,""],atomic_max:[18,2,1,""],atomic_min:[19,2,1,""],atomic_xchg:[20,2,1,""],broadcast_to:[21,2,1,""],cos:[22,2,1,""],dot:[23,2,1,""],exp:[24,2,1,""],load:[25,2,1,""],log:[26,2,1,""],max:[27,2,1,""],maximum:[28,2,1,""],min:[29,2,1,""],minimum:[30,2,1,""],multiple_of:[31,2,1,""],num_programs:[32,2,1,""],program_id:[33,2,1,""],rand:[34,2,1,""],randint4x:[36,2,1,""],randint:[35,2,1,""],randn:[37,2,1,""],ravel:[38,2,1,""],reshape:[39,2,1,""],sigmoid:[40,2,1,""],sin:[41,2,1,""],softmax:[42,2,1,""],sqrt:[43,2,1,""],store:[44,2,1,""],sum:[45,2,1,""],where:[46,2,1,""],zeros:[47,2,1,""]},"triton.testing":{Benchmark:[48,0,1,""],do_bench:[49,2,1,""],perf_report:[50,2,1,""]},"triton.testing.Benchmark":{__init__:[48,1,1,""]},triton:{Config:[11,0,1,""],autotune:[12,2,1,""],heuristics:[13,2,1,""],jit:[14,2,1,""]}},objnames:{"0":["py","class","Python class"],"1":["py","method","Python method"],"2":["py","function","Python function"]},objtypes:{"0":"py:class","1":"py:method","2":"py:function"},terms:{"0":[1,2,3,4,5,7,9,10,32,33,34,37,47,49],"00":7,"0000":3,"000000":2,"000001":[2,5],"000002":[2,5],"004273":1,"009825":3,"01":[1,3,7],"012395":2,"015697":3,"02":[2,7],"025776":3,"028308":3,"03":[3,7],"033565":3,"033784":5,"035084":3,"036145":3,"04":[4,7],"047204":1,"05":[5,7],"050910":5,"058574":2,"06":7,"0625":3,"067963":5,"069848":5,"071098":5,"076934":5,"077383":5,"08199":4,"08452":4,"084721":1,"086412":1,"0938":3,"094291":5,"096095":3,"096096":3,"097543":2,"098894":5,"0f":10,"0s":4,"1":[1,2,3,4,5,8,10,13,32,33,34,37],"10":[1,3,4,5,34,35,36,37],"100":[2,49],"102191":3,"1024":[1,3,4,5,12],"10240":5,"102804":5,"1045":3,"1048576":1,"106434":4,"10752":5,"11":[0,1,3,5],"111783":2,"112047":5,"11264":5,"114289":5,"1152":3,"115360":3,"116885":3,"11776":5,"12":[1,3,5],"120002":3,"12160":2,"121923":3,"12288":[2,5],"123":4,"12416":2,"125224":3,"12544":2,"12672":2,"127":1,"128":[1,2,3,5,12],"1280":3,"12800":5,"129403":5,"129416":5,"13":[1,3,5,7],"131072":1,"1328":3,"13312":5,"133347":2,"134":5,"134217728":1,"13686":4,"13824":5,"138541":3,"139":1,"14":[1,3,5,7],"140799":3,"1408":3,"142831":3,"142849":2,"142862":2,"14336":5,"146863":5,"14848":5,"149375":2,"149397":4,"15":[1,3,5],"151":2,"153487":5,"1536":[3,5],"15360":5,"154":2,"15872":5,"159":5,"16":[2,3,5,10,47],"160":2,"161013":5,"161033":3,"163":2,"163546":5,"16384":1,"163950":2,"1664":3,"167004":2,"16777216":1,"168834":5,"17":[1,3,5],"171410":1,"173905":5,"17879":4,"1792":3,"18":[3,5],"180121":5,"182":5,"1823":2,"19":[1,3,5],"190":2,"190482":1,"190689":5,"191":5,"192":1,"1920":3,"197579":2,"197981":3,"198":2,"1982":10,"1983":9,"1984":10,"198715":3,"1989":10,"199":2,"1991":[9,10],"1999":10,"199992":5,"1d":[1,2,3],"1e":[1,2,3,5],"1s":4,"2":[1,2,3,4,5,8,10,11,13,32,33,49],"20":[3,5,49],"200000":1,"200001":3,"2004":10,"2006":10,"2011":4,"2012":10,"2013":9,"2014":[4,9],"2016":[9,10],"2017":9,"2018":[9,10],"2019":10,"2021":[9,10],"202731":5,"2048":[2,3,5],"205105":1,"206754":3,"207":5,"2097152":1,"21":[3,5],"212868":4,"2141":1,"214186":4,"214963":2,"2176":3,"219":1,"22":[3,5],"220":[3,5],"220472":3,"222812":2,"23":[3,5],"2304":3,"231237":5,"232":5,"24":[3,5],"242181":3,"243":5,"2432":3,"244":5,"245":[3,5],"246":5,"247896":3,"249":5,"25":[3,5,49],"251":5,"252":5,"253":5,"254":5,"254900":5,"255":5,"256":[1,2,3,5,11],"2560":[3,5],"257":5,"258":5,"26":[3,5],"260869":3,"261":5,"262144":1,"265046":2,"2656":3,"266":5,"267":5,"267711":5,"267724":5,"2688":3,"27":[2,3,5,7],"272":5,"276800":3,"277":5,"278":5,"278512":5,"279570":5,"28":[1,3,5],"280":5,"2812":3,"2816":3,"284":5,"286":5,"287":5,"288":5,"289":5,"2891":3,"29":[3,5],"290":5,"291":5,"293":5,"293429":4,"294":5,"2944":3,"2d":[3,5,23],"2m":2,"2mn":2,"3":[0,1,2,3,4,5,10],"30":3,"300208":5,"300426":3,"305878":3,"307":5,"307030":3,"3072":[3,5],"3076":1,"31":3,"310338":5,"3125":3,"314537":5,"315":5,"319":5,"32":[3,5,11],"3200":3,"320281":3,"321":5,"323369":5,"326":5,"326731":5,"327":[4,7],"32768":1,"3281":3,"33":3,"332158":5,"332184":3,"3328":3,"333321":1,"33554432":1,"336141":5,"34":3,"341":1,"341700":3,"34172":4,"3438":3,"344":5,"3456":3,"3477":3,"347810":1,"35":3,"3516":3,"3555":3,"356":5,"3584":[3,5],"36":3,"360017":2,"362445":1,"363640":5,"37":3,"3712":3,"3713":1,"371721":4,"372":5,"372393":3,"372618":3,"372800":3,"38":1,"380":5,"380335":3,"380953":3,"381335":3,"381977":5,"384":[2,3],"3840":3,"384634":5,"385":5,"385543":3,"389441":3,"39":3,"3906":3,"394084":5,"395":5,"396572":3,"3968":3,"3984":3,"3986":4,"3d":[32,33],"3mn":2,"4":[1,2,3,5,10,11,12,35],"40":3,"400001":1,"400016":1,"4023":3,"403344":4,"403347":4,"404":5,"404730":3,"405":[2,5],"4062":3,"408716":4,"409":5,"4096":[1,2,3,5],"410":5,"412":2,"414":5,"415":[2,5],"41576":4,"416461":3,"418":5,"4194304":1,"42":[1,7],"420235":3,"42142":4,"426":5,"426754":5,"427":5,"428372":4,"428568":1,"429":5,"429770":1,"430545":3,"431969":4,"433442":5,"438":5,"443":5,"443003":3,"444785":5,"446623":3,"447482":5,"4492":3,"45":3,"4531":3,"454545":1,"458":5,"4608":5,"4609":3,"468":5,"4688":3,"47":3,"472":1,"472468":5,"479779":5,"479975":5,"48":[3,7],"480705":5,"481578":5,"483477":5,"486":5,"487":5,"49":3,"4940":1,"497980":5,"4m":2,"4x":2,"5":[1,3,4,5,10,49],"500":5,"5000":3,"500614":3,"501303":5,"502":5,"507077":3,"507457":5,"51":3,"510":5,"511628":2,"512":[2,3,4,5],"5120":5,"512437":3,"515":5,"521":[3,7],"522751":3,"523365":5,"524288":1,"525614":5,"526831":3,"527":5,"53":3,"5312":3,"532":5,"532356":3,"536784":5,"54":3,"540":5,"540320":3,"541":4,"546":2,"548":5,"551":5,"562936":5,"5632":5,"563555":3,"566038":2,"568":5,"568431":4,"569620":1,"57":3,"571":[2,7],"580429":5,"583":[5,7],"584279":3,"585":2,"5859":3,"586858":4,"5898":3,"590406":5,"596744":3,"599999":5,"5mn":2,"6":[0,1,3,5],"600000":1,"6094":3,"610086":5,"614":1,"6144":5,"615390":1,"619051":5,"62":3,"625825":1,"626943":3,"63":3,"636363":1,"64":[1,3,5],"640":[2,3],"646":2,"64kb":5,"653476":5,"655":2,"65536":[1,5],"656296":5,"656574":1,"662341":5,"6656":5,"666684":2,"67":3,"67086":4,"67108864":1,"671974":5,"672296":3,"6724":1,"673582":5,"68":3,"682":2,"69":[1,3],"690139":3,"690905":5,"694729":5,"6953":3,"699797":5,"7":[0,1,3,5,10],"70":3,"702":1,"702211":5,"7031":3,"703707":2,"7070":3,"707878":4,"71":3,"712":1,"715711":3,"7168":5,"719258":4,"72":3,"722":2,"727273":1,"73":3,"730667":3,"734520":5,"736871":2,"737433":3,"739860":3,"743443":4,"743841":5,"745004":3,"748791":3,"75":3,"7500":3,"755985":2,"76":1,"768":[2,3],"7680":5,"768000":3,"768111":5,"77":3,"773130":3,"774":1,"777966":5,"78":3,"780":1,"781":2,"784810":5,"79":3,"79719":4,"799461":5,"8":[1,2,3,5,10,11,12,47,49],"80":[3,49],"800000":1,"800002":1,"806182":5,"806694":4,"808501":5,"809":1,"81":3,"810656":3,"812":1,"814":2,"817432":4,"818181":1,"8192":[1,5],"82":3,"823517":2,"829":1,"83":3,"832567":3,"833":1,"833728":3,"834951":2,"838026":4,"8388608":1,"839992":2,"84":3,"840":1,"842":1,"84284":4,"845":1,"848":1,"85":3,"850":1,"854847":2,"86":3,"87":3,"8704":5,"874902":3,"88":3,"8828":3,"884090":5,"8867":3,"8906":3,"892307":3,"8945":3,"895397":3,"896":3,"899428":3,"8mn":2,"9":[0,1,2,3,4,5],"90":3,"907859":5,"91":3,"916747":3,"917":[1,7],"919":7,"919225":5,"92":3,"9216":5,"9219":3,"929456":3,"93":[2,3],"930964":5,"932191":3,"9375":3,"939284":3,"94":2,"9492":3,"95":2,"950501":5,"952835":4,"9531":3,"96":[2,3,5],"966561":3,"9688":3,"97":[2,3],"971025":3,"971190":2,"9728":5,"9733":1,"978909":3,"98":2,"9805":3,"981596":5,"983276":3,"98432":1,"9844":3,"987724":5,"99":5,"990003":3,"999995":1,"abstract":[9,10],"break":10,"byte":2,"case":[1,2,9,10,13,16,17,18,19,20],"class":[2,5,9,10,11,48],"default":49,"do":[2,3,9,10,12,25,44],"float":[2,9,10,49],"function":[1,2,3,4,5,10,11,12,13,14,48,49,50],"import":[1,2,3,4,5,9,10],"int":[1,9,10,13,15,21,32,33,39,47,49],"new":[21,39,47],"return":[1,2,3,4,5,12,15,16,17,18,19,20,23,25,27,29,32,33,34,35,36,37,38,45,46,47,49,50],"static":[0,9,10],"super":3,"switch":3,"true":[1,2,3,5,23,46],"try":[3,5,11],"var":[5,10],"voil\u00e0":4,"while":[3,5,9],A:[3,4,9,10],And:[0,3],As:[2,3,4,9,10],At:[4,10],But:4,By:49,For:[3,9,10,11],If:[4,10,35,44,46,48],In:[1,2,3,4,10],It:[1,3,4,6,8,10,12,14],NOT:5,Of:9,On:10,One:3,The:[1,2,3,4,9,10,16,17,18,19,20,21,23,32,33,34,35,36,37,39,44,46,50],There:1,These:10,To:[1,4,6,9,10,12],_:5,__expf:2,__init__:[11,48],_db:5,_dropout:4,_dw:5,_layer_norm_bwd_dwdb:5,_layer_norm_bwd_dx_fus:5,_layer_norm_fwd_fus:5,_matmul:3,_seeded_dropout:4,a100:[3,10],a_ptr:3,ab:1,abl:10,about:[1,2,3,4,8],abov:[1,2,3,4,10,12],academ:9,acc:[3,9,10],acceler:9,access:[1,3,9,10,14],accomod:3,accordingli:10,account:10,accumul:[3,5,10],accuraci:[3,9],achiev:[3,9,10],across:[2,4,9,10],activ:3,actual:[3,9,10],ad:5,add:[1,4,5,7,16],add_kernel:1,addit:[2,6,7,9,49],addition:10,address:[9,25],adopt:10,advanc:[2,3,9],advoc:10,affect:3,affin:10,after:3,against:[0,1,2,3,8],aggress:[9,10],agnost:[9,10],ahead:10,aim:[2,8],al:[9,10],alex:4,algebra:10,algorithm:[3,4,9,10],alia:10,all:[2,3,4,6,9,10,12,27,29,31,45,48],allclos:[2,3],allen1984:10,allen:10,alloc:[1,2,3,5,9],allow:[1,2,5,9,10],allow_tf32:23,along:[1,3,27,29,32,33,45,49],also:[1,2,3,4,5,9,10],altern:4,alwai:[10,46],amd:9,amen:10,amount:[5,9],ampl:10,an:[1,2,3,4,9,10,11,16,17,18,19,20,34,35,36,37],analog:1,analysi:[9,10],analyz:10,ancourt1991:10,ancourt:10,ani:[1,2,3,10,12,13,48],anoth:[2,10],anytim:12,apart:10,apex:5,apex_layer_norm:5,api:48,appear:48,appli:[3,4,5,9,10],applic:[4,10,13],approach:[9,10],appropri:1,approxim:2,ar:[0,1,2,3,4,9,10,11,12,14,25,31,44,46,48],arang:[1,2,3,4,5],arbitrari:3,architectur:[3,9],area:10,arg:[1,2,3,5,11,13,14,48],argument:[1,2,3,11,12,13,14,46,48],arrai:[10,47],arrang:3,art:[9,10],artifici:4,arxiv:[9,10],ask:2,aspect:10,asplo:9,assert:[1,2,3,4],assert_almost_equ:5,assum:[2,48],asynchron:[1,9],atom:[16,17,18,19,20],atomic_ca:5,atomic_max:1,atomic_min:1,atomic_xchg:5,auguin1983:9,auguin:9,auto:[2,3,10,11,12,13],autograd:5,autom:9,automat:[2,3,9,10,11],autotun:[3,10],avail:[0,4,9,10],avoid:[2,12,46],awar:9,awkward:4,axi:[1,2,3,4,5,27,29,32,33,45,48],b:[3,5,9,10],b_ptr:3,back:[1,2,3,4,5],backpropag:4,backward:5,bad:4,baghdadi2021:[9,10],baghdadi:[9,10],balanc:10,bandwidth:2,base:[4,8,9,10],basic:[1,6,10],becom:9,been:[1,9,10],befor:[3,11,12,16,17,18,19,20],begin:10,behavior:[10,12],being:[2,4],believ:10,below:[4,6,10],bench:[0,12],bench_layer_norm:5,benchmark:[0,5,49,50],benefit:[2,9,10],best:[1,9],between:[1,9],bfloat16:23,bia:5,bit:4,block:[1,2,3,4,9,10,16,17,18,19,20,21,22,23,24,25,26,28,30,34,35,36,37,38,40,41,42,43,44,46],block_siz:[1,2,4,5,10,12,13],block_size_k:3,block_size_m:[3,5],block_size_n:[3,5],block_start:[1,4],blue:[1,2,3,5],boil:10,bool:[46,48],both:[10,46],bound:[1,2,3,10],branch:10,broad:9,broadcast:[21,25,44,46],buffer:5,build:[0,3],built:[1,10],c:[3,9,10],c_mask:3,c_ptr:3,cach:[9,10,25],cache_modifi:25,call:[1,3,10,11,14,35],callabl:[1,13,14,49],can:[0,1,2,3,4,9,10,12,50],cannot:[3,9,10],capabl:[8,9],cast:5,cd:[0,6],cdiv:[1,3,4,5],ceil:13,certain:13,cgo:[9,10],challeng:4,chang:[3,4,12,25],chapter:8,characterist:10,cheap:9,check:[3,8],checkpoint:4,chen2018:9,chen:9,chip:2,choic:8,click:[1,2,3,4,5],clock:1,clone:[0,5],close:10,cmake:0,cmp:[16,17,18,19,20],coalesc:9,code:[1,2,3,4,5,6,9,10],col:[3,5,10],col_offset:2,color:48,column:[2,3],com:[0,5],combin:9,come:[2,3,10],command:0,common:10,commonli:10,compar:[2,3,4,5,8,10,16,17,18,19,20],compat:23,compil:[2,3,8,9,11,14,31],complet:10,complex:10,compos:[4,9],composit:10,comprehens:[9,10],comput:[4,5,8,9,10,13,22,24,26,28,30,40,41,42,43],computation:[9,10],concern:10,concis:[1,48],condit:[10,46],config:[3,12],configur:[3,11,12,50],confirm:2,connectom:9,consecut:10,consequ:9,consid:2,consist:4,constexpr:[1,2,3,4,5,34,35,36,37,42],constraint:[3,10],construct:9,constructor:48,consum:3,contain:[10,16,17,18,19,20,48],contextu:10,contigu:[3,15,38],control:[9,10],conveni:3,convert:[1,3,14],convolut:9,cooper:11,copi:[4,9,16,17,18,19,20],core:[9,10,34,35,36,37,42],correct:1,correspond:[1,2,3,48],cosin:22,cost:10,could:[2,10],count:5,cours:9,cpython:0,creat:[1,2,3,5,9],crucial:4,csv:1,ctx:5,cubla:[3,9],cuda:[1,2,3,4,5,9],cudnn:9,current:33,custom:[1,2,3,8],cut:3,cvpr:9,d:[2,4,12,14],dart:10,darte1999:10,data:[1,3,4,5,9,10,16,17,18,19,20,25,46,47],data_ptr:14,dataflow:10,david:4,db:5,db_ref:5,db_tri:5,deal:4,decad:9,decim:5,declar:1,decompos:10,decor:[1,3,12,13,14],decreas:4,dedic:3,deep:[3,4,9,10],def:[1,2,3,4,5,12,13],defin:[1,2,3,10,25],definit:10,denomin:2,denot:1,dens:10,depend:[0,6,10,46],deploi:9,describ:[4,10],design:10,desir:[21,39],detail:[3,10],detect:9,develop:[9,10],devic:[1,2,3,5],dg:5,dialect:10,dict:[12,13],dictionari:[11,13],diesel:10,differ:[1,2,3,4,9,10,12,48],difficult:10,difficulti:[3,9],dijkstra82:10,dijkstra:10,dim:[2,5,10],dimens:[3,23,27,29,45],dimension:[3,10,23],dir:0,direct:3,disjoint:10,disk:1,dissert:10,distribut:[2,4,10],divis:3,dnn:[8,9,10],do_bench:[1,2,3,5],doc:4,doe:[1,2,3,10],doesn:[5,10],domain:[9,10],don:[1,2,3],done:[3,9,27,29,45],dot:3,doubli:3,doubt:10,down:[3,10],download:[0,1,2,3,4,5,6],dram:[1,2],dropout:[6,7],dror:4,dsl:[8,9,10],dtype:[1,2,3,5,16,17,18,19,20,25,44,47],dw:5,dw_ref:5,dw_tri:5,dx:5,dx_ref:5,dx_tri:5,dy:5,e:[0,2,3,4,6,9,10,47],each:[1,2,3,4,5,9,10,11,13],earli:12,early_config_prun:12,eas:10,easi:[3,4],easier:[1,2,9],easili:3,ed:[1,3],education:2,effect:10,effici:[3,4,9,36],effort:10,eg:12,either:[1,32,33,46],elango2018:10,elango:10,element:[1,2,3,4,5,22,24,26,27,28,29,30,40,41,42,43,44,45,46,48],element_s:[2,5],element_ti:[16,17,18,19,20,25,44],elementwis:[2,25],els:[3,5],emerg:9,empti:[3,5],empty_lik:[1,2,4,5],enabl:10,encod:10,encourag:4,end:[9,10,15],enforc:10,engin:10,enqueu:[1,2,5],ensur:10,entir:10,entri:36,environ:8,ep:5,equal:10,error:3,especi:9,et:[4,9,10],euromicro:9,evalu:[3,4,12,46],even:[4,10],eviction_polici:25,evidenc:9,evolv:9,exampl:[1,2,3,4,5,6,9,10,11],except:5,exchang:20,execut:[7,9,10,11,50],exist:[9,10],exp:2,expect:[2,16,17,18,19,20],expens:[9,10,13],explor:[4,9],exponenti:[2,24],express:[9,10],extend:[3,4],extra:1,extras_requir:5,extrem:10,f:[1,2,3,10],facilit:[9,10],fact:10,fairli:3,fals:[5,25,42,44,46,48,49],far:2,fast:[2,5,9,10],faster:[2,35],fastest:10,featur:5,feel:3,fetch:9,few:10,field:[9,12],figur:10,file:[1,2,3,7],fill:47,final_db:5,final_dw:5,fine:4,first:[1,3,4,5,8,10,23,28,30],first_pid_m:3,firstli:4,fit:2,fix:48,flag:2,flatten:38,flexibl:9,float16:[3,5,23,47],float32:[1,2,3,4,5,23,34,37],flow:[9,10],fly:4,fn:[14,49],focu:[3,10],folder:4,follow:[0,2,3,8,9,10],footprint:4,forc:4,forget:1,formal:10,format:10,forward:5,found:[16,17,18,19,20],foundat:10,four:36,fp16:3,fp32:3,frac:4,framework:[9,10],free:3,from:[1,2,3,4,9,10,25,46],full:[1,2,3,4,5],fulli:10,func:10,fundament:10,further:[4,10],fuse:[3,5,6,7],fusedlayernorm:5,fusion:[2,10],g:[3,4,9,10,47],galleri:[1,2,3,4,5,6],gb:[1,2,5],gbp:[1,2,5],gener:[1,2,3,4,5,6,9,10,34,35,36,37,48],geoffrei:4,geq:10,get:[1,2,3,4,7],girbal2006:10,girbal:10,git:0,github:[0,5],give:9,given:[2,3,4,21,32,33,34,35,36,37,39,47],global:10,go:[1,3,10],good:[1,10],gpgpu:9,gpu:[1,2,4,8,9,10,11,14],grad:5,grad_to_non:[5,49],gradient:[5,49],grammat:10,graphic:9,greater:2,green:[1,2,3,5],grid:[1,2,3,4,5,32,33],grid_m:3,grid_n:3,grosser2012:10,grosser:10,group:3,group_id:3,group_m:3,group_size_m:[3,5],grow:10,guard:[1,2],guid:9,ha:[1,3,4,9,10,32,33],had:1,halid:[9,10],hand:10,handl:[1,2,4,10],handwritten:9,hard:3,harder:10,hardwar:[3,8,10],has_apex:5,hasn:1,have:[2,4,9,10,14,23,46,48],heavi:9,helper:[1,2],henc:3,here:[1,2,3,4,5],heurist:[2,5],hierarch:9,hierarchi:10,high:[3,9,10],higher:3,highli:9,highlight:10,hint:10,hinton:4,hit:3,how:[1,2,3,8,9,13],howev:[2,10],html:4,http:[0,4,5],i:[1,2,3,4,5,9,10],id:[3,33],idea:9,ideal:2,ident:2,identifi:1,idx:[25,44],ieee_round:42,ilya:4,imag:[9,10],implement:[1,2,3,4,9,10],implicitli:[1,14,25,44],importantli:10,impos:10,improv:[3,4],incompat:[3,10],incorrect:3,increas:[1,2,3,4],incred:9,increment:10,inde:10,independ:[2,5,10],index:1,indic:[10,46],induc:10,industri:9,inequ:10,inf:2,inform:10,infrastructur:10,initi:[1,3],inner:[3,23],inplac:3,input:[1,2,3,4,5,10,12,13,21,22,23,24,26,27,28,29,30,31,38,39,40,41,42,43,45],input_ptr:2,input_row_strid:2,instal:[6,8],instanc:[1,2,3,4,5,9,11,32,33],instanti:4,instead:[2,46],instruct:[8,9],int1:[25,44],int32:[4,5,35,36],int64:1,integ:10,interchang:10,interest:[5,9,10],intermedi:10,intern:[2,10],interv:15,intrins:10,introduc:4,introduct:8,invari:[2,10],invoc:4,ipynb:[1,2,3,4,5],ir:10,irregular:[2,10],is_contigu:[3,4],is_cuda:1,isn:3,issu:[9,10],iter:[3,9,10],its:[1,2,3,10,12],j:[3,9,10],jit:[1,2,3,4,5,12,13],jmlr:4,john:4,johnson:4,journal:10,jrk2013:9,jupyt:[1,2,3,4,5,6],just:[3,10,13],k:[3,4,9,10],kb:9,keep:4,kei:[3,9,12],kellei:9,kernel:[4,5,8,9,11,12,13],keyword:[1,11],ki:10,kind:2,know:31,known:10,krizhevski:4,kwarg:[11,14],l2:5,label:[1,2,3,48],lam1991:9,lam:9,lambda:[1,2,3,4,5,13],languag:[1,2,3,4,5,8,9,14],larg:[9,10],last:3,later:[2,10],latest:0,lattner2004:10,lattner2019:10,lattner:10,launch:[1,2,3,32,33],law:10,layer:[6,7,9,10],layer_norm:5,layernorm:5,lead:[4,9,10],leaky_relu:3,leakyrelu:3,learn:[1,2,3,4,8,9,10],least:10,lee2017:9,lee:9,left:10,legal:10,length:1,less:[4,5,9,10],let:[1,2,4,31],letter:10,level:[3,9,10],li:9,librari:[0,3,9,10],lifelong:10,like:[1,4,9,10,35],limit:[2,4],lindenstrauss:4,line:[1,2,3,4,10,48],line_arg:[1,2,3,5,48],line_nam:[1,2,3,5,48],line_v:[1,2,3,5,48],linear:[9,10],link:0,list:[1,3,12,13,48,49,50],litteratur:10,ll:4,llvm11:0,llvm:[0,10],load:[1,2,3,4,5,10,46],local:[9,10],locat:[3,16,17,18,19,20,25,44],lock:5,lock_id:5,log2:13,log:48,logarithm:[1,26],look:[4,8,9],loop:[3,10,11],low:[6,7,10],m:[0,2,3,5,9],machin:[9,10],machineri:[9,10],made:9,mai:[2,10,13],main:[3,9,10],maintain:[2,10],major:[3,10],make:[1,2,9,10],manag:[4,9],mani:[9,10],manual:[2,10],manual_se:[1,2,3],map:3,mapl:10,mark:[4,50],markedli:9,mask:[1,2,3,4,5,16,18,19,20,25,44,46],match:[3,16,17,18,19,20],math:13,mathbb:10,mathbf:10,mathcal:[10,37],mathemat:10,matmul:[3,10],matmul_kernel:3,matric:[2,3],matrix:[2,4,6,7,9,10,11,23],matrix_s:10,matter:[3,9,10],max:[1,2,5,18],max_fused_s:5,max_m:[1,2,3,5],maxim:[8,10,36],maximum:[1,2,27],mb:[7,9],mean1:5,mean2:5,mean:[3,5,10,12],mechan:[2,10],median:49,memori:[1,2,3,6,7,9,10,16,17,18,19,20,25,44,46],mention:3,meta:[1,2,3,4,5,11,12,13],metaparamet:1,method:[10,11,14,48,50],methodolog:10,micro:9,min:[3,5,19],min_m:[1,2,3,5],minimum:29,minut:[1,2,3,4,5],miss:10,mitig:10,ml:9,mlir:10,mn:2,mode:5,model:[1,9,10,12],modern:[3,8,9,10],modular:10,modulenotfounderror:5,moor:10,mora:4,more:[2,3,4,8,9,10,48],most:[3,10],mostli:11,move:3,movement:4,ms:[1,2,3,5,49],much:[2,3],mullapudi2016:10,mullapudi:10,multi:[3,9,10],multipl:[1,4,6,7,9,10,11,12,31,35],multipli:[3,4,5,10,23],must:[2,3,15,23,46],n:[2,3,5,9,37],n_col:2,n_element:[1,4],n_round:[34,35,36,37],n_row:2,naiv:[2,4],naive_softmax:2,name:[1,2,3,12,13,48],nativ:[1,2,3],natur:[2,9,26],nb:9,necessari:2,need:[1,2,3,4,35],nelement:2,nest:[3,10],net:10,network:[4,9,10],neural:[4,9,10],neurosci:9,never:4,next:[2,3],next_power_of_2:[2,5],nightli:0,nip:9,nitish:4,nn:[3,5],non:9,none:[2,3,5,11,12,16,18,19,20,25,44,48,49],nonzero:46,norm:[4,5,7],normal:[2,6,7],normalized_shap:5,note:[0,1,2,3,4,10,12,14,46],notebook:[1,2,3,4,5,6],notic:[2,10],notori:[3,9],novel:9,now:[1,3],num_pid_in_group:3,num_pid_m:3,num_pid_n:3,num_stag:[3,11,12],num_warp:[2,3,5,11,12],number:[1,2,3,4,5,10,11,12,32,34,35,36,37],numel:[1,4,5],numer:[2,9],nvidia:[5,9,25],o:[2,4],object:[1,3,9,11,12,14,16,17,18,19,20],obtain:1,obvious:2,occur:10,off:5,offer:9,offici:0,offs_am:3,offs_bn:3,offs_cm:3,offs_cn:3,offs_k:3,offset:[1,4,5,34,35,36,37],often:3,omega:10,onc:[2,9,10],one:[2,3,4,5,6,9,10,48],onli:[2,3,4,9,10,14],op:[1,2],open:15,openai:0,opencl:9,oper:[1,2,3,4,6,9,16,17,18,19,20,46],opportun:9,opsila:9,optim:[9,10],option:[3,12,25,44,48,49],orang:5,order:[2,3,6,10],org:4,origin:10,osdi:9,other:[2,3,4,5,8,10,14,23,25,28,30],otherwis:[4,46],our:[1,2,3,9],out:[1,2,3,4,5,8,10],outlin:10,output2:4,output3:4,output:[1,2,3,4,5],output_ptr:[1,2,4],output_row_start_ptr:2,output_row_strid:2,output_torch:1,output_triton:1,over:[2,4,9,10],overfit:4,overflow:2,own:3,p:[4,10],pa:3,packag:14,pact:10,pad:2,par:3,paradigm:[9,10],paragraph:4,parallel:[1,2,3,4,5,8,9,10,11],paralleliz:9,param:13,paramet:[1,3,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50],parametr:9,part:[3,4,10],partial:5,partial_db:5,partial_dw:5,particular:[2,3],particularli:[9,10],partit:9,pass:[1,5,10,11],past:[9,10],path:1,pattern:9,pb:3,peak:10,per:[2,4,5],percentil:49,perf:3,perf_model:12,perf_report:[1,2,3,5,48],perform:[1,2,4,9,10,12,16,17,18,19,20,49],persist:4,person:10,perspect:10,phase:10,philosophi:10,philox:[4,36],pid:[1,3,4,5],pid_m:3,pid_n:3,pip:[0,6],pipelin:[9,10,11],platform:[8,10],pldi:9,plot:[0,1,2,3,48],plot_nam:[1,2,3,5,48],pmatrix:10,point:[1,10,36],pointer:[1,2,4,5,14,16,17,18,19,20,25,44],pointerdtyp:[16,17,18,19,20,25,44],polli:10,polyhedr:9,polyhedra:10,popular:10,portabl:[9,10],pose:9,posit:[5,13],possibl:[1,2,3,10,11],power:[2,4,10,13,15],ppopp:10,practic:[1,2,3,9],pragma:9,pre:[0,9],pre_hook:11,prealloc:1,predic:12,predict:10,prefer:2,premis:9,present:0,preserv:10,preserve_rng_st:4,prevent:[4,10],primer:10,primit:[9,14],principl:10,print:[1,3,4],print_data:[1,2,3,5],prng:4,probabl:[4,10],problem:1,problemat:10,procedur:10,process:[1,5,9,10],processor:9,produc:[3,4],product:[8,10,23],program:[1,2,3,4,5,8,9,32,33],program_id:[1,2,3,4,5],programm:[9,10],prohibitev:13,project:[4,9],promot:[3,10],properli:2,properti:10,propos:9,proprietari:3,provid:[1,2,3,4,5,8,10,12,27,29,45,49],prune:[4,12],prune_configs_bi:12,pseudo:[3,4,36],pseudorandom:4,ptr:3,ptx:25,purpos:[9,10],push:10,put:4,py:[0,1,2,3,4,5,7],pypi:[0,5],pytest:0,python:[1,2,3,4,5,6,14],pytorch:[1,2,4],qquad:10,r:2,ragan:9,rais:5,rand:[1,4,5],randint4x:35,randn:[2,3,4,5],randn_lik:5,random:[4,34,35,36,37],randomli:4,rang:[1,2,3,5,9,10],rapidli:[9,10],rate:3,rather:9,raw:1,rdom:10,re:[1,3],read:[2,3,6],reader:10,real:9,reason:10,recent:9,recommend:6,recomput:[4,9],record_clock:49,rectifi:9,redmon2016:9,redmon:9,reduct:[2,5,27,29,45],refer:1,regardless:[4,46],regim:4,regrett:9,regular:[4,10],rel:[1,10],relat:8,releas:[0,5,9],reli:10,relu:3,remain:[9,48],rememb:3,reorder:10,rep:[5,49],repetit:49,repres:[2,3,10,11],requir:[2,4,10],requires_grad:5,requires_grad_:5,research:[9,10],reset:[12,49],reset_to_zero:12,reshap:5,resolut:10,resourc:9,resp:10,respect:10,restrict:10,result:[0,1,2,9,10],ret:2,retain_graph:5,retriev:10,reus:3,revisit:9,right:10,rise:10,role:10,ron:4,root:43,roughli:3,row:[2,3,4,5],row_idx:2,row_minus_max:2,row_start_ptr:2,rstd:5,run:[0,1,2,3,4,5,8,10,12,14,50],runtim:[10,49],runtimeerror:5,ruslan:4,rvar:10,s:[1,2,4,5,10,36],said:10,salakhutdinov:4,salmon2011:4,salmon:4,same:[4,9,48],sato2019:10,sato:10,save:[1,2,3],save_for_backward:5,save_path:[1,5],saved_tensor:5,sc:10,scalabl:10,scalar:[4,9,23,34,35,36,37,47],scale:48,scan:10,schedul:9,scienc:10,scientif:10,scop:10,scope:10,script:[0,1,2,3,4,5],second:[1,2,3,4,5,10,23,28,30],secondli:4,section:[3,10],see:[1,2,3,4,10],seed:[34,35,36,37],seeded_dropout:4,seem:[1,10],select:[9,10,46],self:[11,48],semant:10,semi:10,sens:[1,9,10],separ:[5,10],sequenc:9,set:[1,4,10],setup:[0,5],sever:[9,10],shall:10,shape:[1,2,3,4,5,10,21,25,39,44,46,47],share:9,shaw:4,shift:2,should:[1,3,5,9,10,11,27,29,45,48],show_plot:[1,2,3],shown:10,side:10,sight:10,signal:9,significantli:2,sigplan:10,simd:9,simpl:[1,2,3,4],simplest:6,simpli:10,simplic:3,simplifi:4,sinc:[1,2,3],sine:41,singl:[2,4,9,35],size:[1,2,4,10],slower:[9,10],slowest:10,sm80:11,sm:10,smaller:[3,4],smallest:[2,13],snemi3d:9,so:[1,2,3,4,5,10],softmax:[4,6,7],softmax_kernel:2,softmax_output:2,softwar:11,solid:10,solut:3,solv:10,some:3,sometim:10,sourc:[1,2,3,4,5,6,10],space:[9,10],spars:[4,9,10],spatial:10,speak:3,special:9,specif:[3,9],specifi:[10,13,16,17,18,19,20,44],speed:2,sphinx:[1,2,3,4,5,6],split:10,spmd:[1,9,10],sqrt:5,squar:43,sram:[2,3,5],srivastava2014:4,srivastava:4,stabil:2,stabl:0,stage:11,stai:5,standard:10,start:[5,6,15],started_tutori:7,state:[4,9,10],statement:10,staticmethod:5,std:5,step:10,still:[1,2,3,10],stop:15,store:[1,2,3,4,5,16,17,18,19,20,46],str:[12,13,25,48],straightforward:3,strategi:[4,10],stream:[5,35],strength:9,stride:[2,3,4,5],stride_ak:3,stride_am:3,stride_bk:3,stride_bn:3,stride_cm:3,stride_cn:3,stride_xi:3,stride_xj:3,structur:[9,10],style:[1,2,3,5,48],subscript:10,substanti:9,substract:2,subtract:2,successfulli:10,suffer:10,suit:9,sum:[1,2,5],sum_db:5,sum_dw:5,superhuman:9,support:[4,5,10],sure:2,surprisingli:9,surround:10,suspicion:2,sutskev:[4,9],sutskever2014:9,swap:[16,17,18,19,20],swizzl:9,synchron:[1,9],system:[0,3,9,10],t:[1,2,3,5,10],t_:10,tabul:4,taco:10,take:[3,4,8,12,13],taken:10,target:9,techniqu:[9,10],temperatur:4,tempor:10,tend:10,tension:9,tensor:[1,2,3,4,5,9,10,12,14,21,23,25,27,28,29,30,38,39,44,45,46,47,49],tensorrt:9,test:[0,1,5,8],test_layer_norm:5,text:10,tflop:3,th:49,than:[2,3,5,9,10,35,48],thei:[3,9,10],them:1,themselv:3,theoret:2,therebi:10,therefor:3,theta:10,theta_:10,thi:[1,2,3,4,5,9,10,11,12,13,14,36,48],thing:[1,4],think:2,those:2,though:[9,10],thought:10,thread:[2,9,11],through:[6,10],throughout:[10,48],throughput:8,tile:10,time:[0,1,2,3,4,5,9,10,12,35,49],time_end:1,time_end_ptr:1,time_start:1,time_start_ptr:1,tiramisu:[9,10],tl:[1,2,3,4,5,47],tmp:0,tog:10,togeth:4,tolist:4,top_k:12,topic:10,torch:[1,2,3,4,5,14,49],torch_output:3,torch_relu:3,total:[1,2,3,4,5,7],tradit:[4,9,10],transform:[4,10],travers:10,trend:9,tri:[21,39],trick:2,tricki:4,trigger:[3,12],triton:[0,1,2,3,4,5,6,9,10],triton_output:3,trivial:9,tune:[2,3,10,12,13],tuner:11,tupl:[1,21,39,47],tutori:[1,2,3,4,8],tutorials_jupyt:6,tutorials_python:6,tvm:[9,10],two:[1,2,3,10,12,13,15,23],type:[13,23,25,46,47],typecast:[25,44],typic:10,u:[0,34],un:10,uncommon:10,underneath:10,understand:2,undesir:12,unfortun:[3,10],unifi:9,uniformli:4,unint:46,unit:[0,9],univers:10,unrol:10,up:2,updat:[3,10,12],us:[1,2,3,4,5,9,10,11,12,13,14,35,46,48,50],util:[1,5],v100:10,v:5,val:[16,17,18,19,20],valid:1,valu:[1,2,3,4,12,13,15,16,17,18,19,20,22,24,25,26,27,29,31,40,41,42,43,44,45,46,47,48,50],valuabl:2,variabl:[3,11],variant:9,variou:6,vasilach:[9,10],vasilache2018:[9,10],vast:10,vec:10,vector:[4,6,7,9,10],vendor:3,veri:[2,4,10],verif:10,verifi:[2,10],via:10,view:38,visibl:10,vision:9,volatil:25,vs:0,w:[5,10],w_shape:5,wa:4,wai:[2,3,4],want:[2,4,46],warmup:49,warp:[2,5,11],wast:2,wdy:5,we:[1,2,3,4,9,10],weight:5,well:[4,9,10],whatev:12,wheel:0,when:[2,3,4,9,10,11,12,14,46],where:[1,3,4,5,10,13,44],whether:[9,48],which:[1,2,3,4,5,9,10,12,27,29,45,48],whose:[1,2,3,4,10,12,25],wide:10,wise:[1,2,22,24,26,28,30,40,41,42,43,44],wish:[3,10],within:[3,14,15],without:10,wolf:10,wolfe1989:10,won:2,word:10,work:[2,4,8,9],workload:[3,11],wors:[3,9,10],would:[1,2,4],wouldn:10,wrapper:3,write:[1,2,3,4,5,6,8,10],wrote:2,x:[1,2,3,4,5,10,22,24,26,28,30,38,40,41,42,43,46,48],x_arg:5,x_keep:4,x_keep_ptr:4,x_log:[1,48],x_max:2,x_name:[1,2,3,5,48],x_ptr:[1,4,12,13],x_shape:5,x_size:[12,13],x_val:[1,2,3,5,48],xhat:5,xi:10,xii:10,xlabel:48,xmean:5,xo:10,y:[1,2,3,5,10,28,30,46,48],y_fwd:5,y_log:48,y_name:[1,2],y_ptr:1,y_ref:5,y_torch:2,y_tri:5,y_triton:2,year:10,yet:[9,10],yi:10,yield:46,yii:10,ylabel:[1,2,3,5,48],yo:10,you:[0,1,2,3,4,6,9,12,35,46],your:[0,1,8],yourself:[2,3],z:[1,2,10],zero:[1,3,4,5,12],zip:6},titles:["Installation","Vector Addition","Fused Softmax","Matrix Multiplication","Low-Memory Dropout","Layer Normalization","Tutorials","Computation times","Welcome to Triton\u2019s documentation!","Introduction","Related Work","triton.Config","triton.autotune","triton.heuristics","triton.jit","triton.language.arange","triton.language.atomic_add","triton.language.atomic_cas","triton.language.atomic_max","triton.language.atomic_min","triton.language.atomic_xchg","triton.language.broadcast_to","triton.language.cos","triton.language.dot","triton.language.exp","triton.language.load","triton.language.log","triton.language.max","triton.language.maximum","triton.language.min","triton.language.minimum","triton.language.multiple_of","triton.language.num_programs","triton.language.program_id","triton.language.rand","triton.language.randint","triton.language.randint4x","triton.language.randn","triton.language.ravel","triton.language.reshape","triton.language.sigmoid","triton.language.sin","triton.language.softmax","triton.language.sqrt","triton.language.store","triton.language.sum","triton.language.where","triton.language.zeros","triton.testing.Benchmark","triton.testing.do_bench","triton.testing.perf_report","triton","triton.language","triton.testing"],titleterms:{"final":3,addit:1,advantag:10,algebra:52,api:8,arang:15,arithmet:3,atom:52,atomic_add:16,atomic_ca:17,atomic_max:18,atomic_min:19,atomic_xchg:20,autotun:12,baselin:4,benchmark:[1,2,3,48],binari:0,broadcast_to:21,cach:3,challeng:9,co:22,comparison:52,compil:[10,52],comput:[1,2,3,7],config:11,creation:52,distribut:0,do_bench:49,document:8,dot:23,dropout:4,exercis:4,exp:24,from:0,further:8,fuse:2,gener:52,get:8,go:8,heurist:13,hint:52,index:52,instal:0,introduct:9,jit:14,kernel:[1,2,3],l2:3,languag:[10,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,52],layer:5,limit:10,linear:52,load:25,log:26,low:4,manipul:52,math:52,matrix:3,max:27,maximum:28,memori:[4,52],min:29,minimum:30,model:52,motiv:[2,3,9],multipl:3,multiple_of:31,normal:5,num_program:32,number:52,op:52,optim:3,packag:0,perf_report:50,perform:3,pointer:3,polyhedr:10,program:[10,52],program_id:33,python:[0,8],rand:34,randint4x:36,randint:35,randn:37,random:52,ravel:38,reduct:52,refer:[4,9,10],relat:10,represent:10,reshap:39,result:3,s:8,schedul:10,seed:4,shape:52,sigmoid:40,sin:41,softmax:[2,42],sourc:0,sqrt:43,squar:3,start:8,store:44,sum:45,test:[2,3,48,49,50,53],time:7,triton:[8,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53],tutori:6,unit:[2,3],vector:1,welcom:8,where:46,work:10,zero:47}})
\ No newline at end of file
diff --git a/v1.1.2/.buildinfo b/v1.1.2/.buildinfo
index 171ca046c..83d068f0b 100644
--- a/v1.1.2/.buildinfo
+++ b/v1.1.2/.buildinfo
@@ -1,4 +1,4 @@
 # Sphinx build info version 1
 # This file hashes the configuration used when building these files. When it is not found, a full rebuild will be done.
-config: 27fe8ebc933e4ad0f9352faba2dbdccd
+config: cad12a755c359cf8dbd8410700935254
 tags: 645f666f9bcd5a90fca523b33c5a78b7
diff --git a/v1.1.2/.doctrees/environment.pickle b/v1.1.2/.doctrees/environment.pickle
index fb4e3285b..e22f5b2d1 100644
Binary files a/v1.1.2/.doctrees/environment.pickle and b/v1.1.2/.doctrees/environment.pickle differ
diff --git a/v1.1.2/.doctrees/getting-started/installation.doctree b/v1.1.2/.doctrees/getting-started/installation.doctree
index 1fcb3f4ae..bb44abc39 100644
Binary files a/v1.1.2/.doctrees/getting-started/installation.doctree and b/v1.1.2/.doctrees/getting-started/installation.doctree differ
diff --git a/v1.1.2/.doctrees/getting-started/tutorials/01-vector-add.doctree b/v1.1.2/.doctrees/getting-started/tutorials/01-vector-add.doctree
index 0430ed641..ddb044382 100644
Binary files a/v1.1.2/.doctrees/getting-started/tutorials/01-vector-add.doctree and b/v1.1.2/.doctrees/getting-started/tutorials/01-vector-add.doctree differ
diff --git a/v1.1.2/.doctrees/getting-started/tutorials/02-fused-softmax.doctree b/v1.1.2/.doctrees/getting-started/tutorials/02-fused-softmax.doctree
index 4f694fd50..b5bf735aa 100644
Binary files a/v1.1.2/.doctrees/getting-started/tutorials/02-fused-softmax.doctree and b/v1.1.2/.doctrees/getting-started/tutorials/02-fused-softmax.doctree differ
diff --git a/v1.1.2/.doctrees/getting-started/tutorials/03-matrix-multiplication.doctree b/v1.1.2/.doctrees/getting-started/tutorials/03-matrix-multiplication.doctree
index 0f8f1ce1a..ca7634008 100644
Binary files a/v1.1.2/.doctrees/getting-started/tutorials/03-matrix-multiplication.doctree and b/v1.1.2/.doctrees/getting-started/tutorials/03-matrix-multiplication.doctree differ
diff --git a/v1.1.2/.doctrees/getting-started/tutorials/04-low-memory-dropout.doctree b/v1.1.2/.doctrees/getting-started/tutorials/04-low-memory-dropout.doctree
index 744e312e0..f407680f2 100644
Binary files a/v1.1.2/.doctrees/getting-started/tutorials/04-low-memory-dropout.doctree and b/v1.1.2/.doctrees/getting-started/tutorials/04-low-memory-dropout.doctree differ
diff --git a/v1.1.2/.doctrees/getting-started/tutorials/05-layer-norm.doctree b/v1.1.2/.doctrees/getting-started/tutorials/05-layer-norm.doctree
index 224ea0f73..e20d6948f 100644
Binary files a/v1.1.2/.doctrees/getting-started/tutorials/05-layer-norm.doctree and b/v1.1.2/.doctrees/getting-started/tutorials/05-layer-norm.doctree differ
diff --git a/v1.1.2/.doctrees/getting-started/tutorials/index.doctree b/v1.1.2/.doctrees/getting-started/tutorials/index.doctree
index 8b906779b..fb6c96865 100644
Binary files a/v1.1.2/.doctrees/getting-started/tutorials/index.doctree and b/v1.1.2/.doctrees/getting-started/tutorials/index.doctree differ
diff --git a/v1.1.2/.doctrees/getting-started/tutorials/sg_execution_times.doctree b/v1.1.2/.doctrees/getting-started/tutorials/sg_execution_times.doctree
index 5a6ff62c2..5171dfb6a 100644
Binary files a/v1.1.2/.doctrees/getting-started/tutorials/sg_execution_times.doctree and b/v1.1.2/.doctrees/getting-started/tutorials/sg_execution_times.doctree differ
diff --git a/v1.1.2/.doctrees/index.doctree b/v1.1.2/.doctrees/index.doctree
index f8de90c8a..75176c465 100644
Binary files a/v1.1.2/.doctrees/index.doctree and b/v1.1.2/.doctrees/index.doctree differ
diff --git a/v1.1.2/.doctrees/programming-guide/chapter-1/introduction.doctree b/v1.1.2/.doctrees/programming-guide/chapter-1/introduction.doctree
index 9d22876ac..73400f763 100644
Binary files a/v1.1.2/.doctrees/programming-guide/chapter-1/introduction.doctree and b/v1.1.2/.doctrees/programming-guide/chapter-1/introduction.doctree differ
diff --git a/v1.1.2/.doctrees/programming-guide/chapter-2/related-work.doctree b/v1.1.2/.doctrees/programming-guide/chapter-2/related-work.doctree
index 62e8bcc10..debb7ac95 100644
Binary files a/v1.1.2/.doctrees/programming-guide/chapter-2/related-work.doctree and b/v1.1.2/.doctrees/programming-guide/chapter-2/related-work.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.Config.doctree b/v1.1.2/.doctrees/python-api/generated/triton.Config.doctree
index 8142d7dc7..74724d505 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.Config.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.Config.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.autotune.doctree b/v1.1.2/.doctrees/python-api/generated/triton.autotune.doctree
index e5cad6f0a..8059a9be1 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.autotune.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.autotune.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.heuristics.doctree b/v1.1.2/.doctrees/python-api/generated/triton.heuristics.doctree
index 20ea7e63e..32f7d2f1f 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.heuristics.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.heuristics.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.jit.doctree b/v1.1.2/.doctrees/python-api/generated/triton.jit.doctree
index e03a33f09..1e5b072ca 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.jit.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.jit.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.arange.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.arange.doctree
index 41ae60d1d..96e66c190 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.arange.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.arange.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_add.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_add.doctree
index 291632359..12d26a290 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_add.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_add.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_cas.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_cas.doctree
index 9563f0d23..86eb460fd 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_cas.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_cas.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_max.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_max.doctree
index 07c0f3cd2..4aa5e05d3 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_max.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_max.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_min.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_min.doctree
index 229362de8..c5bebe1e5 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_min.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_min.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_xchg.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_xchg.doctree
index 2b996ee10..1de300332 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_xchg.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.atomic_xchg.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.broadcast_to.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.broadcast_to.doctree
index 354ea18dd..69a9d94ec 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.broadcast_to.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.broadcast_to.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.cos.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.cos.doctree
index 2adae023e..6b3925bcd 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.cos.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.cos.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.dot.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.dot.doctree
index 36279ad41..5c4fe15f8 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.dot.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.dot.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.exp.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.exp.doctree
index be6065311..5c965a69a 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.exp.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.exp.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.load.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.load.doctree
index 8fa1d238f..4ce0ed957 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.load.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.load.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.log.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.log.doctree
index 05e0abab0..ccd0d6142 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.log.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.log.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.max.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.max.doctree
index 9ed712e95..3ca18dc91 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.max.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.max.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.maximum.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.maximum.doctree
index efd35c4b7..8204a2ec4 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.maximum.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.maximum.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.min.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.min.doctree
index 64a199781..af33f8838 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.min.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.min.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.minimum.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.minimum.doctree
index f9e40c446..71f6e4f9e 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.minimum.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.minimum.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.multiple_of.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.multiple_of.doctree
index ef3297e34..c6d7e12c4 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.multiple_of.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.multiple_of.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.num_programs.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.num_programs.doctree
index 7b84021d4..f13805b22 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.num_programs.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.num_programs.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.program_id.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.program_id.doctree
index 9fafcf817..ce3a03285 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.program_id.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.program_id.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.rand.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.rand.doctree
index 77f4dd0bf..e0128f41f 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.rand.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.rand.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.randint.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.randint.doctree
index 9dfa19d2f..8b6f861a4 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.randint.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.randint.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.randint4x.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.randint4x.doctree
index 53fb22c8b..2a3b88141 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.randint4x.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.randint4x.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.randn.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.randn.doctree
index 0c1efeff2..3f5d89b20 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.randn.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.randn.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.ravel.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.ravel.doctree
index 185dc5493..1f86745d6 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.ravel.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.ravel.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.reshape.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.reshape.doctree
index 338b4be80..218336c54 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.reshape.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.reshape.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.sigmoid.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.sigmoid.doctree
index 18d3477b0..6cc05e854 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.sigmoid.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.sigmoid.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.sin.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.sin.doctree
index f149db3d5..f07bd5e9d 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.sin.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.sin.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.softmax.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.softmax.doctree
index 2e6004a30..4f0b2088b 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.softmax.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.softmax.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.sqrt.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.sqrt.doctree
index 7e989a0ae..cd990680d 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.sqrt.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.sqrt.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.store.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.store.doctree
index 4dc822a76..4f038cb09 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.store.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.store.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.sum.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.sum.doctree
index bb6e760e4..a3c2614a8 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.sum.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.sum.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.where.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.where.doctree
index 927eb247a..0e4deb88c 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.where.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.where.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.language.zeros.doctree b/v1.1.2/.doctrees/python-api/generated/triton.language.zeros.doctree
index 01fb8070d..14fe4584e 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.language.zeros.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.language.zeros.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.testing.Benchmark.doctree b/v1.1.2/.doctrees/python-api/generated/triton.testing.Benchmark.doctree
index 2641f96bd..6f2ee5147 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.testing.Benchmark.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.testing.Benchmark.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.testing.do_bench.doctree b/v1.1.2/.doctrees/python-api/generated/triton.testing.do_bench.doctree
index f7c20b0f1..39f9d6dad 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.testing.do_bench.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.testing.do_bench.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/generated/triton.testing.perf_report.doctree b/v1.1.2/.doctrees/python-api/generated/triton.testing.perf_report.doctree
index 21ce3e350..e57f020e9 100644
Binary files a/v1.1.2/.doctrees/python-api/generated/triton.testing.perf_report.doctree and b/v1.1.2/.doctrees/python-api/generated/triton.testing.perf_report.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/triton.doctree b/v1.1.2/.doctrees/python-api/triton.doctree
index 5a2b65062..5f82c7ec8 100644
Binary files a/v1.1.2/.doctrees/python-api/triton.doctree and b/v1.1.2/.doctrees/python-api/triton.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/triton.language.doctree b/v1.1.2/.doctrees/python-api/triton.language.doctree
index c2a0d6fff..09cb803da 100644
Binary files a/v1.1.2/.doctrees/python-api/triton.language.doctree and b/v1.1.2/.doctrees/python-api/triton.language.doctree differ
diff --git a/v1.1.2/.doctrees/python-api/triton.testing.doctree b/v1.1.2/.doctrees/python-api/triton.testing.doctree
index 1eac7baff..680eb484c 100644
Binary files a/v1.1.2/.doctrees/python-api/triton.testing.doctree and b/v1.1.2/.doctrees/python-api/triton.testing.doctree differ
diff --git a/v1.1.2/_downloads/662999063954282841dc90b8945f85ce/tutorials_jupyter.zip b/v1.1.2/_downloads/662999063954282841dc90b8945f85ce/tutorials_jupyter.zip
index 29c5fc960..abe162f18 100644
Binary files a/v1.1.2/_downloads/662999063954282841dc90b8945f85ce/tutorials_jupyter.zip and b/v1.1.2/_downloads/662999063954282841dc90b8945f85ce/tutorials_jupyter.zip differ
diff --git a/v1.1.2/_downloads/763344228ae6bc253ed1a6cf586aa30d/tutorials_python.zip b/v1.1.2/_downloads/763344228ae6bc253ed1a6cf586aa30d/tutorials_python.zip
index 885e9aadc..6fa503442 100644
Binary files a/v1.1.2/_downloads/763344228ae6bc253ed1a6cf586aa30d/tutorials_python.zip and b/v1.1.2/_downloads/763344228ae6bc253ed1a6cf586aa30d/tutorials_python.zip differ
diff --git a/v1.1.2/_images/sphx_glr_01-vector-add_001.png b/v1.1.2/_images/sphx_glr_01-vector-add_001.png
index 222dde3b7..7087df697 100644
Binary files a/v1.1.2/_images/sphx_glr_01-vector-add_001.png and b/v1.1.2/_images/sphx_glr_01-vector-add_001.png differ
diff --git a/v1.1.2/_images/sphx_glr_01-vector-add_thumb.png b/v1.1.2/_images/sphx_glr_01-vector-add_thumb.png
index db96c7f4b..4ea0f2ac6 100644
Binary files a/v1.1.2/_images/sphx_glr_01-vector-add_thumb.png and b/v1.1.2/_images/sphx_glr_01-vector-add_thumb.png differ
diff --git a/v1.1.2/_images/sphx_glr_02-fused-softmax_001.png b/v1.1.2/_images/sphx_glr_02-fused-softmax_001.png
index 7378f40d6..c1d36fffd 100644
Binary files a/v1.1.2/_images/sphx_glr_02-fused-softmax_001.png and b/v1.1.2/_images/sphx_glr_02-fused-softmax_001.png differ
diff --git a/v1.1.2/_images/sphx_glr_02-fused-softmax_thumb.png b/v1.1.2/_images/sphx_glr_02-fused-softmax_thumb.png
index e50486d5f..3002bc0c7 100644
Binary files a/v1.1.2/_images/sphx_glr_02-fused-softmax_thumb.png and b/v1.1.2/_images/sphx_glr_02-fused-softmax_thumb.png differ
diff --git a/v1.1.2/_images/sphx_glr_03-matrix-multiplication_001.png b/v1.1.2/_images/sphx_glr_03-matrix-multiplication_001.png
index 0aff3389b..ec5fa773e 100644
Binary files a/v1.1.2/_images/sphx_glr_03-matrix-multiplication_001.png and b/v1.1.2/_images/sphx_glr_03-matrix-multiplication_001.png differ
diff --git a/v1.1.2/_images/sphx_glr_03-matrix-multiplication_thumb.png b/v1.1.2/_images/sphx_glr_03-matrix-multiplication_thumb.png
index 97c001e90..1c0e284bb 100644
Binary files a/v1.1.2/_images/sphx_glr_03-matrix-multiplication_thumb.png and b/v1.1.2/_images/sphx_glr_03-matrix-multiplication_thumb.png differ
diff --git a/v1.1.2/_images/sphx_glr_05-layer-norm_001.png b/v1.1.2/_images/sphx_glr_05-layer-norm_001.png
index a5d4b0da0..7c0a79280 100644
Binary files a/v1.1.2/_images/sphx_glr_05-layer-norm_001.png and b/v1.1.2/_images/sphx_glr_05-layer-norm_001.png differ
diff --git a/v1.1.2/_images/sphx_glr_05-layer-norm_thumb.png b/v1.1.2/_images/sphx_glr_05-layer-norm_thumb.png
index 0fea2e1c9..ce6ef1aa7 100644
Binary files a/v1.1.2/_images/sphx_glr_05-layer-norm_thumb.png and b/v1.1.2/_images/sphx_glr_05-layer-norm_thumb.png differ
diff --git a/v1.1.2/_sources/getting-started/tutorials/01-vector-add.rst.txt b/v1.1.2/_sources/getting-started/tutorials/01-vector-add.rst.txt
index abb31f43f..69c28177b 100644
--- a/v1.1.2/_sources/getting-started/tutorials/01-vector-add.rst.txt
+++ b/v1.1.2/_sources/getting-started/tutorials/01-vector-add.rst.txt
@@ -233,18 +233,18 @@ We can now run the decorated function above. Pass `print_data=True` to see the p
                size      Triton       Torch
     0        4096.0    9.600000    9.600000
     1        8192.0   19.200000   19.200000
-    2       16384.0   31.999999   38.400001
+    2       16384.0   38.400001   38.400001
     3       32768.0   76.800002   76.800002
     4       65536.0  127.999995  127.999995
     5      131072.0  219.428568  219.428568
-    6      262144.0  341.333321  341.333321
+    6      262144.0  341.333321  384.000001
     7      524288.0  472.615390  472.615390
     8     1048576.0  614.400016  614.400016
-    9     2097152.0  722.823517  722.823517
+    9     2097152.0  722.823517  702.171410
     10    4194304.0  780.190482  780.190482
     11    8388608.0  812.429770  812.429770
     12   16777216.0  833.084721  833.084721
-    13   33554432.0  842.004273  843.811163
+    13   33554432.0  842.004273  842.004273
     14   67108864.0  847.448255  848.362445
     15  134217728.0  849.737435  850.656574
 
@@ -254,7 +254,7 @@ We can now run the decorated function above. Pass `print_data=True` to see the p
 
 .. rst-class:: sphx-glr-timing
 
-   **Total running time of the script:** ( 1 minutes  51.595 seconds)
+   **Total running time of the script:** ( 1 minutes  44.469 seconds)
 
 
 .. _sphx_glr_download_getting-started_tutorials_01-vector-add.py:
diff --git a/v1.1.2/_sources/getting-started/tutorials/02-fused-softmax.rst.txt b/v1.1.2/_sources/getting-started/tutorials/02-fused-softmax.rst.txt
index 9a4c73215..e5b72f095 100644
--- a/v1.1.2/_sources/getting-started/tutorials/02-fused-softmax.rst.txt
+++ b/v1.1.2/_sources/getting-started/tutorials/02-fused-softmax.rst.txt
@@ -287,16 +287,16 @@ We will then compare its performance against (1) :code:`torch.softmax` and (2) t
     softmax-performance:
               N      Triton  Torch (native)  Torch (jit)
     0     256.0  512.000001      546.133347   188.321838
-    1     384.0  585.142862      585.142862   153.600004
-    2     512.0  655.360017      606.814814   154.566038
+    1     384.0  585.142862      585.142862   151.703707
+    2     512.0  655.360017      585.142849   156.038096
     3     640.0  682.666684      640.000002   160.000000
-    4     768.0  722.823517      664.216187   162.754967
+    4     768.0  722.823517      646.736871   163.839992
     ..      ...         ...             ...          ...
-    93  12160.0  814.058574      406.179533   198.936606
-    94  12288.0  814.111783      415.661740   199.298541
-    95  12416.0  812.498981      412.149375   198.854847
-    96  12544.0  812.566838      412.971190   199.111113
-    97  12672.0  812.633240      412.097543   199.167004
+    93  12160.0  812.359066      405.755985   198.328233
+    94  12288.0  814.111783      415.661740   198.694297
+    95  12416.0  813.330613      412.149375   198.407990
+    96  12544.0  812.566838      412.971190   198.569388
+    97  12672.0  812.633240      412.097543   198.776477
 
     [98 rows x 4 columns]
 
@@ -314,7 +314,7 @@ In the above plot, we can see that:
 
 .. rst-class:: sphx-glr-timing
 
-   **Total running time of the script:** ( 3 minutes  25.280 seconds)
+   **Total running time of the script:** ( 3 minutes  23.413 seconds)
 
 
 .. _sphx_glr_download_getting-started_tutorials_02-fused-softmax.py:
diff --git a/v1.1.2/_sources/getting-started/tutorials/03-matrix-multiplication.rst.txt b/v1.1.2/_sources/getting-started/tutorials/03-matrix-multiplication.rst.txt
index 9e01cd33b..a5b3a87c2 100644
--- a/v1.1.2/_sources/getting-started/tutorials/03-matrix-multiplication.rst.txt
+++ b/v1.1.2/_sources/getting-started/tutorials/03-matrix-multiplication.rst.txt
@@ -463,36 +463,36 @@ We can now compare the performance of our kernel against that of cuBLAS. Here we
     matmul-performance:
              M     cuBLAS  ...     Triton  Triton (+ LeakyReLU)
     0    256.0   2.730667  ...   3.276800              2.978909
-    1    384.0   7.372800  ...   8.507077              7.899428
+    1    384.0   7.372800  ...   8.507077              8.507077
     2    512.0  14.563555  ...  16.384000             16.384000
     3    640.0  22.260869  ...  24.380953             24.380953
     4    768.0  32.768000  ...  34.028308             34.028308
-    5    896.0  37.971025  ...  40.140799             39.025776
-    6   1024.0  51.150050  ...  53.773130             52.428801
+    5    896.0  37.971025  ...  39.025776             39.025776
+    6   1024.0  49.932191  ...  52.428801             52.428801
     7   1152.0  45.242181  ...  46.656000             46.656000
     8   1280.0  51.200001  ...  56.888887             56.888887
     9   1408.0  64.138541  ...  67.305878             66.485074
     10  1536.0  80.430545  ...  79.526831             79.526831
-    11  1664.0  62.929456  ...  62.492442             62.061463
-    12  1792.0  72.983276  ...  71.588687             71.588687
-    13  1920.0  69.120002  ...  70.172588             70.172588
-    14  2048.0  73.584279  ...  76.608294             76.260072
+    11  1664.0  63.372618  ...  62.492442             62.061463
+    12  1792.0  72.983276  ...  72.047592             71.588687
+    13  1920.0  68.776119  ...  70.172588             70.172588
+    14  2048.0  73.908442  ...  76.959706             76.608294
     15  2176.0  83.155572  ...  85.998493             85.269692
-    16  2304.0  68.446623  ...  76.809875             76.563695
-    17  2432.0  71.305746  ...  82.874527             84.877538
-    18  2560.0  78.019048  ...  80.709358             80.511054
-    19  2688.0  83.369354  ...  89.044730             89.676257
-    20  2816.0  83.233226  ...  82.916747             82.602666
-    21  2944.0  81.832567  ...  80.640830             82.169877
-    22  3072.0  82.181572  ...  88.473602             88.473602
-    23  3200.0  84.768213  ...  95.096582             94.395283
-    24  3328.0  82.939284  ...  81.346098             84.695641
-    25  3456.0  81.932484  ...  90.180725             91.097818
-    26  3584.0  87.085130  ...  98.268190             93.564405
-    27  3712.0  83.317214  ...  88.443865             83.947349
-    28  3840.0  84.874902  ...  91.322872             84.421376
-    29  3968.0  90.388098  ...  84.210698             88.615785
-    30  4096.0  86.480498  ...  92.948562             88.243079
+    16  2304.0  68.446623  ...  76.563695             76.319081
+    17  2432.0  71.125224  ...  85.134737             84.621881
+    18  2560.0  77.833728  ...  81.108913             80.908642
+    19  2688.0  83.737433  ...  89.888756             89.464755
+    20  2816.0  83.074685  ...  82.759409             81.218262
+    21  2944.0  81.698415  ...  80.510553             79.737653
+    22  3072.0  82.181572  ...  88.612060             88.335577
+    23  3200.0  82.156612  ...  93.841640             93.979441
+    24  3328.0  81.530349  ...  84.795401             84.596116
+    25  3456.0  82.141178  ...  88.595129             89.281913
+    26  3584.0  87.296493  ...  91.563533             96.683219
+    27  3712.0  85.675250  ...  86.191546             88.561477
+    28  3840.0  79.448276  ...  84.548438             91.322872
+    29  3968.0  86.973584  ...  90.791620             85.871877
+    30  4096.0  93.142072  ...  82.040176             89.062862
 
     [31 rows x 5 columns]
 
@@ -502,7 +502,7 @@ We can now compare the performance of our kernel against that of cuBLAS. Here we
 
 .. rst-class:: sphx-glr-timing
 
-   **Total running time of the script:** ( 5 minutes  51.135 seconds)
+   **Total running time of the script:** ( 5 minutes  44.408 seconds)
 
 
 .. _sphx_glr_download_getting-started_tutorials_03-matrix-multiplication.py:
diff --git a/v1.1.2/_sources/getting-started/tutorials/05-layer-norm.rst.txt b/v1.1.2/_sources/getting-started/tutorials/05-layer-norm.rst.txt
index a788b085a..661b38c33 100644
--- a/v1.1.2/_sources/getting-started/tutorials/05-layer-norm.rst.txt
+++ b/v1.1.2/_sources/getting-started/tutorials/05-layer-norm.rst.txt
@@ -38,36 +38,36 @@ Layer Normalization
 
     layer-norm-backward:
               N      Triton       Torch        Apex
-    0    1024.0  307.200008   98.303995  303.407414
-    1    1536.0  351.085717  134.050910  341.333333
-    2    2048.0  423.724127  161.684218  334.367350
-    3    2560.0  465.454542  181.775141  328.556154
-    4    3072.0  511.999982  192.501302  320.556515
-    5    3584.0  554.941930  208.271186  310.527060
-    6    4096.0  568.231237  220.412561  297.890900
-    7    4608.0  498.162157  232.825259  287.251954
-    8    5120.0  527.381977  242.845844  285.104413
-    9    5632.0  540.671974  243.545956  289.438969
-    10   6144.0  544.118087  248.661056  286.322318
-    11   6656.0  532.479975  256.000009  285.767438
-    12   7168.0  507.469040  260.260201  286.242939
-    13   7680.0  479.999983  262.564106  279.272719
-    14   8192.0  463.698115  267.130429  284.526763
-    15   8704.0  416.958106  267.815384  284.987724
-    16   9216.0  429.483477  272.394084  288.751954
-    17   9728.0  437.213490  280.278512  290.027323
-    18  10240.0  449.287041  286.767793  290.840246
-    19  10752.0  428.651173  247.172406  290.594591
-    20  11264.0  429.104745  245.536784  286.980888
-    21  11776.0  423.724129  249.888595  288.981596
-    22  12288.0  420.102570  254.673582  294.323369
-    23  12800.0  414.574901  253.465340  288.450715
-    24  13312.0  412.242569  252.759501  289.916513
-    25  13824.0  405.098897  257.190689  292.056329
-    26  14336.0  395.021816  254.297107  286.719986
-    27  14848.0  385.662341  257.479779  289.481735
-    28  15360.0  373.874218  257.970599  287.550706
-    29  15872.0  369.474279  261.806182  289.899545
+    0    1024.0  311.088617   99.902435  315.076934
+    1    1536.0  351.085717  134.050910  344.523365
+    2    2048.0  423.724127  159.067963  334.367350
+    3    2560.0  461.954908  182.857144  330.322572
+    4    3072.0  519.211251  191.501303  321.956335
+    5    3584.0  547.872604  207.768111  309.410081
+    6    4096.0  568.231237  221.405403  301.546004
+    7    4608.0  500.416301  232.336141  287.251954
+    8    5120.0  529.655159  243.809526  287.102804
+    9    5632.0  540.671974  244.869560  291.939522
+    10   6144.0  548.163546  251.202731  286.879370
+    11   6656.0  536.053693  256.000009  286.793541
+    12   7168.0  518.168681  253.734520  277.919225
+    13   7680.0  488.912481  266.358392  280.547947
+    14   8192.0  464.794337  258.354805  278.481578
+    15   8704.0  416.958106  267.472468  284.987724
+    16   9216.0  432.000001  272.394084  289.887291
+    17   9728.0  439.683593  280.278512  288.950501
+    18  10240.0  446.836366  287.102804  287.775181
+    19  10752.0  430.079980  246.699797  289.941565
+    20  11264.0  430.471331  245.313973  286.069848
+    21  11776.0  420.571432  249.447482  288.981596
+    22  12288.0  418.909088  254.673582  294.323369
+    23  12800.0  414.016170  254.094291  289.538159
+    24  13312.0  411.711355  252.360194  289.391298
+    25  13824.0  404.604870  257.190689  291.799461
+    26  14336.0  395.021816  256.000002  289.129416
+    27  14848.0  385.245405  257.479779  289.012175
+    28  15360.0  376.932517  258.332158  287.550706
+    29  15872.0  369.832994  261.626369  290.784741
 
 
 
@@ -329,7 +329,7 @@ Layer Normalization
 
 .. rst-class:: sphx-glr-timing
 
-   **Total running time of the script:** ( 2 minutes  13.604 seconds)
+   **Total running time of the script:** ( 2 minutes  13.257 seconds)
 
 
 .. _sphx_glr_download_getting-started_tutorials_05-layer-norm.py:
diff --git a/v1.1.2/_sources/getting-started/tutorials/sg_execution_times.rst.txt b/v1.1.2/_sources/getting-started/tutorials/sg_execution_times.rst.txt
index b15782bb3..8584638ea 100644
--- a/v1.1.2/_sources/getting-started/tutorials/sg_execution_times.rst.txt
+++ b/v1.1.2/_sources/getting-started/tutorials/sg_execution_times.rst.txt
@@ -5,16 +5,16 @@
 
 Computation times
 =================
-**13:21.722** total execution time for **getting-started_tutorials** files:
+**13:05.655** total execution time for **getting-started_tutorials** files:
 
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_03-matrix-multiplication.py` (``03-matrix-multiplication.py``) | 05:51.135 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_03-matrix-multiplication.py` (``03-matrix-multiplication.py``) | 05:44.408 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_02-fused-softmax.py` (``02-fused-softmax.py``)                 | 03:25.280 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_02-fused-softmax.py` (``02-fused-softmax.py``)                 | 03:23.413 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_05-layer-norm.py` (``05-layer-norm.py``)                       | 02:13.604 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_05-layer-norm.py` (``05-layer-norm.py``)                       | 02:13.257 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_01-vector-add.py` (``01-vector-add.py``)                       | 01:51.595 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_01-vector-add.py` (``01-vector-add.py``)                       | 01:44.469 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
 | :ref:`sphx_glr_getting-started_tutorials_04-low-memory-dropout.py` (``04-low-memory-dropout.py``)       | 00:00.109 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
diff --git a/v1.1.2/getting-started/tutorials/01-vector-add.html b/v1.1.2/getting-started/tutorials/01-vector-add.html
index 1da5b8fec..de9d50f98 100644
--- a/v1.1.2/getting-started/tutorials/01-vector-add.html
+++ b/v1.1.2/getting-started/tutorials/01-vector-add.html
@@ -323,23 +323,23 @@ for different problem sizes.</p>
            size      Triton       Torch
 0        4096.0    9.600000    9.600000
 1        8192.0   19.200000   19.200000
-2       16384.0   31.999999   38.400001
+2       16384.0   38.400001   38.400001
 3       32768.0   76.800002   76.800002
 4       65536.0  127.999995  127.999995
 5      131072.0  219.428568  219.428568
-6      262144.0  341.333321  341.333321
+6      262144.0  341.333321  384.000001
 7      524288.0  472.615390  472.615390
 8     1048576.0  614.400016  614.400016
-9     2097152.0  722.823517  722.823517
+9     2097152.0  722.823517  702.171410
 10    4194304.0  780.190482  780.190482
 11    8388608.0  812.429770  812.429770
 12   16777216.0  833.084721  833.084721
-13   33554432.0  842.004273  843.811163
+13   33554432.0  842.004273  842.004273
 14   67108864.0  847.448255  848.362445
 15  134217728.0  849.737435  850.656574
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 1 minutes  51.595 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 1 minutes  44.469 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-01-vector-add-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/62d97d49a32414049819dd8bb8378080/01-vector-add.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">01-vector-add.py</span></code></a></p>
diff --git a/v1.1.2/getting-started/tutorials/02-fused-softmax.html b/v1.1.2/getting-started/tutorials/02-fused-softmax.html
index dceb7247b..931307c26 100644
--- a/v1.1.2/getting-started/tutorials/02-fused-softmax.html
+++ b/v1.1.2/getting-started/tutorials/02-fused-softmax.html
@@ -375,16 +375,16 @@ We will then compare its performance against (1) <code class="code docutils lite
 <div class="sphx-glr-script-out highlight-none notranslate"><div class="highlight"><pre><span></span>softmax-performance:
           N      Triton  Torch (native)  Torch (jit)
 0     256.0  512.000001      546.133347   188.321838
-1     384.0  585.142862      585.142862   153.600004
-2     512.0  655.360017      606.814814   154.566038
+1     384.0  585.142862      585.142862   151.703707
+2     512.0  655.360017      585.142849   156.038096
 3     640.0  682.666684      640.000002   160.000000
-4     768.0  722.823517      664.216187   162.754967
+4     768.0  722.823517      646.736871   163.839992
 ..      ...         ...             ...          ...
-93  12160.0  814.058574      406.179533   198.936606
-94  12288.0  814.111783      415.661740   199.298541
-95  12416.0  812.498981      412.149375   198.854847
-96  12544.0  812.566838      412.971190   199.111113
-97  12672.0  812.633240      412.097543   199.167004
+93  12160.0  812.359066      405.755985   198.328233
+94  12288.0  814.111783      415.661740   198.694297
+95  12416.0  813.330613      412.149375   198.407990
+96  12544.0  812.566838      412.971190   198.569388
+97  12672.0  812.633240      412.097543   198.776477
 
 [98 rows x 4 columns]
 </pre></div>
@@ -397,7 +397,7 @@ We will then compare its performance against (1) <code class="code docutils lite
 Note however that the PyTorch <cite>softmax</cite> operation is more general and will works on tensors of any shape.</p></li>
 </ul>
 </div></blockquote>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 3 minutes  25.280 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 3 minutes  23.413 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-02-fused-softmax-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/d91442ac2982c4e0cc3ab0f43534afbc/02-fused-softmax.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">02-fused-softmax.py</span></code></a></p>
diff --git a/v1.1.2/getting-started/tutorials/03-matrix-multiplication.html b/v1.1.2/getting-started/tutorials/03-matrix-multiplication.html
index 2c227665a..c266f505d 100644
--- a/v1.1.2/getting-started/tutorials/03-matrix-multiplication.html
+++ b/v1.1.2/getting-started/tutorials/03-matrix-multiplication.html
@@ -569,41 +569,41 @@ torch_output=tensor([[  1.1045, -36.9688,  31.4688,  ..., -11.3906,  24.4531, -3
 <div class="sphx-glr-script-out highlight-none notranslate"><div class="highlight"><pre><span></span>matmul-performance:
          M     cuBLAS  ...     Triton  Triton (+ LeakyReLU)
 0    256.0   2.730667  ...   3.276800              2.978909
-1    384.0   7.372800  ...   8.507077              7.899428
+1    384.0   7.372800  ...   8.507077              8.507077
 2    512.0  14.563555  ...  16.384000             16.384000
 3    640.0  22.260869  ...  24.380953             24.380953
 4    768.0  32.768000  ...  34.028308             34.028308
-5    896.0  37.971025  ...  40.140799             39.025776
-6   1024.0  51.150050  ...  53.773130             52.428801
+5    896.0  37.971025  ...  39.025776             39.025776
+6   1024.0  49.932191  ...  52.428801             52.428801
 7   1152.0  45.242181  ...  46.656000             46.656000
 8   1280.0  51.200001  ...  56.888887             56.888887
 9   1408.0  64.138541  ...  67.305878             66.485074
 10  1536.0  80.430545  ...  79.526831             79.526831
-11  1664.0  62.929456  ...  62.492442             62.061463
-12  1792.0  72.983276  ...  71.588687             71.588687
-13  1920.0  69.120002  ...  70.172588             70.172588
-14  2048.0  73.584279  ...  76.608294             76.260072
+11  1664.0  63.372618  ...  62.492442             62.061463
+12  1792.0  72.983276  ...  72.047592             71.588687
+13  1920.0  68.776119  ...  70.172588             70.172588
+14  2048.0  73.908442  ...  76.959706             76.608294
 15  2176.0  83.155572  ...  85.998493             85.269692
-16  2304.0  68.446623  ...  76.809875             76.563695
-17  2432.0  71.305746  ...  82.874527             84.877538
-18  2560.0  78.019048  ...  80.709358             80.511054
-19  2688.0  83.369354  ...  89.044730             89.676257
-20  2816.0  83.233226  ...  82.916747             82.602666
-21  2944.0  81.832567  ...  80.640830             82.169877
-22  3072.0  82.181572  ...  88.473602             88.473602
-23  3200.0  84.768213  ...  95.096582             94.395283
-24  3328.0  82.939284  ...  81.346098             84.695641
-25  3456.0  81.932484  ...  90.180725             91.097818
-26  3584.0  87.085130  ...  98.268190             93.564405
-27  3712.0  83.317214  ...  88.443865             83.947349
-28  3840.0  84.874902  ...  91.322872             84.421376
-29  3968.0  90.388098  ...  84.210698             88.615785
-30  4096.0  86.480498  ...  92.948562             88.243079
+16  2304.0  68.446623  ...  76.563695             76.319081
+17  2432.0  71.125224  ...  85.134737             84.621881
+18  2560.0  77.833728  ...  81.108913             80.908642
+19  2688.0  83.737433  ...  89.888756             89.464755
+20  2816.0  83.074685  ...  82.759409             81.218262
+21  2944.0  81.698415  ...  80.510553             79.737653
+22  3072.0  82.181572  ...  88.612060             88.335577
+23  3200.0  82.156612  ...  93.841640             93.979441
+24  3328.0  81.530349  ...  84.795401             84.596116
+25  3456.0  82.141178  ...  88.595129             89.281913
+26  3584.0  87.296493  ...  91.563533             96.683219
+27  3712.0  85.675250  ...  86.191546             88.561477
+28  3840.0  79.448276  ...  84.548438             91.322872
+29  3968.0  86.973584  ...  90.791620             85.871877
+30  4096.0  93.142072  ...  82.040176             89.062862
 
 [31 rows x 5 columns]
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 5 minutes  51.135 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 5 minutes  44.408 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-03-matrix-multiplication-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/d5fee5b55a64e47f1b5724ec39adf171/03-matrix-multiplication.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">03-matrix-multiplication.py</span></code></a></p>
diff --git a/v1.1.2/getting-started/tutorials/05-layer-norm.html b/v1.1.2/getting-started/tutorials/05-layer-norm.html
index 74b691206..4ca746b6c 100644
--- a/v1.1.2/getting-started/tutorials/05-layer-norm.html
+++ b/v1.1.2/getting-started/tutorials/05-layer-norm.html
@@ -194,36 +194,36 @@ to download the full example code</p>
 <p class="sphx-glr-script-out">Out:</p>
 <div class="sphx-glr-script-out highlight-none notranslate"><div class="highlight"><pre><span></span>layer-norm-backward:
           N      Triton       Torch        Apex
-0    1024.0  307.200008   98.303995  303.407414
-1    1536.0  351.085717  134.050910  341.333333
-2    2048.0  423.724127  161.684218  334.367350
-3    2560.0  465.454542  181.775141  328.556154
-4    3072.0  511.999982  192.501302  320.556515
-5    3584.0  554.941930  208.271186  310.527060
-6    4096.0  568.231237  220.412561  297.890900
-7    4608.0  498.162157  232.825259  287.251954
-8    5120.0  527.381977  242.845844  285.104413
-9    5632.0  540.671974  243.545956  289.438969
-10   6144.0  544.118087  248.661056  286.322318
-11   6656.0  532.479975  256.000009  285.767438
-12   7168.0  507.469040  260.260201  286.242939
-13   7680.0  479.999983  262.564106  279.272719
-14   8192.0  463.698115  267.130429  284.526763
-15   8704.0  416.958106  267.815384  284.987724
-16   9216.0  429.483477  272.394084  288.751954
-17   9728.0  437.213490  280.278512  290.027323
-18  10240.0  449.287041  286.767793  290.840246
-19  10752.0  428.651173  247.172406  290.594591
-20  11264.0  429.104745  245.536784  286.980888
-21  11776.0  423.724129  249.888595  288.981596
-22  12288.0  420.102570  254.673582  294.323369
-23  12800.0  414.574901  253.465340  288.450715
-24  13312.0  412.242569  252.759501  289.916513
-25  13824.0  405.098897  257.190689  292.056329
-26  14336.0  395.021816  254.297107  286.719986
-27  14848.0  385.662341  257.479779  289.481735
-28  15360.0  373.874218  257.970599  287.550706
-29  15872.0  369.474279  261.806182  289.899545
+0    1024.0  311.088617   99.902435  315.076934
+1    1536.0  351.085717  134.050910  344.523365
+2    2048.0  423.724127  159.067963  334.367350
+3    2560.0  461.954908  182.857144  330.322572
+4    3072.0  519.211251  191.501303  321.956335
+5    3584.0  547.872604  207.768111  309.410081
+6    4096.0  568.231237  221.405403  301.546004
+7    4608.0  500.416301  232.336141  287.251954
+8    5120.0  529.655159  243.809526  287.102804
+9    5632.0  540.671974  244.869560  291.939522
+10   6144.0  548.163546  251.202731  286.879370
+11   6656.0  536.053693  256.000009  286.793541
+12   7168.0  518.168681  253.734520  277.919225
+13   7680.0  488.912481  266.358392  280.547947
+14   8192.0  464.794337  258.354805  278.481578
+15   8704.0  416.958106  267.472468  284.987724
+16   9216.0  432.000001  272.394084  289.887291
+17   9728.0  439.683593  280.278512  288.950501
+18  10240.0  446.836366  287.102804  287.775181
+19  10752.0  430.079980  246.699797  289.941565
+20  11264.0  430.471331  245.313973  286.069848
+21  11776.0  420.571432  249.447482  288.981596
+22  12288.0  418.909088  254.673582  294.323369
+23  12800.0  414.016170  254.094291  289.538159
+24  13312.0  411.711355  252.360194  289.391298
+25  13824.0  404.604870  257.190689  291.799461
+26  14336.0  395.021816  256.000002  289.129416
+27  14848.0  385.245405  257.479779  289.012175
+28  15360.0  376.932517  258.332158  287.550706
+29  15872.0  369.832994  261.626369  290.784741
 </pre></div>
 </div>
 <div class="line-block">
@@ -477,7 +477,7 @@ to download the full example code</p>
 <span class="n">bench_layer_norm</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">save_path</span><span class="o">=</span><span class="s1">&#39;.&#39;</span><span class="p">,</span> <span class="n">print_data</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 2 minutes  13.604 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 2 minutes  13.257 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-05-layer-norm-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/935c0dd0fbeb4b2e69588471cbb2d4b2/05-layer-norm.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">05-layer-norm.py</span></code></a></p>
diff --git a/v1.1.2/getting-started/tutorials/sg_execution_times.html b/v1.1.2/getting-started/tutorials/sg_execution_times.html
index 4bf888765..64edd354d 100644
--- a/v1.1.2/getting-started/tutorials/sg_execution_times.html
+++ b/v1.1.2/getting-started/tutorials/sg_execution_times.html
@@ -174,7 +174,7 @@
             
   <div class="section" id="computation-times">
 <span id="sphx-glr-getting-started-tutorials-sg-execution-times"></span><h1>Computation times<a class="headerlink" href="#computation-times" title="Permalink to this headline">¶</a></h1>
-<p><strong>13:21.722</strong> total execution time for <strong>getting-started_tutorials</strong> files:</p>
+<p><strong>13:05.655</strong> total execution time for <strong>getting-started_tutorials</strong> files:</p>
 <table class="docutils align-default">
 <colgroup>
 <col style="width: 85%" />
@@ -183,19 +183,19 @@
 </colgroup>
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="03-matrix-multiplication.html#sphx-glr-getting-started-tutorials-03-matrix-multiplication-py"><span class="std std-ref">Matrix Multiplication</span></a> (<code class="docutils literal notranslate"><span class="pre">03-matrix-multiplication.py</span></code>)</p></td>
-<td><p>05:51.135</p></td>
+<td><p>05:44.408</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="02-fused-softmax.html#sphx-glr-getting-started-tutorials-02-fused-softmax-py"><span class="std std-ref">Fused Softmax</span></a> (<code class="docutils literal notranslate"><span class="pre">02-fused-softmax.py</span></code>)</p></td>
-<td><p>03:25.280</p></td>
+<td><p>03:23.413</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="05-layer-norm.html#sphx-glr-getting-started-tutorials-05-layer-norm-py"><span class="std std-ref">Layer Normalization</span></a> (<code class="docutils literal notranslate"><span class="pre">05-layer-norm.py</span></code>)</p></td>
-<td><p>02:13.604</p></td>
+<td><p>02:13.257</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="01-vector-add.html#sphx-glr-getting-started-tutorials-01-vector-add-py"><span class="std std-ref">Vector Addition</span></a> (<code class="docutils literal notranslate"><span class="pre">01-vector-add.py</span></code>)</p></td>
-<td><p>01:51.595</p></td>
+<td><p>01:44.469</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="04-low-memory-dropout.html#sphx-glr-getting-started-tutorials-04-low-memory-dropout-py"><span class="std std-ref">Low-Memory Dropout</span></a> (<code class="docutils literal notranslate"><span class="pre">04-low-memory-dropout.py</span></code>)</p></td>
diff --git a/v1.1.2/searchindex.js b/v1.1.2/searchindex.js
index 3ac4bcb56..4a1fc7ded 100644
--- a/v1.1.2/searchindex.js
+++ b/v1.1.2/searchindex.js
@@ -1 +1 @@
-Search.setIndex({docnames:["getting-started/installation","getting-started/tutorials/01-vector-add","getting-started/tutorials/02-fused-softmax","getting-started/tutorials/03-matrix-multiplication","getting-started/tutorials/04-low-memory-dropout","getting-started/tutorials/05-layer-norm","getting-started/tutorials/index","getting-started/tutorials/sg_execution_times","index","programming-guide/chapter-1/introduction","programming-guide/chapter-2/related-work","python-api/generated/triton.Config","python-api/generated/triton.autotune","python-api/generated/triton.heuristics","python-api/generated/triton.jit","python-api/generated/triton.language.arange","python-api/generated/triton.language.atomic_add","python-api/generated/triton.language.atomic_cas","python-api/generated/triton.language.atomic_max","python-api/generated/triton.language.atomic_min","python-api/generated/triton.language.atomic_xchg","python-api/generated/triton.language.broadcast_to","python-api/generated/triton.language.cos","python-api/generated/triton.language.dot","python-api/generated/triton.language.exp","python-api/generated/triton.language.load","python-api/generated/triton.language.log","python-api/generated/triton.language.max","python-api/generated/triton.language.maximum","python-api/generated/triton.language.min","python-api/generated/triton.language.minimum","python-api/generated/triton.language.multiple_of","python-api/generated/triton.language.num_programs","python-api/generated/triton.language.program_id","python-api/generated/triton.language.rand","python-api/generated/triton.language.randint","python-api/generated/triton.language.randint4x","python-api/generated/triton.language.randn","python-api/generated/triton.language.ravel","python-api/generated/triton.language.reshape","python-api/generated/triton.language.sigmoid","python-api/generated/triton.language.sin","python-api/generated/triton.language.softmax","python-api/generated/triton.language.sqrt","python-api/generated/triton.language.store","python-api/generated/triton.language.sum","python-api/generated/triton.language.where","python-api/generated/triton.language.zeros","python-api/generated/triton.testing.Benchmark","python-api/generated/triton.testing.do_bench","python-api/generated/triton.testing.perf_report","python-api/triton","python-api/triton.language","python-api/triton.testing"],envversion:{"sphinx.domains.c":2,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":4,"sphinx.domains.index":1,"sphinx.domains.javascript":2,"sphinx.domains.math":2,"sphinx.domains.python":3,"sphinx.domains.rst":2,"sphinx.domains.std":2,"sphinx.ext.intersphinx":1,sphinx:56},filenames:["getting-started/installation.rst","getting-started/tutorials/01-vector-add.rst","getting-started/tutorials/02-fused-softmax.rst","getting-started/tutorials/03-matrix-multiplication.rst","getting-started/tutorials/04-low-memory-dropout.rst","getting-started/tutorials/05-layer-norm.rst","getting-started/tutorials/index.rst","getting-started/tutorials/sg_execution_times.rst","index.rst","programming-guide/chapter-1/introduction.rst","programming-guide/chapter-2/related-work.rst","python-api/generated/triton.Config.rst","python-api/generated/triton.autotune.rst","python-api/generated/triton.heuristics.rst","python-api/generated/triton.jit.rst","python-api/generated/triton.language.arange.rst","python-api/generated/triton.language.atomic_add.rst","python-api/generated/triton.language.atomic_cas.rst","python-api/generated/triton.language.atomic_max.rst","python-api/generated/triton.language.atomic_min.rst","python-api/generated/triton.language.atomic_xchg.rst","python-api/generated/triton.language.broadcast_to.rst","python-api/generated/triton.language.cos.rst","python-api/generated/triton.language.dot.rst","python-api/generated/triton.language.exp.rst","python-api/generated/triton.language.load.rst","python-api/generated/triton.language.log.rst","python-api/generated/triton.language.max.rst","python-api/generated/triton.language.maximum.rst","python-api/generated/triton.language.min.rst","python-api/generated/triton.language.minimum.rst","python-api/generated/triton.language.multiple_of.rst","python-api/generated/triton.language.num_programs.rst","python-api/generated/triton.language.program_id.rst","python-api/generated/triton.language.rand.rst","python-api/generated/triton.language.randint.rst","python-api/generated/triton.language.randint4x.rst","python-api/generated/triton.language.randn.rst","python-api/generated/triton.language.ravel.rst","python-api/generated/triton.language.reshape.rst","python-api/generated/triton.language.sigmoid.rst","python-api/generated/triton.language.sin.rst","python-api/generated/triton.language.softmax.rst","python-api/generated/triton.language.sqrt.rst","python-api/generated/triton.language.store.rst","python-api/generated/triton.language.sum.rst","python-api/generated/triton.language.where.rst","python-api/generated/triton.language.zeros.rst","python-api/generated/triton.testing.Benchmark.rst","python-api/generated/triton.testing.do_bench.rst","python-api/generated/triton.testing.perf_report.rst","python-api/triton.rst","python-api/triton.language.rst","python-api/triton.testing.rst"],objects:{"triton.Config":{__init__:[11,1,1,""]},"triton.language":{arange:[15,2,1,""],atomic_add:[16,2,1,""],atomic_cas:[17,2,1,""],atomic_max:[18,2,1,""],atomic_min:[19,2,1,""],atomic_xchg:[20,2,1,""],broadcast_to:[21,2,1,""],cos:[22,2,1,""],dot:[23,2,1,""],exp:[24,2,1,""],load:[25,2,1,""],log:[26,2,1,""],max:[27,2,1,""],maximum:[28,2,1,""],min:[29,2,1,""],minimum:[30,2,1,""],multiple_of:[31,2,1,""],num_programs:[32,2,1,""],program_id:[33,2,1,""],rand:[34,2,1,""],randint4x:[36,2,1,""],randint:[35,2,1,""],randn:[37,2,1,""],ravel:[38,2,1,""],reshape:[39,2,1,""],sigmoid:[40,2,1,""],sin:[41,2,1,""],softmax:[42,2,1,""],sqrt:[43,2,1,""],store:[44,2,1,""],sum:[45,2,1,""],where:[46,2,1,""],zeros:[47,2,1,""]},"triton.testing":{Benchmark:[48,0,1,""],do_bench:[49,2,1,""],perf_report:[50,2,1,""]},"triton.testing.Benchmark":{__init__:[48,1,1,""]},triton:{Config:[11,0,1,""],autotune:[12,2,1,""],heuristics:[13,2,1,""],jit:[14,2,1,""]}},objnames:{"0":["py","class","Python class"],"1":["py","method","Python method"],"2":["py","function","Python function"]},objtypes:{"0":"py:class","1":"py:method","2":"py:function"},terms:{"0":[1,2,3,4,5,7,9,10,32,33,34,37,47,49],"00":7,"0000":3,"000000":2,"000001":2,"000002":2,"000009":5,"004273":1,"01":[1,3,7],"019048":3,"02":[2,7],"021816":5,"025776":3,"027323":5,"028308":3,"03":[3,7],"04":[4,7],"044730":3,"05":[5,7],"050910":5,"056329":5,"058574":2,"061463":3,"0625":3,"08199":4,"08452":4,"084721":1,"085130":3,"085717":5,"0938":3,"096582":3,"097543":2,"097818":3,"098897":5,"0f":10,"0s":4,"1":[1,2,3,4,5,8,10,13,32,33,34,37],"10":[1,3,4,5],"100":[2,49],"1024":[1,3,4,5,12],"10240":5,"102570":5,"104413":5,"1045":3,"104745":5,"1048576":1,"106434":4,"10752":5,"109":[4,7],"11":[0,1,3,5],"111113":2,"111783":2,"11264":5,"1152":3,"11776":5,"118087":5,"12":[1,3,5],"120002":3,"12160":2,"12288":[2,5],"123":4,"12416":2,"12544":2,"12672":2,"127":1,"128":[1,2,3,5,12],"1280":3,"12800":5,"13":[1,3,5,7],"130429":5,"131072":1,"1328":3,"13312":5,"133347":2,"134":5,"134217728":1,"135":[3,7],"13686":4,"13824":5,"138541":3,"14":[1,3,5],"140799":3,"1408":3,"142862":2,"14336":5,"14848":5,"149375":2,"149397":4,"15":[1,3,5],"150050":3,"153":2,"1536":[3,5],"15360":5,"154":2,"155572":3,"15872":5,"16":[2,3,5,10,47],"160":2,"161":5,"162":2,"162157":5,"16384":1,"1664":3,"167004":2,"16777216":1,"169877":3,"17":[3,5],"172406":5,"172588":3,"17879":4,"1792":3,"179533":2,"18":[3,5],"180725":3,"181":5,"181572":3,"1823":2,"188":2,"19":[1,3,5],"190482":1,"190689":5,"192":[1,5],"1920":3,"198":2,"1982":10,"1983":9,"1984":10,"1989":10,"199":2,"1991":[9,10],"1999":10,"1d":[1,2,3],"1e":[1,2,3,5],"1s":4,"2":[1,2,3,4,5,8,10,11,13,32,33,49],"20":[3,5,49],"200000":1,"200001":3,"200008":5,"2004":10,"2006":10,"2011":4,"2012":10,"2013":9,"2014":[4,9],"2016":[9,10],"2017":9,"2018":[9,10],"2019":10,"2021":[9,10],"2048":[2,3,5],"208":5,"2097152":1,"21":[3,5,7],"210698":3,"212868":4,"213490":5,"2141":1,"214186":4,"216187":2,"2176":3,"219":1,"22":[3,5],"220":[3,5],"23":[3,5],"2304":3,"231237":5,"232":5,"233226":3,"24":[3,5],"242":5,"242181":3,"242569":5,"242939":5,"243":5,"243079":3,"2432":3,"245":[3,5],"247":5,"248":5,"249":5,"25":[2,3,5,7,49],"251954":5,"252":5,"253":5,"254":5,"256":[1,2,3,5,11],"2560":[3,5],"257":5,"26":[3,5],"260":5,"260072":3,"260201":5,"260869":3,"261":5,"262":5,"262144":1,"2656":3,"267":5,"268190":3,"2688":3,"269692":3,"27":[3,5],"271186":5,"272":5,"272719":5,"276800":3,"278512":5,"279":5,"28":[1,3,5],"280":[2,5,7],"2812":3,"2816":3,"284":5,"285":5,"286":5,"287":5,"287041":5,"288":5,"289":5,"2891":3,"29":[3,5],"290":5,"292":5,"293429":4,"294":5,"2944":3,"297":5,"297107":5,"298541":2,"2d":[3,5,23],"2m":2,"2mn":2,"3":[0,1,2,3,4,5,10],"30":3,"303":5,"303995":5,"305746":3,"305878":3,"307":5,"3072":[3,5],"3076":1,"31":[1,3],"310":5,"3125":3,"317214":3,"32":[3,5,11],"320":5,"3200":3,"321838":2,"322318":5,"322872":3,"323369":5,"32768":1,"328":5,"3281":3,"33":3,"3328":3,"333321":1,"333333":5,"334":5,"33554432":1,"34":3,"341":[1,5],"34172":4,"3438":3,"3456":3,"346098":3,"3477":3,"351":5,"3516":3,"3555":3,"3584":[3,5],"36":3,"360017":2,"362445":1,"367350":5,"369":5,"369354":3,"37":3,"3712":3,"3713":1,"371721":4,"372800":3,"373":5,"38":1,"380953":3,"381977":5,"384":[2,3],"3840":3,"384000":3,"385":5,"388098":3,"39":3,"3906":3,"394084":5,"395":5,"395283":3,"3968":3,"3984":3,"3986":4,"3d":[32,33],"3mn":2,"4":[1,2,3,5,10,11,12,35],"40":3,"400001":1,"400016":1,"4023":3,"403344":4,"403347":4,"405":5,"406":2,"4062":3,"407414":5,"408716":4,"4096":[1,2,3,5],"412":[2,5],"412561":5,"414":5,"415":2,"41576":4,"416":5,"4194304":1,"420":5,"421376":3,"42142":4,"423":5,"428":5,"428372":4,"428568":1,"428801":3,"429":5,"429770":1,"430545":3,"431969":4,"437":5,"438969":5,"443865":3,"446623":3,"448255":1,"449":5,"4492":3,"45":3,"450715":5,"4531":3,"454542":5,"46":3,"4608":5,"4609":3,"463":5,"465":5,"465340":5,"4688":3,"469040":5,"472":1,"473602":3,"474279":5,"479":5,"479779":5,"479975":5,"480498":3,"481735":5,"483477":5,"485074":3,"492442":3,"4940":1,"498":5,"498981":2,"4m":2,"4x":2,"5":[1,3,4,5,10,49],"500":5,"5000":3,"501302":5,"507":5,"507077":3,"51":[1,3,7],"511":5,"511054":3,"512":[2,3,4,5],"5120":5,"52":3,"524288":1,"526763":5,"526831":3,"527":5,"527060":5,"53":3,"5312":3,"532":5,"536784":5,"54":3,"540":5,"541":4,"544":5,"545956":5,"546":2,"550706":5,"554":5,"556154":5,"556515":5,"56":3,"5632":5,"563555":3,"563695":3,"564106":5,"564405":3,"566038":2,"566838":2,"568":5,"568431":4,"574901":5,"584279":3,"585":2,"5859":3,"586858":4,"588687":3,"5898":3,"594591":5,"595":[1,7],"5mn":2,"6":[0,1,3,5],"600000":1,"600004":2,"602666":3,"604":[5,7],"606":2,"608294":3,"6094":3,"614":1,"6144":5,"615390":1,"615785":3,"62":3,"633240":2,"64":[1,3,5],"640":[2,3],"640830":3,"64kb":5,"651173":5,"655":2,"65536":[1,5],"656000":3,"656574":1,"66":3,"661056":5,"661740":2,"662341":5,"664":2,"6656":5,"666684":2,"67":3,"67086":4,"67108864":1,"671974":5,"6724":1,"673582":5,"676257":3,"68":3,"682":2,"684218":5,"69":3,"6953":3,"695641":3,"698115":5,"7":[0,1,3,5,10],"70":3,"7031":3,"7070":3,"707878":4,"709358":3,"71":3,"7168":5,"719258":4,"719986":5,"72":3,"722":[1,2,7],"724127":5,"724129":5,"73":3,"730667":3,"737435":1,"743443":4,"7500":3,"751954":5,"754967":2,"759501":5,"76":[1,3],"767438":5,"767793":5,"768":[2,3],"7680":5,"768000":3,"768213":3,"773130":3,"775141":5,"78":3,"780":1,"781":2,"79":3,"79719":4,"8":[1,2,3,5,10,11,12,47,49],"80":[3,49],"800002":1,"806182":5,"806694":4,"809875":3,"81":3,"811163":1,"812":[1,2],"814":2,"814814":2,"815384":5,"817432":4,"8192":[1,5],"82":3,"823517":[1,2],"825259":5,"83":3,"832567":3,"833":1,"838026":4,"8388608":1,"84":3,"840246":5,"842":1,"84284":4,"843":1,"845844":5,"847":1,"848":1,"849":1,"85":3,"850":1,"854847":2,"86":3,"87":3,"8704":5,"874218":5,"874527":3,"874902":3,"877538":3,"88":3,"8828":3,"8867":3,"888595":5,"888887":3,"89":3,"8906":3,"890900":5,"8945":3,"896":3,"899428":3,"899545":5,"8mn":2,"9":[0,1,2,3,4,5],"90":3,"91":3,"916513":5,"916747":3,"92":3,"9216":5,"9219":3,"929456":3,"93":[2,3],"932484":3,"936606":2,"9375":3,"939284":3,"94":[2,3],"941930":5,"947349":3,"948562":3,"9492":3,"95":[2,3],"952835":4,"9531":3,"958106":5,"96":[2,5],"9688":3,"97":2,"970599":5,"971025":3,"971190":2,"9728":5,"9733":1,"978909":3,"98":[2,3,5],"9805":3,"980888":5,"981596":5,"983276":3,"98432":1,"9844":3,"987724":5,"998493":3,"999982":5,"999983":5,"999995":1,"999999":1,"abstract":[9,10],"break":10,"byte":2,"case":[1,2,9,10,13,16,17,18,19,20],"class":[2,5,9,10,11,48],"default":49,"do":[2,3,9,10,25,44],"float":[2,9,10,49],"function":[1,2,3,4,5,10,12,13,14,48,49,50],"import":[1,2,3,4,5,9,10],"int":[1,9,10,13,15,21,32,33,39,47,49],"new":[21,39,47],"return":[1,2,3,4,5,15,16,17,18,19,20,23,25,27,29,32,33,34,35,36,37,38,45,46,47,49,50],"static":[0,9,10],"super":3,"switch":3,"true":[1,2,3,5,46],"try":[3,11],"var":[5,10],"voil\u00e0":4,"while":[3,5,9],A:[3,4,9,10],And:[0,3],As:[2,3,4,9,10],At:[4,10],But:4,By:49,For:[3,9,10,11],If:[4,10,35,44,46,48],In:[1,2,3,4,10],It:[1,3,4,6,8,10,14],Of:9,On:10,One:3,The:[1,2,3,4,9,10,16,17,18,19,20,21,23,32,33,34,35,36,37,39,44,46,50],There:1,These:10,To:[1,4,9,10,12],_:5,__expf:2,__init__:[11,48],_db:5,_dropout:4,_dw:5,_layer_norm_bwd_dwdb:5,_layer_norm_bwd_dx_fus:5,_layer_norm_fwd_fus:5,_matmul:3,_seeded_dropout:4,a100:[3,10],a_ptr:3,ab:1,abl:10,about:[1,2,3,4,8],abov:[1,2,3,4,10,12],academ:9,acc:[3,9,10],acceler:9,access:[1,3,9,10,14],accomod:3,accordingli:10,account:10,accumul:[3,5,10],accuraci:[3,9],achiev:[3,9,10],across:[2,4,9,10],activ:3,actual:[3,9,10],add:[1,4,5,7,16],add_kernel:1,addit:[2,6,7,9,49],addition:10,address:[9,25],adopt:10,advanc:[2,3,9],advoc:10,affect:3,affin:10,after:3,against:[0,1,2,3,8],aggress:[9,10],agnost:[9,10],ahead:10,aim:[2,8],al:[9,10],alex:4,algebra:10,algorithm:[3,4,9,10],alia:10,all:[2,3,4,6,9,10,12,27,29,31,45,48],allclos:[2,3],allen1984:10,allen:10,alloc:[1,2,3,5,9],allow:[1,2,5,9,10],along:[1,3,27,29,32,33,45,49],also:[1,2,3,4,5,9,10],altern:4,alwai:[10,46],amd:9,amen:10,amount:[5,9],ampl:10,an:[1,2,3,4,9,10,11,16,17,18,19,20,34,35,36,37],analog:1,analysi:[9,10],analyz:10,ancourt1991:10,ancourt:10,ani:[1,2,3,10,12,13,48],anoth:[2,10],anytim:12,apart:10,apex:5,apex_layer_norm:5,api:48,appear:48,appli:[3,4,5,9,10],applic:[4,10,13],approach:[9,10],appropri:1,approxim:2,ar:[0,1,2,3,4,9,10,12,14,25,31,44,46,48],arang:[1,2,3,4,5],arbitrari:3,architectur:[3,9],area:10,arg:[1,2,3,5,13,14,48],argument:[1,2,3,11,12,13,14,46,48],arrai:[10,47],arrang:3,art:[9,10],artifici:4,arxiv:[9,10],ask:2,aspect:10,asplo:9,assert:[1,3,4],assert_almost_equ:5,assum:[2,48],asynchron:[1,9],atom:[16,17,18,19,20],atomic_ca:5,atomic_xchg:5,auguin1983:9,auguin:9,auto:[2,3,10,11,12,13],autograd:5,autom:9,automat:[2,3,9,10,11],autotun:[3,10],avail:[0,4,9,10],avoid:[2,12,46],awar:9,awkward:4,axi:[1,2,3,4,5,27,29,32,33,45,48],b:[3,5,9,10],b_ptr:3,back:[1,2,3,4,5],backpropag:4,backward:5,bad:4,baghdadi2021:[9,10],baghdadi:[9,10],balanc:10,bandwidth:2,base:[4,8,9,10],basic:[1,6,10],becom:9,been:[1,9,10],befor:[3,12,16,17,18,19,20],begin:10,behavior:[10,12],being:[2,4],believ:10,below:[4,6,10],bench:0,bench_layer_norm:5,benchmark:[0,5,49,50],benefit:[2,9,10],best:[1,9],between:[1,9],bia:5,bit:4,block:[1,2,3,4,9,10,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,34,35,36,37,38,39,40,41,42,43,44,45,46,47],block_siz:[1,2,4,5,10,12,13],block_size_k:3,block_size_m:[3,5],block_size_n:[3,5],block_start:[1,4],blue:[1,2,3,5],boil:10,bool:[46,48],both:[10,46],bound:[1,2,3,10],branch:10,broad:9,broadcast:[21,25,44,46],buffer:5,build:[0,3],built:[1,10],c:[3,9,10],c_mask:3,c_ptr:3,cach:[9,10,25],cache_modifi:25,call:[1,3,10,14,35],callabl:[1,13,14,49],can:[0,1,2,3,4,9,10,12,50],cannot:[3,9,10],capabl:[8,9],cast:5,cd:0,cdiv:[1,3,4,5],ceil:13,certain:13,cgo:[9,10],challeng:4,chang:[3,4,12,25],chapter:8,characterist:10,cheap:9,check:[3,8],checkpoint:4,chen2018:9,chen:9,chip:2,choic:8,click:[1,2,3,4,5],clone:[0,5],close:10,cmake:0,cmp:[16,17,18,19,20],coalesc:9,code:[1,2,3,4,5,6,9,10],col:[3,5,10],col_offset:2,color:48,column:[2,3],com:0,combin:9,come:[2,3,10],command:0,common:10,commonli:10,compar:[2,3,4,5,8,10,16,17,18,19,20],compat:23,compil:[2,3,8,9,11,14,31],complet:10,complex:10,compos:[4,9],composit:10,comprehens:[9,10],comput:[4,5,8,9,10,13,22,24,26,28,30,40,41,42,43],computation:[9,10],concern:10,concis:[1,48],condit:[10,46],config:[3,12],configur:[3,11,12,50],confirm:2,connectom:9,consecut:10,consequ:9,consid:2,consist:4,constraint:[3,10],construct:9,constructor:48,consum:3,contain:[10,16,17,18,19,20,48],contextu:10,contigu:[3,15,38],control:[9,10],conveni:3,convert:[1,3,14],convolut:9,cooper:11,copi:[4,9,16,17,18,19,20],core:[9,10],correct:1,correspond:[1,2,3,48],cosin:22,cost:10,could:[2,10],count:5,cours:9,cpython:0,creat:[1,2,3,5,9],crucial:4,csv:1,ctx:5,cubla:[3,9],cuda:[1,2,3,4,5,9],cudnn:9,current:33,custom:[1,2,3,8],cut:3,cvpr:9,d:[2,4,12,14],dart:10,darte1999:10,data:[1,3,4,5,9,10,16,17,18,19,20,25,46,47],data_ptr:14,dataflow:10,david:4,db:5,db_ref:5,db_tri:5,deal:4,decad:9,decim:5,declar:1,decompos:10,decor:[1,3,12,13,14],decreas:4,dedic:3,deep:[3,4,9,10],def:[1,2,3,4,5,12,13],defin:[1,2,3,10,25],definit:10,denomin:2,denot:1,dens:10,depend:[0,10,46],deploi:9,describ:[4,10],design:10,desir:[21,39],detail:[3,10],detect:9,develop:[9,10],devic:[1,2,3,5],dg:5,dialect:10,dict:13,dictionari:[11,13],diesel:10,differ:[1,2,3,4,9,10,48],difficult:10,difficulti:[3,9],dijkstra82:10,dijkstra:10,dim:[2,5,10],dimens:[3,23,27,29,45],dimension:[3,10,23],dir:0,direct:3,disjoint:10,disk:1,dissert:10,distribut:[2,4,10],divis:3,dnn:[8,9,10],do_bench:[1,2,3,5],doc:4,doe:[1,2,3,10],doesn:[5,10],domain:[9,10],don:[1,2,3],done:[3,9,27,29,45],dot:3,doubli:3,doubt:10,down:[3,10],download:[0,1,2,3,4,5,6],dram:[1,2],dropout:[6,7],dror:4,dsl:[8,9,10],dtype:[1,2,3,5,16,17,18,19,20,25,44,47],dw:5,dw_ref:5,dw_tri:5,dx:5,dx_ref:5,dx_tri:5,dy:5,e:[0,2,3,4,9,10,47],each:[1,2,3,4,5,9,10,11,13],eas:10,easi:[3,4],easier:[1,2,9],easili:3,ed:[1,3],education:2,effect:10,effici:[3,4,9,36],effort:10,either:[1,32,33,46],elango2018:10,elango:10,element:[1,2,3,4,5,22,24,26,27,28,29,30,40,41,42,43,44,45,46,48],element_s:[2,5],element_ti:[16,17,18,19,20,25,44],elementwis:[2,25],els:[3,5],emerg:9,empti:[3,5],empty_lik:[1,2,4,5],enabl:10,encod:10,encourag:4,end:[9,10,15],enforc:10,engin:10,enqueu:[1,2,5],ensur:10,entir:10,entri:36,environ:8,ep:5,equal:10,error:3,especi:9,et:[4,9,10],euromicro:9,evalu:[3,4,12,46],even:[4,10],evidenc:9,evolv:9,exampl:[1,2,3,4,5,6,9,10,11],exchang:20,execut:[7,9,10,11,50],exist:[9,10],exp:2,expect:[2,16,17,18,19,20],expens:[9,10,13],explor:[4,9],exponenti:[2,24],express:[9,10],extar:1,extend:[3,4],extract:3,extrem:10,f:[1,2,3,10],facilit:[9,10],fact:10,fairli:3,fals:[25,44,46,48,49],far:2,fast:[2,5,9,10],faster:[2,35],fastest:10,featur:5,feel:3,fetch:9,few:10,field:9,figur:10,file:[1,2,3,7],fill:47,final_db:5,final_dw:5,fine:4,first:[1,3,4,5,8,10,23,28,30],first_pid_m:3,firstli:4,fit:2,fix:48,flag:2,flatten:38,flexibl:9,float16:[3,5,23,47],float32:[1,2,3,4,5,23,34,37],flow:[9,10],fly:4,fn:[14,49],focu:[3,10],folder:4,follow:[0,2,3,8,9,10],footprint:4,forc:4,forget:1,formal:10,format:10,forward:5,found:[16,17,18,19,20],foundat:10,four:36,fp16:3,fp32:3,frac:4,framework:[9,10],free:3,from:[1,2,3,4,9,10,25,46],full:[1,2,3,4,5],fulli:10,func:10,fundament:10,further:[4,10],fuse:[3,5,6,7],fusedlayernorm:5,fusion:[2,10],g:[3,4,9,10,47],galleri:[1,2,3,4,5,6],gb:[1,2,5],gbp:[1,2,5],gener:[1,2,3,4,5,6,9,10,34,35,36,37,48],geoffrei:4,geq:10,get:[1,2,3,4,7],girbal2006:10,girbal:10,git:0,github:0,give:9,given:[2,3,4,21,32,33,34,35,36,37,39,47],global:10,go:[1,3,10],good:[1,10],gpgpu:9,gpu:[1,2,4,8,9,10,11,14],grad:5,grad_to_non:[5,49],gradient:[5,49],grammat:10,graphic:9,greater:2,green:[1,2,3,5],grid:[1,2,3,4,5,32,33],grid_m:3,grid_n:3,grosser2012:10,grosser:10,group:3,group_id:3,group_m:3,group_size_m:[3,5],grow:10,guard:[1,2],guid:9,ha:[1,3,4,9,10,32,33],had:1,halid:[9,10],hand:10,handl:[1,2,4,10],handwritten:9,hard:3,harder:10,hardwar:[3,8,10],hasn:1,have:[2,4,9,10,14,23,46,48],heavi:9,helper:[1,2],henc:3,here:[1,2,3,4,5],heurist:[2,5],hierarch:9,hierarchi:10,high:[3,9,10],higher:3,highli:9,highlight:10,hint:10,hinton:4,hit:3,how:[1,2,3,8,9,13],howev:[2,10],html:4,http:[0,4],i:[1,2,3,4,5,9,10],id:[3,33],idea:9,ideal:2,ident:2,identifi:1,idx:[25,44],ilya:4,imag:[9,10],implement:[1,2,3,4,9,10],implicitli:[1,14,25,44],importantli:10,impos:10,improv:[3,4],incompat:[3,10],incorrect:3,increas:[1,2,3,4],incred:9,increment:10,inde:10,independ:[2,5,10],index:1,indic:[10,46],induc:10,industri:9,inequ:10,inf:2,inform:10,infrastructur:10,initi:[1,3],inner:[3,23],inplac:3,input:[1,2,3,4,5,10,13,21,22,23,24,26,27,28,29,30,31,38,39,40,41,42,43,45],input_ptr:2,input_row_strid:2,instal:8,instanc:[1,2,3,4,5,9,11,32,33],instanti:4,instead:[2,46],instruct:[8,9],int1:[25,44],int32:[4,5,35,36],integ:10,interchang:10,interest:[5,9,10],intermedi:10,intern:[2,10],interv:15,intrins:10,introduc:4,introduct:8,invari:[2,10],invoc:4,ipynb:[1,2,3,4,5],ir:10,irregular:[2,10],is_contigu:[3,4],is_cuda:1,isn:3,issu:[9,10],iter:[3,9,10],its:[1,2,3,10],j:[3,9,10],jit:[1,2,3,4,5,12,13],jmlr:4,john:4,johnson:4,journal:10,jrk2013:9,jupyt:[1,2,3,4,5,6],just:[3,10,13],k:[3,4,9,10],kb:9,keep:4,kei:[3,9,12],kellei:9,kernel:[4,5,8,9,11,12,13],keyword:[1,11],ki:10,kind:2,know:31,known:10,krizhevski:4,kwarg:14,l2:5,label:[1,2,3,48],lam1991:9,lam:9,lambda:[1,2,3,4,5,13],languag:[1,2,3,4,5,8,9,14],larg:[9,10],last:3,later:[2,10],latest:0,lattner2004:10,lattner2019:10,lattner:10,launch:[1,2,3,32,33],law:10,layer:[6,7,9,10],layer_norm:5,layernorm:5,lead:[4,9,10],leaky_relu:3,leakyrelu:3,learn:[1,2,3,4,8,9,10],least:10,lee2017:9,lee:9,left:10,legal:10,length:1,less:[4,5,9,10],let:[1,2,4,31],letter:10,level:[3,9,10],li:9,librari:[0,3,9,10],lifelong:10,like:[1,4,9,10,35],limit:[2,4],lindenstrauss:4,line:[1,2,3,4,10,48],line_arg:[1,2,3,5,48],line_nam:[1,2,3,5,48],line_v:[1,2,3,5,48],linear:[9,10],link:0,list:[1,3,12,13,48,49,50],litteratur:10,ll:4,llvm11:0,llvm:[0,10],load:[1,2,3,4,5,10,46],local:[9,10],locat:[3,16,17,18,19,20,25,44],lock:5,lock_id:5,log2:13,log:48,logarithm:[1,26],look:[4,8,9],loop:[3,10,11],low:[6,7,10],m:[0,2,3,5,9],machin:[9,10],machineri:[9,10],made:9,mai:[2,10,13],main:[3,9,10],maintain:[2,10],major:[3,10],make:[1,2,9,10],manag:[4,9],mani:[1,9,10],manual:[2,10],manual_se:[1,2,3],map:3,mapl:10,mark:[4,50],markedli:9,mask:[1,2,3,4,5,16,18,19,20,25,44,46],match:[3,16,17,18,19,20],math:13,mathbb:10,mathbf:10,mathcal:[10,37],mathemat:10,matmul:[3,10],matmul_kernel:3,matric:[2,3],matrix:[2,4,6,7,9,10,11,23],matrix_s:10,matter:[3,9,10],max:[1,2,5,18],max_fused_s:5,max_m:[1,2,3,5],maxim:[8,10,36],maximum:[1,2,27],mb:[7,9],mean1:5,mean2:5,mean:[3,5,10,12],mechan:[2,10],median:49,memori:[1,2,3,6,7,9,10,16,17,18,19,20,25,44,46],mention:3,meta:[1,2,3,4,5,11,12,13],metaparamet:1,method:[10,11,14,48,50],methodolog:10,micro:9,min:[3,5,19],min_m:[1,2,3,5],minimum:29,minut:[1,2,3,4,5],miss:10,mitig:10,ml:9,mlir:10,mn:2,mode:5,model:[1,9,10],modern:[3,8,9,10],modular:10,moor:10,mora:4,more:[2,3,4,8,9,10,48],most:[3,10],mostli:11,move:3,movement:4,ms:[1,2,3,5,49],much:[2,3],mullapudi2016:10,mullapudi:10,multi:[3,9,10],multipl:[1,4,6,7,9,10,11,12,31,35],multipli:[3,4,5,10,23],must:[2,3,15,23,46],n:[2,3,5,9,37],n_col:2,n_element:[1,4],n_row:2,naiv:[2,4],naive_softmax:2,name:[1,2,3,12,13,48],nativ:[1,2,3],natur:[2,9,26],nb:9,necessari:2,need:[1,2,3,4,35],nelement:2,nest:[3,10],net:10,network:[4,9,10],neural:[4,9,10],neurosci:9,never:4,next:[2,3],next_power_of_2:[2,5],nightli:0,nip:9,nitish:4,nn:[3,5],non:9,none:[2,3,5,12,16,18,19,20,25,44,48,49],nonzero:46,norm:[4,5,7],normal:[2,3,6,7],normalized_shap:5,note:[0,1,2,3,4,10,12,14,46],notebook:[1,2,3,4,5,6],notic:[2,10],notori:[3,9],novel:9,now:[1,3],num_pid_in_group:3,num_pid_m:3,num_pid_n:3,num_stag:[3,11],num_warp:[2,3,5,11,12],number:[1,2,3,4,5,10,11,32,34,35,36,37],numel:[1,4,5],numer:[2,9],nvidia:[9,25],o:[2,4],object:[1,3,9,11,12,14,16,17,18,19,20],obtain:1,obvious:2,occur:10,off:5,offer:9,offici:0,offs_am:3,offs_bn:3,offs_cm:3,offs_cn:3,offs_k:3,offset:[1,4,5,34,35,36,37],often:3,omega:10,onc:[2,9,10],one:[2,3,4,5,6,9,10,48],onli:[2,3,4,9,10,14],op:[1,2],open:15,openai:0,opencl:9,oper:[1,2,3,4,6,9,16,17,18,19,20,46],opportun:9,opsila:9,optim:[9,10],option:[1,3,25,44,48,49],orang:5,order:[2,3,6,10],org:4,origin:10,osdi:9,other:[2,3,4,5,8,10,14,23,25,28,30],otherwis:[4,46],our:[1,2,3,9],out:[1,2,3,4,5,8,10],outlin:10,output2:4,output3:4,output:[1,2,3,4,5],output_ptr:[1,2,4],output_row_start_ptr:2,output_row_strid:2,output_torch:1,output_triton:1,over:[2,4,9,10],overfit:4,overflow:2,own:3,p:[4,10],pa:3,packag:14,pact:10,pad:2,par:3,paradigm:[9,10],paragraph:4,parallel:[1,2,3,4,5,8,9,10,11],paralleliz:9,param:13,paramet:[1,3,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50],parametr:9,part:[3,4,10],partial:5,partial_db:5,partial_dw:5,particular:[2,3],particularli:[9,10],partit:9,pass:[1,5,10,11],past:[9,10],path:1,pattern:9,pb:3,peak:10,per:[2,4,5],percentil:49,perf:3,perf_report:[1,2,3,5,48],perform:[1,2,4,9,10,16,17,18,19,20,49],persist:4,person:10,perspect:10,pgm:1,phase:10,philosophi:10,philox:[4,36],pid:[1,3,4,5],pid_m:3,pid_n:3,pip:0,pipelin:[9,10,11],platform:[8,10],pldi:9,plot:[0,1,2,3,48],plot_nam:[1,2,3,5,48],pmatrix:10,point:[1,10,36],pointer:[1,2,4,5,14,16,17,18,19,20,25,44],pointerdtyp:[16,17,18,19,20,25,44],polli:10,polyhedr:9,polyhedra:10,popular:10,portabl:[9,10],pose:9,posit:[5,13],possibl:[1,2,3,10,11],power:[2,4,10,13,15],ppopp:10,practic:[1,2,3,9],pragma:9,pre:[0,9],prealloc:1,predict:10,prefer:2,premis:9,present:[0,3],preserv:10,preserve_rng_st:4,prevent:[4,10],primer:10,primit:[9,14],principl:10,print:[1,2,3,4],print_data:[1,2,3,5],prng:4,probabl:[4,10],problem:1,problemat:10,procedur:10,process:[1,5,9,10],processor:9,produc:[3,4],product:[8,10,23],program:[1,2,3,4,5,8,9,32,33],program_id:[1,2,3,4,5],programm:[9,10],prohibitev:13,project:[4,9],promot:[3,10],properli:2,properti:10,propos:9,proprietari:3,provid:[1,2,3,4,5,8,10,12,27,29,45,49],prune:4,pseudo:[3,4,36],pseudorandom:4,ptr:3,ptx:25,purpos:[9,10],push:10,put:4,py:[0,1,2,3,4,5,7],pypi:0,pytest:0,python:[1,2,3,4,5,6,14],pytorch:[1,2,4],qquad:10,r:[0,2],ragan:9,rais:5,rand:[1,4,5],randint4x:35,randn:[2,3,4,5],randn_lik:5,random:[4,34,35,36,37],randomli:4,rang:[1,2,3,5,9,10],rapidli:[9,10],rate:3,rather:9,raw:1,rdom:10,re:[1,3],read:[2,3,6],reader:10,real:9,reason:10,recent:9,recommend:6,recomput:[4,9],record_clock:49,rectifi:9,redmon2016:9,redmon:9,reduct:[2,5,27,29,45],refer:1,regardless:[4,46],regim:4,regrett:9,regular:[4,10],rel:[1,10],relat:8,releas:[0,5,9],reli:10,relu:3,remain:[9,48],rememb:3,reorder:10,rep:[5,49],repetit:49,repres:[2,3,10,11],requir:[0,2,4,10],requires_grad:5,requires_grad_:5,research:[9,10],reset:[12,49],reset_to_zero:12,reshap:5,resolut:10,resourc:9,resp:10,respect:10,restrict:10,result:[0,1,2,9,10],ret:2,retain_graph:5,retriev:10,reus:3,revisit:9,right:10,rise:10,role:10,ron:4,root:43,roughli:3,row:[2,3,4,5],row_idx:2,row_minus_max:2,row_start_ptr:2,rstd:5,run:[0,1,2,3,4,5,8,10,12,14,50],runtim:[10,49],runtimeerror:5,ruslan:4,rvar:10,s:[1,2,4,5,10,36],said:10,salakhutdinov:4,salmon2011:4,salmon:4,same:[4,9,48],sato2019:10,sato:10,save:[1,2,3],save_for_backward:5,save_path:[1,5],saved_tensor:5,sc:10,scalabl:10,scalar:[4,9,23,34,35,36,37,47],scale:48,scan:10,schedul:9,scienc:10,scientif:10,scop:10,scope:10,script:[0,1,2,3,4,5],second:[1,2,3,4,5,10,23,28,30],secondli:4,section:[3,10],see:[1,2,3,4,10],seed:[34,35,36,37],seeded_dropout:4,seem:[1,10],select:[9,10,46],self:[11,48],semant:10,semi:10,sens:[1,9,10],separ:[5,10],sequenc:9,set:[1,4,10],setup:0,sever:[9,10],shall:10,shape:[2,3,4,5,10,21,25,39,44,46,47],share:9,shaw:4,shift:2,should:[1,3,9,10,11,27,29,45,48],show_plot:[1,2,3],shown:10,side:10,sight:10,signal:9,significantli:2,sigplan:10,simd:9,simpl:[1,2,3,4],simplest:6,simpli:10,simplic:3,simplifi:4,sinc:[1,2,3],sine:41,singl:[2,4,9,35],size:[1,2,4,10],slower:[9,10],slowest:10,sm80:11,sm:10,smaller:[3,4],smallest:[2,13],snemi3d:9,so:[1,2,3,4,10],softmax:[4,6,7],softmax_kernel:2,softmax_output:2,softwar:11,solid:10,solut:3,solv:10,some:3,sometim:10,sourc:[1,2,3,4,5,6,10],space:[9,10],spars:[4,9,10],spatial:10,speak:3,special:9,specif:[3,9],specifi:[10,13,16,17,18,19,20,44],speed:2,sphinx:[1,2,3,4,5,6],split:10,spmd:[1,9,10],sqrt:5,squar:43,sram:[2,3,5],srivastava2014:4,srivastava:4,stabil:2,stabl:0,stage:11,stai:5,standard:10,start:[5,6,15],started_tutori:7,state:[4,9,10],statement:10,staticmethod:5,std:5,step:10,still:[1,2,3,10],stop:15,store:[1,2,3,4,5,16,17,18,19,20,46],str:[12,13,25,48],straightforward:3,strategi:[4,10],stream:[5,35],strength:9,stride:[2,3,4,5],stride_ak:3,stride_am:3,stride_bk:3,stride_bn:3,stride_cm:3,stride_cn:3,stride_xi:3,stride_xj:3,structur:[9,10],style:[1,2,3,5,48],subscript:10,substanti:9,substract:2,subtract:2,successfulli:10,suffer:10,suit:9,sum:[1,2,5],sum_db:5,sum_dw:5,superhuman:9,support:[4,5,10],sure:2,surprisingli:9,surround:10,suspicion:2,sutskev:[4,9],sutskever2014:9,swap:[16,17,18,19,20],swizzl:9,synchron:[1,9],system:[0,3,9,10],t:[1,2,3,5,10],t_:10,tabul:4,taco:10,take:[3,4,8,13],taken:10,target:9,techniqu:[3,9,10],temperatur:4,tempor:10,tend:10,tension:9,tensor:[1,2,3,4,5,9,10,12,14,49],tensorrt:9,test:[0,1,5,8],test_layer_norm:5,text:10,tflop:3,th:49,than:[2,3,5,9,10,35,48],thei:[3,9,10],them:1,themselv:3,theoret:2,therebi:10,therefor:3,theta:10,theta_:10,thi:[1,2,3,4,5,9,10,12,13,14,36,48],thing:[1,4],think:2,those:2,though:[9,10],thought:10,thread:[2,9,11],through:[6,10],throughout:[10,48],throughput:8,tile:10,time:[0,1,2,3,4,5,9,10,12,35,49],tiramisu:[9,10],tl:[1,2,3,4,5,47],tmp:0,tog:10,togeth:4,tolist:4,topic:10,torch:[1,2,3,4,5,14,49],torch_output:3,torch_relu:3,total:[1,2,3,4,5,7],tradit:[4,9,10],transform:[4,10],travers:10,trend:9,tri:[21,39],trick:2,tricki:4,trigger:[3,12],triton:[0,1,2,3,4,5,6,9,10],triton_output:3,trivial:9,tune:[2,3,10,12,13],tuner:11,tupl:[1,21,39,47],tutori:[1,2,3,4,8],tutorials_jupyt:6,tutorials_python:6,tvm:[9,10],two:[1,2,3,10,12,13,15,23],txt:0,type:[13,23,25,46,47],typecast:[25,44],typic:10,u:[0,34],un:10,uncommon:10,underneath:10,understand:2,undesir:12,unfortun:[3,10],unifi:9,uniformli:4,unint:46,unit:[0,9],univers:10,unrol:10,up:2,updat:[3,10,12],us:[1,2,3,4,5,9,10,11,12,13,14,35,46,48,50],util:[1,5],v100:10,v:5,val:[16,17,18,19,20],valid:1,valu:[1,2,3,4,12,13,15,16,17,18,19,20,22,24,25,26,27,29,31,40,41,42,43,44,45,46,47,48,50],valuabl:2,variabl:[3,11],variant:9,variou:6,vasilach:[9,10],vasilache2018:[9,10],vast:10,vec:10,vector:[4,6,7,9,10],vendor:3,veri:[2,4,10],verif:10,verifi:[2,10],via:10,view:38,visibl:10,vision:9,vs:0,w:[5,10],w_shape:5,wa:4,wai:[2,3,4],want:[2,4,46],warmup:49,warp:[2,5,11],wast:2,wdy:5,we:[1,2,3,4,9,10],weight:5,well:[4,9,10],whatev:12,wheel:0,when:[2,3,4,9,10,11,12,14,46],where:[1,3,4,5,10,13,44],whether:[9,48],which:[1,2,3,4,5,9,10,12,27,29,45,48],whose:[1,2,3,4,10,12,25],wide:10,wise:[1,2,22,24,26,28,30,40,41,42,43,44],wish:[3,10],within:[3,14,15],without:10,wolf:10,wolfe1989:10,won:2,word:10,work:[2,4,8,9],workload:[3,11],wors:[3,9,10],would:[1,2,4],wouldn:10,wrapper:3,write:[1,2,3,4,5,6,8,10],wrote:2,x:[1,2,3,4,5,10,22,24,26,28,30,38,40,41,42,43,46,48],x_arg:5,x_keep:4,x_keep_ptr:4,x_log:[1,48],x_max:2,x_name:[1,2,3,5,48],x_ptr:[1,4,12,13],x_shape:5,x_size:[12,13],x_val:[1,2,3,5,48],xhat:5,xi:10,xii:10,xlabel:48,xmean:5,xo:10,y:[1,2,3,5,10,28,30,46,48],y_fwd:5,y_log:48,y_name:[1,2],y_ptr:1,y_ref:5,y_torch:2,y_tri:5,y_triton:2,year:10,yet:[9,10],yi:10,yield:46,yii:10,ylabel:[1,2,3,5,48],yo:10,you:[0,1,2,3,4,6,9,12,35,46],your:[0,1,8],yourself:[2,3],z:[1,2,10],zero:[3,4,5,12],zip:6},titles:["Installation","Vector Addition","Fused Softmax","Matrix Multiplication","Low-Memory Dropout","Layer Normalization","Tutorials","Computation times","Welcome to Triton\u2019s documentation!","Introduction","Related Work","triton.Config","triton.autotune","triton.heuristics","triton.jit","triton.language.arange","triton.language.atomic_add","triton.language.atomic_cas","triton.language.atomic_max","triton.language.atomic_min","triton.language.atomic_xchg","triton.language.broadcast_to","triton.language.cos","triton.language.dot","triton.language.exp","triton.language.load","triton.language.log","triton.language.max","triton.language.maximum","triton.language.min","triton.language.minimum","triton.language.multiple_of","triton.language.num_programs","triton.language.program_id","triton.language.rand","triton.language.randint","triton.language.randint4x","triton.language.randn","triton.language.ravel","triton.language.reshape","triton.language.sigmoid","triton.language.sin","triton.language.softmax","triton.language.sqrt","triton.language.store","triton.language.sum","triton.language.where","triton.language.zeros","triton.testing.Benchmark","triton.testing.do_bench","triton.testing.perf_report","triton","triton.language","triton.testing"],titleterms:{"final":3,addit:1,advantag:10,algebra:52,api:8,arang:15,arithmet:3,atom:52,atomic_add:16,atomic_ca:17,atomic_max:18,atomic_min:19,atomic_xchg:20,autotun:12,baselin:4,benchmark:[1,2,3,48],binari:0,broadcast_to:21,cach:3,challeng:9,co:22,comparison:52,compil:[10,52],comput:[1,2,3,7],config:11,creation:52,distribut:0,do_bench:49,document:8,dot:23,dropout:4,exercis:4,exp:24,from:0,further:8,fuse:2,gener:52,get:8,go:8,heurist:13,hint:52,index:52,instal:0,introduct:9,jit:14,kernel:[1,2,3],l2:3,languag:[10,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,52],layer:5,limit:10,linear:52,load:25,log:26,low:4,manipul:52,math:52,matrix:3,max:27,maximum:28,memori:[4,52],min:29,minimum:30,model:52,motiv:[2,3,9],multipl:3,multiple_of:31,normal:5,num_program:32,number:52,op:52,optim:3,packag:0,perf_report:50,perform:3,pointer:3,polyhedr:10,program:[10,52],program_id:33,python:[0,8],rand:34,randint4x:36,randint:35,randn:37,random:52,ravel:38,reduct:52,refer:[4,9,10],relat:10,represent:10,reshap:39,result:3,s:8,schedul:10,seed:4,shape:52,sigmoid:40,sin:41,softmax:[2,42],sourc:0,sqrt:43,squar:3,start:8,store:44,sum:45,test:[2,3,48,49,50,53],time:7,triton:[8,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53],tutori:6,unit:[2,3],vector:1,welcom:8,where:46,work:10,zero:47}})
\ No newline at end of file
+Search.setIndex({docnames:["getting-started/installation","getting-started/tutorials/01-vector-add","getting-started/tutorials/02-fused-softmax","getting-started/tutorials/03-matrix-multiplication","getting-started/tutorials/04-low-memory-dropout","getting-started/tutorials/05-layer-norm","getting-started/tutorials/index","getting-started/tutorials/sg_execution_times","index","programming-guide/chapter-1/introduction","programming-guide/chapter-2/related-work","python-api/generated/triton.Config","python-api/generated/triton.autotune","python-api/generated/triton.heuristics","python-api/generated/triton.jit","python-api/generated/triton.language.arange","python-api/generated/triton.language.atomic_add","python-api/generated/triton.language.atomic_cas","python-api/generated/triton.language.atomic_max","python-api/generated/triton.language.atomic_min","python-api/generated/triton.language.atomic_xchg","python-api/generated/triton.language.broadcast_to","python-api/generated/triton.language.cos","python-api/generated/triton.language.dot","python-api/generated/triton.language.exp","python-api/generated/triton.language.load","python-api/generated/triton.language.log","python-api/generated/triton.language.max","python-api/generated/triton.language.maximum","python-api/generated/triton.language.min","python-api/generated/triton.language.minimum","python-api/generated/triton.language.multiple_of","python-api/generated/triton.language.num_programs","python-api/generated/triton.language.program_id","python-api/generated/triton.language.rand","python-api/generated/triton.language.randint","python-api/generated/triton.language.randint4x","python-api/generated/triton.language.randn","python-api/generated/triton.language.ravel","python-api/generated/triton.language.reshape","python-api/generated/triton.language.sigmoid","python-api/generated/triton.language.sin","python-api/generated/triton.language.softmax","python-api/generated/triton.language.sqrt","python-api/generated/triton.language.store","python-api/generated/triton.language.sum","python-api/generated/triton.language.where","python-api/generated/triton.language.zeros","python-api/generated/triton.testing.Benchmark","python-api/generated/triton.testing.do_bench","python-api/generated/triton.testing.perf_report","python-api/triton","python-api/triton.language","python-api/triton.testing"],envversion:{"sphinx.domains.c":2,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":4,"sphinx.domains.index":1,"sphinx.domains.javascript":2,"sphinx.domains.math":2,"sphinx.domains.python":3,"sphinx.domains.rst":2,"sphinx.domains.std":2,"sphinx.ext.intersphinx":1,sphinx:56},filenames:["getting-started/installation.rst","getting-started/tutorials/01-vector-add.rst","getting-started/tutorials/02-fused-softmax.rst","getting-started/tutorials/03-matrix-multiplication.rst","getting-started/tutorials/04-low-memory-dropout.rst","getting-started/tutorials/05-layer-norm.rst","getting-started/tutorials/index.rst","getting-started/tutorials/sg_execution_times.rst","index.rst","programming-guide/chapter-1/introduction.rst","programming-guide/chapter-2/related-work.rst","python-api/generated/triton.Config.rst","python-api/generated/triton.autotune.rst","python-api/generated/triton.heuristics.rst","python-api/generated/triton.jit.rst","python-api/generated/triton.language.arange.rst","python-api/generated/triton.language.atomic_add.rst","python-api/generated/triton.language.atomic_cas.rst","python-api/generated/triton.language.atomic_max.rst","python-api/generated/triton.language.atomic_min.rst","python-api/generated/triton.language.atomic_xchg.rst","python-api/generated/triton.language.broadcast_to.rst","python-api/generated/triton.language.cos.rst","python-api/generated/triton.language.dot.rst","python-api/generated/triton.language.exp.rst","python-api/generated/triton.language.load.rst","python-api/generated/triton.language.log.rst","python-api/generated/triton.language.max.rst","python-api/generated/triton.language.maximum.rst","python-api/generated/triton.language.min.rst","python-api/generated/triton.language.minimum.rst","python-api/generated/triton.language.multiple_of.rst","python-api/generated/triton.language.num_programs.rst","python-api/generated/triton.language.program_id.rst","python-api/generated/triton.language.rand.rst","python-api/generated/triton.language.randint.rst","python-api/generated/triton.language.randint4x.rst","python-api/generated/triton.language.randn.rst","python-api/generated/triton.language.ravel.rst","python-api/generated/triton.language.reshape.rst","python-api/generated/triton.language.sigmoid.rst","python-api/generated/triton.language.sin.rst","python-api/generated/triton.language.softmax.rst","python-api/generated/triton.language.sqrt.rst","python-api/generated/triton.language.store.rst","python-api/generated/triton.language.sum.rst","python-api/generated/triton.language.where.rst","python-api/generated/triton.language.zeros.rst","python-api/generated/triton.testing.Benchmark.rst","python-api/generated/triton.testing.do_bench.rst","python-api/generated/triton.testing.perf_report.rst","python-api/triton.rst","python-api/triton.language.rst","python-api/triton.testing.rst"],objects:{"triton.Config":{__init__:[11,1,1,""]},"triton.language":{arange:[15,2,1,""],atomic_add:[16,2,1,""],atomic_cas:[17,2,1,""],atomic_max:[18,2,1,""],atomic_min:[19,2,1,""],atomic_xchg:[20,2,1,""],broadcast_to:[21,2,1,""],cos:[22,2,1,""],dot:[23,2,1,""],exp:[24,2,1,""],load:[25,2,1,""],log:[26,2,1,""],max:[27,2,1,""],maximum:[28,2,1,""],min:[29,2,1,""],minimum:[30,2,1,""],multiple_of:[31,2,1,""],num_programs:[32,2,1,""],program_id:[33,2,1,""],rand:[34,2,1,""],randint4x:[36,2,1,""],randint:[35,2,1,""],randn:[37,2,1,""],ravel:[38,2,1,""],reshape:[39,2,1,""],sigmoid:[40,2,1,""],sin:[41,2,1,""],softmax:[42,2,1,""],sqrt:[43,2,1,""],store:[44,2,1,""],sum:[45,2,1,""],where:[46,2,1,""],zeros:[47,2,1,""]},"triton.testing":{Benchmark:[48,0,1,""],do_bench:[49,2,1,""],perf_report:[50,2,1,""]},"triton.testing.Benchmark":{__init__:[48,1,1,""]},triton:{Config:[11,0,1,""],autotune:[12,2,1,""],heuristics:[13,2,1,""],jit:[14,2,1,""]}},objnames:{"0":["py","class","Python class"],"1":["py","method","Python method"],"2":["py","function","Python function"]},objtypes:{"0":"py:class","1":"py:method","2":"py:function"},terms:{"0":[1,2,3,4,5,7,9,10,32,33,34,37,47,49],"00":7,"0000":3,"000000":2,"000001":[1,2,5],"000002":[2,5],"000009":5,"004273":1,"01":[1,3,7],"012175":5,"016170":5,"02":[2,7],"021816":5,"025776":3,"028308":3,"03":[3,7],"038096":2,"04":[4,7],"040176":3,"047592":3,"05":[5,7],"050910":5,"053693":5,"061463":3,"0625":3,"062862":3,"067963":5,"069848":5,"074685":3,"076934":5,"079980":5,"08199":4,"08452":4,"084721":1,"085717":5,"088617":5,"0938":3,"094291":5,"097543":2,"0f":10,"0s":4,"1":[1,2,3,4,5,8,10,13,32,33,34,37],"10":[1,3,4,5],"100":[2,49],"1024":[1,3,4,5,12],"10240":5,"102804":5,"1045":3,"1048576":1,"106434":4,"10752":5,"108913":3,"109":[4,7],"11":[0,1,3,5],"111783":2,"11264":5,"1152":3,"11776":5,"12":[1,3,5],"12160":2,"12288":[2,5],"123":4,"12416":2,"125224":3,"12544":2,"12672":2,"127":1,"128":[1,2,3,5,12],"1280":3,"12800":5,"129416":5,"13":[1,3,5,7],"131072":1,"1328":3,"13312":5,"133347":2,"134":5,"134217728":1,"134737":3,"13686":4,"13824":5,"138541":3,"14":[1,3,5],"1408":3,"141178":3,"142072":3,"142849":2,"142862":2,"14336":5,"14848":5,"149375":2,"149397":4,"15":[1,3,5],"151":2,"1536":[3,5],"15360":5,"155572":3,"156":2,"156612":3,"15872":5,"159":5,"16":[2,3,5,10,47],"160":2,"163":2,"163546":5,"16384":1,"1664":3,"16777216":1,"168681":5,"17":[3,5],"171410":1,"172588":3,"17879":4,"1792":3,"18":[3,5],"181572":3,"182":5,"1823":2,"188":2,"19":[1,3,5],"190482":1,"190689":5,"191":5,"191546":3,"192":1,"1920":3,"198":2,"1982":10,"1983":9,"1984":10,"1989":10,"1991":[9,10],"1999":10,"1d":[1,2,3],"1e":[1,2,3,5],"1s":4,"2":[1,2,3,4,5,8,10,11,13,32,33,49],"20":[3,5,49],"200000":1,"200001":3,"2004":10,"2006":10,"2011":4,"2012":10,"2013":9,"2014":[4,9],"2016":[9,10],"2017":9,"2018":[9,10],"2019":10,"2021":[9,10],"202731":5,"2048":[2,3,5],"207":5,"2097152":1,"21":[3,5],"211251":5,"212868":4,"2141":1,"214186":4,"2176":3,"218262":3,"219":1,"22":[3,5],"220":3,"221":5,"23":[2,3,5,7],"2304":3,"231237":5,"232":5,"24":[3,5],"242181":3,"243":5,"2432":3,"244":5,"245":[3,5],"245405":5,"246":5,"249":5,"25":[3,5,49],"251":5,"251954":5,"252":5,"253":5,"254":5,"256":[1,2,3,5,11],"2560":[3,5],"257":[5,7],"258":5,"26":[3,5],"260869":3,"261":5,"262144":1,"2656":3,"266":5,"267":5,"2688":3,"269692":3,"27":[3,5],"272":5,"276800":3,"277":5,"278":5,"278512":5,"28":[1,3,5],"280":5,"2812":3,"2816":3,"281913":3,"284":5,"286":5,"287":5,"288":5,"289":5,"2891":3,"29":[3,5],"290":5,"291":5,"293429":4,"294":5,"2944":3,"296493":3,"2d":[3,5,23],"2m":2,"2mn":2,"3":[0,1,2,3,4,5,10],"30":3,"301":5,"305878":3,"3072":[3,5],"3076":1,"309":5,"31":3,"311":5,"3125":3,"313973":5,"315":5,"319081":3,"32":[3,5,11],"3200":3,"321":5,"321838":2,"322572":5,"322872":3,"323369":5,"32768":1,"3281":3,"328233":2,"33":3,"330":5,"330613":2,"332158":5,"3328":3,"333321":1,"334":5,"33554432":1,"335577":3,"336141":5,"34":3,"341":1,"34172":4,"3438":3,"344":5,"3456":3,"3477":3,"351":5,"3516":3,"354805":5,"3555":3,"358392":5,"3584":[3,5],"359066":2,"36":3,"360017":2,"360194":5,"362445":1,"367350":5,"369":5,"37":3,"3712":3,"3713":1,"371721":4,"372618":3,"372800":3,"376":5,"38":1,"380953":3,"384":[1,2,3],"3840":3,"384000":3,"385":5,"39":3,"3906":3,"391298":5,"394084":5,"395":5,"3968":3,"3984":3,"3986":4,"3d":[32,33],"3mn":2,"4":[1,2,3,5,10,11,12,35],"40":3,"400001":1,"400016":1,"4023":3,"403344":4,"403347":4,"404":5,"405":2,"405403":5,"4062":3,"407990":2,"408":[3,7],"408716":4,"4096":[1,2,3,5],"410081":5,"411":5,"412":2,"413":[2,7],"414":5,"415":2,"41576":4,"416":5,"416301":5,"418":5,"4194304":1,"420":5,"42142":4,"423":5,"428372":4,"428568":1,"428801":3,"429770":1,"430":5,"430545":3,"431969":4,"432":5,"439":5,"44":[1,3,7],"446":5,"446623":3,"447482":5,"448255":1,"448276":3,"4492":3,"45":3,"4531":3,"46":3,"4608":5,"4609":3,"461":5,"464":5,"464755":3,"4688":3,"469":[1,7],"471331":5,"472":1,"472468":5,"479779":5,"481578":5,"485074":3,"488":5,"49":3,"492442":3,"4940":1,"4m":2,"4x":2,"5":[1,3,4,5,10,49],"500":5,"5000":3,"501303":5,"507077":3,"51":3,"510553":3,"512":[2,3,4,5],"5120":5,"518":5,"519":5,"52":3,"523365":5,"524288":1,"526831":3,"529":5,"530349":3,"5312":3,"536":5,"538159":5,"54":3,"540":5,"541":4,"546":2,"546004":5,"547":5,"547947":5,"548":5,"548438":3,"550706":5,"56":3,"561477":3,"5632":5,"563533":3,"563555":3,"563695":3,"566838":2,"568":5,"568431":4,"569388":2,"571432":5,"585":2,"5859":3,"586858":4,"588687":3,"5898":3,"595129":3,"596116":3,"5mn":2,"6":[0,1,3,5],"600000":1,"604870":5,"608294":3,"6094":3,"612060":3,"614":1,"6144":5,"615390":1,"62":3,"621881":3,"626369":5,"63":3,"633240":2,"64":[1,3,5],"640":[2,3],"646":2,"64kb":5,"655":[2,7],"655159":5,"65536":[1,5],"656000":3,"656574":1,"66":3,"661740":2,"6656":5,"666684":2,"67":3,"67086":4,"67108864":1,"671974":5,"6724":1,"673582":5,"675250":3,"68":3,"682":2,"683219":3,"683593":5,"694297":2,"6953":3,"698415":3,"699797":5,"7":[0,1,3,5,10],"70":3,"702":1,"7031":3,"703707":2,"7070":3,"707878":4,"71":3,"711355":5,"7168":5,"719258":4,"72":3,"722":[1,2],"724127":5,"73":3,"730667":3,"734520":5,"736871":2,"737433":3,"737435":1,"737653":3,"743443":4,"7500":3,"755985":2,"759409":3,"76":[1,3],"768":[2,3],"7680":5,"768000":3,"768111":5,"77":3,"775181":5,"776119":3,"776477":2,"780":1,"781":2,"784741":5,"79":3,"791620":3,"793541":5,"794337":5,"795401":3,"79719":4,"799461":5,"8":[1,2,3,5,10,11,12,47,49],"80":[3,49],"800002":1,"806694":4,"809526":5,"81":3,"812":[1,2],"813":2,"814":2,"817432":4,"8192":[1,5],"82":3,"823517":[1,2],"83":3,"832994":5,"833":1,"833728":3,"836366":5,"838026":4,"8388608":1,"839992":2,"84":3,"841640":3,"842":1,"84284":4,"847":1,"848":1,"849":1,"85":3,"850":1,"857144":5,"86":3,"869560":5,"87":3,"8704":5,"871877":3,"872604":5,"879370":5,"88":3,"8828":3,"8867":3,"887291":5,"888756":3,"888887":3,"89":3,"8906":3,"8945":3,"896":3,"8mn":2,"9":[0,1,2,3,4,5],"90":3,"902435":5,"908442":3,"908642":3,"909088":5,"91":3,"912481":5,"919225":5,"9216":5,"9219":3,"93":[2,3],"932191":3,"932517":5,"9375":3,"939522":5,"94":2,"941565":5,"9492":3,"95":2,"950501":5,"952835":4,"9531":3,"954908":5,"956335":5,"958106":5,"959706":3,"96":[2,3,5],"9688":3,"97":2,"971025":3,"971190":2,"9728":5,"9733":1,"973584":3,"978909":3,"979441":3,"98":2,"9805":3,"981596":5,"983276":3,"98432":1,"9844":3,"987724":5,"99":5,"998493":3,"999995":1,"abstract":[9,10],"break":10,"byte":2,"case":[1,2,9,10,13,16,17,18,19,20],"class":[2,5,9,10,11,48],"default":49,"do":[2,3,9,10,25,44],"float":[2,9,10,49],"function":[1,2,3,4,5,10,12,13,14,48,49,50],"import":[1,2,3,4,5,9,10],"int":[1,9,10,13,15,21,32,33,39,47,49],"new":[21,39,47],"return":[1,2,3,4,5,15,16,17,18,19,20,23,25,27,29,32,33,34,35,36,37,38,45,46,47,49,50],"static":[0,9,10],"super":3,"switch":3,"true":[1,2,3,5,46],"try":[3,11],"var":[5,10],"voil\u00e0":4,"while":[3,5,9],A:[3,4,9,10],And:[0,3],As:[2,3,4,9,10],At:[4,10],But:4,By:49,For:[3,9,10,11],If:[4,10,35,44,46,48],In:[1,2,3,4,10],It:[1,3,4,6,8,10,14],Of:9,On:10,One:3,The:[1,2,3,4,9,10,16,17,18,19,20,21,23,32,33,34,35,36,37,39,44,46,50],There:1,These:10,To:[1,4,9,10,12],_:5,__expf:2,__init__:[11,48],_db:5,_dropout:4,_dw:5,_layer_norm_bwd_dwdb:5,_layer_norm_bwd_dx_fus:5,_layer_norm_fwd_fus:5,_matmul:3,_seeded_dropout:4,a100:[3,10],a_ptr:3,ab:1,abl:10,about:[1,2,3,4,8],abov:[1,2,3,4,10,12],academ:9,acc:[3,9,10],acceler:9,access:[1,3,9,10,14],accomod:3,accordingli:10,account:10,accumul:[3,5,10],accuraci:[3,9],achiev:[3,9,10],across:[2,4,9,10],activ:3,actual:[3,9,10],add:[1,4,5,7,16],add_kernel:1,addit:[2,6,7,9,49],addition:10,address:[9,25],adopt:10,advanc:[2,3,9],advoc:10,affect:3,affin:10,after:3,against:[0,1,2,3,8],aggress:[9,10],agnost:[9,10],ahead:10,aim:[2,8],al:[9,10],alex:4,algebra:10,algorithm:[3,4,9,10],alia:10,all:[2,3,4,6,9,10,12,27,29,31,45,48],allclos:[2,3],allen1984:10,allen:10,alloc:[1,2,3,5,9],allow:[1,2,5,9,10],along:[1,3,27,29,32,33,45,49],also:[1,2,3,4,5,9,10],altern:4,alwai:[10,46],amd:9,amen:10,amount:[5,9],ampl:10,an:[1,2,3,4,9,10,11,16,17,18,19,20,34,35,36,37],analog:1,analysi:[9,10],analyz:10,ancourt1991:10,ancourt:10,ani:[1,2,3,10,12,13,48],anoth:[2,10],anytim:12,apart:10,apex:5,apex_layer_norm:5,api:48,appear:48,appli:[3,4,5,9,10],applic:[4,10,13],approach:[9,10],appropri:1,approxim:2,ar:[0,1,2,3,4,9,10,12,14,25,31,44,46,48],arang:[1,2,3,4,5],arbitrari:3,architectur:[3,9],area:10,arg:[1,2,3,5,13,14,48],argument:[1,2,3,11,12,13,14,46,48],arrai:[10,47],arrang:3,art:[9,10],artifici:4,arxiv:[9,10],ask:2,aspect:10,asplo:9,assert:[1,3,4],assert_almost_equ:5,assum:[2,48],asynchron:[1,9],atom:[16,17,18,19,20],atomic_ca:5,atomic_xchg:5,auguin1983:9,auguin:9,auto:[2,3,10,11,12,13],autograd:5,autom:9,automat:[2,3,9,10,11],autotun:[3,10],avail:[0,4,9,10],avoid:[2,12,46],awar:9,awkward:4,axi:[1,2,3,4,5,27,29,32,33,45,48],b:[3,5,9,10],b_ptr:3,back:[1,2,3,4,5],backpropag:4,backward:5,bad:4,baghdadi2021:[9,10],baghdadi:[9,10],balanc:10,bandwidth:2,base:[4,8,9,10],basic:[1,6,10],becom:9,been:[1,9,10],befor:[3,12,16,17,18,19,20],begin:10,behavior:[10,12],being:[2,4],believ:10,below:[4,6,10],bench:0,bench_layer_norm:5,benchmark:[0,5,49,50],benefit:[2,9,10],best:[1,9],between:[1,9],bia:5,bit:4,block:[1,2,3,4,9,10,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,34,35,36,37,38,39,40,41,42,43,44,45,46,47],block_siz:[1,2,4,5,10,12,13],block_size_k:3,block_size_m:[3,5],block_size_n:[3,5],block_start:[1,4],blue:[1,2,3,5],boil:10,bool:[46,48],both:[10,46],bound:[1,2,3,10],branch:10,broad:9,broadcast:[21,25,44,46],buffer:5,build:[0,3],built:[1,10],c:[3,9,10],c_mask:3,c_ptr:3,cach:[9,10,25],cache_modifi:25,call:[1,3,10,14,35],callabl:[1,13,14,49],can:[0,1,2,3,4,9,10,12,50],cannot:[3,9,10],capabl:[8,9],cast:5,cd:0,cdiv:[1,3,4,5],ceil:13,certain:13,cgo:[9,10],challeng:4,chang:[3,4,12,25],chapter:8,characterist:10,cheap:9,check:[3,8],checkpoint:4,chen2018:9,chen:9,chip:2,choic:8,click:[1,2,3,4,5],clone:[0,5],close:10,cmake:0,cmp:[16,17,18,19,20],coalesc:9,code:[1,2,3,4,5,6,9,10],col:[3,5,10],col_offset:2,color:48,column:[2,3],com:0,combin:9,come:[2,3,10],command:0,common:10,commonli:10,compar:[2,3,4,5,8,10,16,17,18,19,20],compat:23,compil:[2,3,8,9,11,14,31],complet:10,complex:10,compos:[4,9],composit:10,comprehens:[9,10],comput:[4,5,8,9,10,13,22,24,26,28,30,40,41,42,43],computation:[9,10],concern:10,concis:[1,48],condit:[10,46],config:[3,12],configur:[3,11,12,50],confirm:2,connectom:9,consecut:10,consequ:9,consid:2,consist:4,constraint:[3,10],construct:9,constructor:48,consum:3,contain:[10,16,17,18,19,20,48],contextu:10,contigu:[3,15,38],control:[9,10],conveni:3,convert:[1,3,14],convolut:9,cooper:11,copi:[4,9,16,17,18,19,20],core:[9,10],correct:1,correspond:[1,2,3,48],cosin:22,cost:10,could:[2,10],count:5,cours:9,cpython:0,creat:[1,2,3,5,9],crucial:4,csv:1,ctx:5,cubla:[3,9],cuda:[1,2,3,4,5,9],cudnn:9,current:33,custom:[1,2,3,8],cut:3,cvpr:9,d:[2,4,12,14],dart:10,darte1999:10,data:[1,3,4,5,9,10,16,17,18,19,20,25,46,47],data_ptr:14,dataflow:10,david:4,db:5,db_ref:5,db_tri:5,deal:4,decad:9,decim:5,declar:1,decompos:10,decor:[1,3,12,13,14],decreas:4,dedic:3,deep:[3,4,9,10],def:[1,2,3,4,5,12,13],defin:[1,2,3,10,25],definit:10,denomin:2,denot:1,dens:10,depend:[0,10,46],deploi:9,describ:[4,10],design:10,desir:[21,39],detail:[3,10],detect:9,develop:[9,10],devic:[1,2,3,5],dg:5,dialect:10,dict:13,dictionari:[11,13],diesel:10,differ:[1,2,3,4,9,10,48],difficult:10,difficulti:[3,9],dijkstra82:10,dijkstra:10,dim:[2,5,10],dimens:[3,23,27,29,45],dimension:[3,10,23],dir:0,direct:3,disjoint:10,disk:1,dissert:10,distribut:[2,4,10],divis:3,dnn:[8,9,10],do_bench:[1,2,3,5],doc:4,doe:[1,2,3,10],doesn:[5,10],domain:[9,10],don:[1,2,3],done:[3,9,27,29,45],dot:3,doubli:3,doubt:10,down:[3,10],download:[0,1,2,3,4,5,6],dram:[1,2],dropout:[6,7],dror:4,dsl:[8,9,10],dtype:[1,2,3,5,16,17,18,19,20,25,44,47],dw:5,dw_ref:5,dw_tri:5,dx:5,dx_ref:5,dx_tri:5,dy:5,e:[0,2,3,4,9,10,47],each:[1,2,3,4,5,9,10,11,13],eas:10,easi:[3,4],easier:[1,2,9],easili:3,ed:[1,3],education:2,effect:10,effici:[3,4,9,36],effort:10,either:[1,32,33,46],elango2018:10,elango:10,element:[1,2,3,4,5,22,24,26,27,28,29,30,40,41,42,43,44,45,46,48],element_s:[2,5],element_ti:[16,17,18,19,20,25,44],elementwis:[2,25],els:[3,5],emerg:9,empti:[3,5],empty_lik:[1,2,4,5],enabl:10,encod:10,encourag:4,end:[9,10,15],enforc:10,engin:10,enqueu:[1,2,5],ensur:10,entir:10,entri:36,environ:8,ep:5,equal:10,error:3,especi:9,et:[4,9,10],euromicro:9,evalu:[3,4,12,46],even:[4,10],evidenc:9,evolv:9,exampl:[1,2,3,4,5,6,9,10,11],exchang:20,execut:[7,9,10,11,50],exist:[9,10],exp:2,expect:[2,16,17,18,19,20],expens:[9,10,13],explor:[4,9],exponenti:[2,24],express:[9,10],extar:1,extend:[3,4],extract:3,extrem:10,f:[1,2,3,10],facilit:[9,10],fact:10,fairli:3,fals:[25,44,46,48,49],far:2,fast:[2,5,9,10],faster:[2,35],fastest:10,featur:5,feel:3,fetch:9,few:10,field:9,figur:10,file:[1,2,3,7],fill:47,final_db:5,final_dw:5,fine:4,first:[1,3,4,5,8,10,23,28,30],first_pid_m:3,firstli:4,fit:2,fix:48,flag:2,flatten:38,flexibl:9,float16:[3,5,23,47],float32:[1,2,3,4,5,23,34,37],flow:[9,10],fly:4,fn:[14,49],focu:[3,10],folder:4,follow:[0,2,3,8,9,10],footprint:4,forc:4,forget:1,formal:10,format:10,forward:5,found:[16,17,18,19,20],foundat:10,four:36,fp16:3,fp32:3,frac:4,framework:[9,10],free:3,from:[1,2,3,4,9,10,25,46],full:[1,2,3,4,5],fulli:10,func:10,fundament:10,further:[4,10],fuse:[3,5,6,7],fusedlayernorm:5,fusion:[2,10],g:[3,4,9,10,47],galleri:[1,2,3,4,5,6],gb:[1,2,5],gbp:[1,2,5],gener:[1,2,3,4,5,6,9,10,34,35,36,37,48],geoffrei:4,geq:10,get:[1,2,3,4,7],girbal2006:10,girbal:10,git:0,github:0,give:9,given:[2,3,4,21,32,33,34,35,36,37,39,47],global:10,go:[1,3,10],good:[1,10],gpgpu:9,gpu:[1,2,4,8,9,10,11,14],grad:5,grad_to_non:[5,49],gradient:[5,49],grammat:10,graphic:9,greater:2,green:[1,2,3,5],grid:[1,2,3,4,5,32,33],grid_m:3,grid_n:3,grosser2012:10,grosser:10,group:3,group_id:3,group_m:3,group_size_m:[3,5],grow:10,guard:[1,2],guid:9,ha:[1,3,4,9,10,32,33],had:1,halid:[9,10],hand:10,handl:[1,2,4,10],handwritten:9,hard:3,harder:10,hardwar:[3,8,10],hasn:1,have:[2,4,9,10,14,23,46,48],heavi:9,helper:[1,2],henc:3,here:[1,2,3,4,5],heurist:[2,5],hierarch:9,hierarchi:10,high:[3,9,10],higher:3,highli:9,highlight:10,hint:10,hinton:4,hit:3,how:[1,2,3,8,9,13],howev:[2,10],html:4,http:[0,4],i:[1,2,3,4,5,9,10],id:[3,33],idea:9,ideal:2,ident:2,identifi:1,idx:[25,44],ilya:4,imag:[9,10],implement:[1,2,3,4,9,10],implicitli:[1,14,25,44],importantli:10,impos:10,improv:[3,4],incompat:[3,10],incorrect:3,increas:[1,2,3,4],incred:9,increment:10,inde:10,independ:[2,5,10],index:1,indic:[10,46],induc:10,industri:9,inequ:10,inf:2,inform:10,infrastructur:10,initi:[1,3],inner:[3,23],inplac:3,input:[1,2,3,4,5,10,13,21,22,23,24,26,27,28,29,30,31,38,39,40,41,42,43,45],input_ptr:2,input_row_strid:2,instal:8,instanc:[1,2,3,4,5,9,11,32,33],instanti:4,instead:[2,46],instruct:[8,9],int1:[25,44],int32:[4,5,35,36],integ:10,interchang:10,interest:[5,9,10],intermedi:10,intern:[2,10],interv:15,intrins:10,introduc:4,introduct:8,invari:[2,10],invoc:4,ipynb:[1,2,3,4,5],ir:10,irregular:[2,10],is_contigu:[3,4],is_cuda:1,isn:3,issu:[9,10],iter:[3,9,10],its:[1,2,3,10],j:[3,9,10],jit:[1,2,3,4,5,12,13],jmlr:4,john:4,johnson:4,journal:10,jrk2013:9,jupyt:[1,2,3,4,5,6],just:[3,10,13],k:[3,4,9,10],kb:9,keep:4,kei:[3,9,12],kellei:9,kernel:[4,5,8,9,11,12,13],keyword:[1,11],ki:10,kind:2,know:31,known:10,krizhevski:4,kwarg:14,l2:5,label:[1,2,3,48],lam1991:9,lam:9,lambda:[1,2,3,4,5,13],languag:[1,2,3,4,5,8,9,14],larg:[9,10],last:3,later:[2,10],latest:0,lattner2004:10,lattner2019:10,lattner:10,launch:[1,2,3,32,33],law:10,layer:[6,7,9,10],layer_norm:5,layernorm:5,lead:[4,9,10],leaky_relu:3,leakyrelu:3,learn:[1,2,3,4,8,9,10],least:10,lee2017:9,lee:9,left:10,legal:10,length:1,less:[4,5,9,10],let:[1,2,4,31],letter:10,level:[3,9,10],li:9,librari:[0,3,9,10],lifelong:10,like:[1,4,9,10,35],limit:[2,4],lindenstrauss:4,line:[1,2,3,4,10,48],line_arg:[1,2,3,5,48],line_nam:[1,2,3,5,48],line_v:[1,2,3,5,48],linear:[9,10],link:0,list:[1,3,12,13,48,49,50],litteratur:10,ll:4,llvm11:0,llvm:[0,10],load:[1,2,3,4,5,10,46],local:[9,10],locat:[3,16,17,18,19,20,25,44],lock:5,lock_id:5,log2:13,log:48,logarithm:[1,26],look:[4,8,9],loop:[3,10,11],low:[6,7,10],m:[0,2,3,5,9],machin:[9,10],machineri:[9,10],made:9,mai:[2,10,13],main:[3,9,10],maintain:[2,10],major:[3,10],make:[1,2,9,10],manag:[4,9],mani:[1,9,10],manual:[2,10],manual_se:[1,2,3],map:3,mapl:10,mark:[4,50],markedli:9,mask:[1,2,3,4,5,16,18,19,20,25,44,46],match:[3,16,17,18,19,20],math:13,mathbb:10,mathbf:10,mathcal:[10,37],mathemat:10,matmul:[3,10],matmul_kernel:3,matric:[2,3],matrix:[2,4,6,7,9,10,11,23],matrix_s:10,matter:[3,9,10],max:[1,2,5,18],max_fused_s:5,max_m:[1,2,3,5],maxim:[8,10,36],maximum:[1,2,27],mb:[7,9],mean1:5,mean2:5,mean:[3,5,10,12],mechan:[2,10],median:49,memori:[1,2,3,6,7,9,10,16,17,18,19,20,25,44,46],mention:3,meta:[1,2,3,4,5,11,12,13],metaparamet:1,method:[10,11,14,48,50],methodolog:10,micro:9,min:[3,5,19],min_m:[1,2,3,5],minimum:29,minut:[1,2,3,4,5],miss:10,mitig:10,ml:9,mlir:10,mn:2,mode:5,model:[1,9,10],modern:[3,8,9,10],modular:10,moor:10,mora:4,more:[2,3,4,8,9,10,48],most:[3,10],mostli:11,move:3,movement:4,ms:[1,2,3,5,49],much:[2,3],mullapudi2016:10,mullapudi:10,multi:[3,9,10],multipl:[1,4,6,7,9,10,11,12,31,35],multipli:[3,4,5,10,23],must:[2,3,15,23,46],n:[2,3,5,9,37],n_col:2,n_element:[1,4],n_row:2,naiv:[2,4],naive_softmax:2,name:[1,2,3,12,13,48],nativ:[1,2,3],natur:[2,9,26],nb:9,necessari:2,need:[1,2,3,4,35],nelement:2,nest:[3,10],net:10,network:[4,9,10],neural:[4,9,10],neurosci:9,never:4,next:[2,3],next_power_of_2:[2,5],nightli:0,nip:9,nitish:4,nn:[3,5],non:9,none:[2,3,5,12,16,18,19,20,25,44,48,49],nonzero:46,norm:[4,5,7],normal:[2,3,6,7],normalized_shap:5,note:[0,1,2,3,4,10,12,14,46],notebook:[1,2,3,4,5,6],notic:[2,10],notori:[3,9],novel:9,now:[1,3],num_pid_in_group:3,num_pid_m:3,num_pid_n:3,num_stag:[3,11],num_warp:[2,3,5,11,12],number:[1,2,3,4,5,10,11,32,34,35,36,37],numel:[1,4,5],numer:[2,9],nvidia:[9,25],o:[2,4],object:[1,3,9,11,12,14,16,17,18,19,20],obtain:1,obvious:2,occur:10,off:5,offer:9,offici:0,offs_am:3,offs_bn:3,offs_cm:3,offs_cn:3,offs_k:3,offset:[1,4,5,34,35,36,37],often:3,omega:10,onc:[2,9,10],one:[2,3,4,5,6,9,10,48],onli:[2,3,4,9,10,14],op:[1,2],open:15,openai:0,opencl:9,oper:[1,2,3,4,6,9,16,17,18,19,20,46],opportun:9,opsila:9,optim:[9,10],option:[1,3,25,44,48,49],orang:5,order:[2,3,6,10],org:4,origin:10,osdi:9,other:[2,3,4,5,8,10,14,23,25,28,30],otherwis:[4,46],our:[1,2,3,9],out:[1,2,3,4,5,8,10],outlin:10,output2:4,output3:4,output:[1,2,3,4,5],output_ptr:[1,2,4],output_row_start_ptr:2,output_row_strid:2,output_torch:1,output_triton:1,over:[2,4,9,10],overfit:4,overflow:2,own:3,p:[4,10],pa:3,packag:14,pact:10,pad:2,par:3,paradigm:[9,10],paragraph:4,parallel:[1,2,3,4,5,8,9,10,11],paralleliz:9,param:13,paramet:[1,3,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50],parametr:9,part:[3,4,10],partial:5,partial_db:5,partial_dw:5,particular:[2,3],particularli:[9,10],partit:9,pass:[1,5,10,11],past:[9,10],path:1,pattern:9,pb:3,peak:10,per:[2,4,5],percentil:49,perf:3,perf_report:[1,2,3,5,48],perform:[1,2,4,9,10,16,17,18,19,20,49],persist:4,person:10,perspect:10,pgm:1,phase:10,philosophi:10,philox:[4,36],pid:[1,3,4,5],pid_m:3,pid_n:3,pip:0,pipelin:[9,10,11],platform:[8,10],pldi:9,plot:[0,1,2,3,48],plot_nam:[1,2,3,5,48],pmatrix:10,point:[1,10,36],pointer:[1,2,4,5,14,16,17,18,19,20,25,44],pointerdtyp:[16,17,18,19,20,25,44],polli:10,polyhedr:9,polyhedra:10,popular:10,portabl:[9,10],pose:9,posit:[5,13],possibl:[1,2,3,10,11],power:[2,4,10,13,15],ppopp:10,practic:[1,2,3,9],pragma:9,pre:[0,9],prealloc:1,predict:10,prefer:2,premis:9,present:[0,3],preserv:10,preserve_rng_st:4,prevent:[4,10],primer:10,primit:[9,14],principl:10,print:[1,2,3,4],print_data:[1,2,3,5],prng:4,probabl:[4,10],problem:1,problemat:10,procedur:10,process:[1,5,9,10],processor:9,produc:[3,4],product:[8,10,23],program:[1,2,3,4,5,8,9,32,33],program_id:[1,2,3,4,5],programm:[9,10],prohibitev:13,project:[4,9],promot:[3,10],properli:2,properti:10,propos:9,proprietari:3,provid:[1,2,3,4,5,8,10,12,27,29,45,49],prune:4,pseudo:[3,4,36],pseudorandom:4,ptr:3,ptx:25,purpos:[9,10],push:10,put:4,py:[0,1,2,3,4,5,7],pypi:0,pytest:0,python:[1,2,3,4,5,6,14],pytorch:[1,2,4],qquad:10,r:[0,2],ragan:9,rais:5,rand:[1,4,5],randint4x:35,randn:[2,3,4,5],randn_lik:5,random:[4,34,35,36,37],randomli:4,rang:[1,2,3,5,9,10],rapidli:[9,10],rate:3,rather:9,raw:1,rdom:10,re:[1,3],read:[2,3,6],reader:10,real:9,reason:10,recent:9,recommend:6,recomput:[4,9],record_clock:49,rectifi:9,redmon2016:9,redmon:9,reduct:[2,5,27,29,45],refer:1,regardless:[4,46],regim:4,regrett:9,regular:[4,10],rel:[1,10],relat:8,releas:[0,5,9],reli:10,relu:3,remain:[9,48],rememb:3,reorder:10,rep:[5,49],repetit:49,repres:[2,3,10,11],requir:[0,2,4,10],requires_grad:5,requires_grad_:5,research:[9,10],reset:[12,49],reset_to_zero:12,reshap:5,resolut:10,resourc:9,resp:10,respect:10,restrict:10,result:[0,1,2,9,10],ret:2,retain_graph:5,retriev:10,reus:3,revisit:9,right:10,rise:10,role:10,ron:4,root:43,roughli:3,row:[2,3,4,5],row_idx:2,row_minus_max:2,row_start_ptr:2,rstd:5,run:[0,1,2,3,4,5,8,10,12,14,50],runtim:[10,49],runtimeerror:5,ruslan:4,rvar:10,s:[1,2,4,5,10,36],said:10,salakhutdinov:4,salmon2011:4,salmon:4,same:[4,9,48],sato2019:10,sato:10,save:[1,2,3],save_for_backward:5,save_path:[1,5],saved_tensor:5,sc:10,scalabl:10,scalar:[4,9,23,34,35,36,37,47],scale:48,scan:10,schedul:9,scienc:10,scientif:10,scop:10,scope:10,script:[0,1,2,3,4,5],second:[1,2,3,4,5,10,23,28,30],secondli:4,section:[3,10],see:[1,2,3,4,10],seed:[34,35,36,37],seeded_dropout:4,seem:[1,10],select:[9,10,46],self:[11,48],semant:10,semi:10,sens:[1,9,10],separ:[5,10],sequenc:9,set:[1,4,10],setup:0,sever:[9,10],shall:10,shape:[2,3,4,5,10,21,25,39,44,46,47],share:9,shaw:4,shift:2,should:[1,3,9,10,11,27,29,45,48],show_plot:[1,2,3],shown:10,side:10,sight:10,signal:9,significantli:2,sigplan:10,simd:9,simpl:[1,2,3,4],simplest:6,simpli:10,simplic:3,simplifi:4,sinc:[1,2,3],sine:41,singl:[2,4,9,35],size:[1,2,4,10],slower:[9,10],slowest:10,sm80:11,sm:10,smaller:[3,4],smallest:[2,13],snemi3d:9,so:[1,2,3,4,10],softmax:[4,6,7],softmax_kernel:2,softmax_output:2,softwar:11,solid:10,solut:3,solv:10,some:3,sometim:10,sourc:[1,2,3,4,5,6,10],space:[9,10],spars:[4,9,10],spatial:10,speak:3,special:9,specif:[3,9],specifi:[10,13,16,17,18,19,20,44],speed:2,sphinx:[1,2,3,4,5,6],split:10,spmd:[1,9,10],sqrt:5,squar:43,sram:[2,3,5],srivastava2014:4,srivastava:4,stabil:2,stabl:0,stage:11,stai:5,standard:10,start:[5,6,15],started_tutori:7,state:[4,9,10],statement:10,staticmethod:5,std:5,step:10,still:[1,2,3,10],stop:15,store:[1,2,3,4,5,16,17,18,19,20,46],str:[12,13,25,48],straightforward:3,strategi:[4,10],stream:[5,35],strength:9,stride:[2,3,4,5],stride_ak:3,stride_am:3,stride_bk:3,stride_bn:3,stride_cm:3,stride_cn:3,stride_xi:3,stride_xj:3,structur:[9,10],style:[1,2,3,5,48],subscript:10,substanti:9,substract:2,subtract:2,successfulli:10,suffer:10,suit:9,sum:[1,2,5],sum_db:5,sum_dw:5,superhuman:9,support:[4,5,10],sure:2,surprisingli:9,surround:10,suspicion:2,sutskev:[4,9],sutskever2014:9,swap:[16,17,18,19,20],swizzl:9,synchron:[1,9],system:[0,3,9,10],t:[1,2,3,5,10],t_:10,tabul:4,taco:10,take:[3,4,8,13],taken:10,target:9,techniqu:[3,9,10],temperatur:4,tempor:10,tend:10,tension:9,tensor:[1,2,3,4,5,9,10,12,14,49],tensorrt:9,test:[0,1,5,8],test_layer_norm:5,text:10,tflop:3,th:49,than:[2,3,5,9,10,35,48],thei:[3,9,10],them:1,themselv:3,theoret:2,therebi:10,therefor:3,theta:10,theta_:10,thi:[1,2,3,4,5,9,10,12,13,14,36,48],thing:[1,4],think:2,those:2,though:[9,10],thought:10,thread:[2,9,11],through:[6,10],throughout:[10,48],throughput:8,tile:10,time:[0,1,2,3,4,5,9,10,12,35,49],tiramisu:[9,10],tl:[1,2,3,4,5,47],tmp:0,tog:10,togeth:4,tolist:4,topic:10,torch:[1,2,3,4,5,14,49],torch_output:3,torch_relu:3,total:[1,2,3,4,5,7],tradit:[4,9,10],transform:[4,10],travers:10,trend:9,tri:[21,39],trick:2,tricki:4,trigger:[3,12],triton:[0,1,2,3,4,5,6,9,10],triton_output:3,trivial:9,tune:[2,3,10,12,13],tuner:11,tupl:[1,21,39,47],tutori:[1,2,3,4,8],tutorials_jupyt:6,tutorials_python:6,tvm:[9,10],two:[1,2,3,10,12,13,15,23],txt:0,type:[13,23,25,46,47],typecast:[25,44],typic:10,u:[0,34],un:10,uncommon:10,underneath:10,understand:2,undesir:12,unfortun:[3,10],unifi:9,uniformli:4,unint:46,unit:[0,9],univers:10,unrol:10,up:2,updat:[3,10,12],us:[1,2,3,4,5,9,10,11,12,13,14,35,46,48,50],util:[1,5],v100:10,v:5,val:[16,17,18,19,20],valid:1,valu:[1,2,3,4,12,13,15,16,17,18,19,20,22,24,25,26,27,29,31,40,41,42,43,44,45,46,47,48,50],valuabl:2,variabl:[3,11],variant:9,variou:6,vasilach:[9,10],vasilache2018:[9,10],vast:10,vec:10,vector:[4,6,7,9,10],vendor:3,veri:[2,4,10],verif:10,verifi:[2,10],via:10,view:38,visibl:10,vision:9,vs:0,w:[5,10],w_shape:5,wa:4,wai:[2,3,4],want:[2,4,46],warmup:49,warp:[2,5,11],wast:2,wdy:5,we:[1,2,3,4,9,10],weight:5,well:[4,9,10],whatev:12,wheel:0,when:[2,3,4,9,10,11,12,14,46],where:[1,3,4,5,10,13,44],whether:[9,48],which:[1,2,3,4,5,9,10,12,27,29,45,48],whose:[1,2,3,4,10,12,25],wide:10,wise:[1,2,22,24,26,28,30,40,41,42,43,44],wish:[3,10],within:[3,14,15],without:10,wolf:10,wolfe1989:10,won:2,word:10,work:[2,4,8,9],workload:[3,11],wors:[3,9,10],would:[1,2,4],wouldn:10,wrapper:3,write:[1,2,3,4,5,6,8,10],wrote:2,x:[1,2,3,4,5,10,22,24,26,28,30,38,40,41,42,43,46,48],x_arg:5,x_keep:4,x_keep_ptr:4,x_log:[1,48],x_max:2,x_name:[1,2,3,5,48],x_ptr:[1,4,12,13],x_shape:5,x_size:[12,13],x_val:[1,2,3,5,48],xhat:5,xi:10,xii:10,xlabel:48,xmean:5,xo:10,y:[1,2,3,5,10,28,30,46,48],y_fwd:5,y_log:48,y_name:[1,2],y_ptr:1,y_ref:5,y_torch:2,y_tri:5,y_triton:2,year:10,yet:[9,10],yi:10,yield:46,yii:10,ylabel:[1,2,3,5,48],yo:10,you:[0,1,2,3,4,6,9,12,35,46],your:[0,1,8],yourself:[2,3],z:[1,2,10],zero:[3,4,5,12],zip:6},titles:["Installation","Vector Addition","Fused Softmax","Matrix Multiplication","Low-Memory Dropout","Layer Normalization","Tutorials","Computation times","Welcome to Triton\u2019s documentation!","Introduction","Related Work","triton.Config","triton.autotune","triton.heuristics","triton.jit","triton.language.arange","triton.language.atomic_add","triton.language.atomic_cas","triton.language.atomic_max","triton.language.atomic_min","triton.language.atomic_xchg","triton.language.broadcast_to","triton.language.cos","triton.language.dot","triton.language.exp","triton.language.load","triton.language.log","triton.language.max","triton.language.maximum","triton.language.min","triton.language.minimum","triton.language.multiple_of","triton.language.num_programs","triton.language.program_id","triton.language.rand","triton.language.randint","triton.language.randint4x","triton.language.randn","triton.language.ravel","triton.language.reshape","triton.language.sigmoid","triton.language.sin","triton.language.softmax","triton.language.sqrt","triton.language.store","triton.language.sum","triton.language.where","triton.language.zeros","triton.testing.Benchmark","triton.testing.do_bench","triton.testing.perf_report","triton","triton.language","triton.testing"],titleterms:{"final":3,addit:1,advantag:10,algebra:52,api:8,arang:15,arithmet:3,atom:52,atomic_add:16,atomic_ca:17,atomic_max:18,atomic_min:19,atomic_xchg:20,autotun:12,baselin:4,benchmark:[1,2,3,48],binari:0,broadcast_to:21,cach:3,challeng:9,co:22,comparison:52,compil:[10,52],comput:[1,2,3,7],config:11,creation:52,distribut:0,do_bench:49,document:8,dot:23,dropout:4,exercis:4,exp:24,from:0,further:8,fuse:2,gener:52,get:8,go:8,heurist:13,hint:52,index:52,instal:0,introduct:9,jit:14,kernel:[1,2,3],l2:3,languag:[10,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,52],layer:5,limit:10,linear:52,load:25,log:26,low:4,manipul:52,math:52,matrix:3,max:27,maximum:28,memori:[4,52],min:29,minimum:30,model:52,motiv:[2,3,9],multipl:3,multiple_of:31,normal:5,num_program:32,number:52,op:52,optim:3,packag:0,perf_report:50,perform:3,pointer:3,polyhedr:10,program:[10,52],program_id:33,python:[0,8],rand:34,randint4x:36,randint:35,randn:37,random:52,ravel:38,reduct:52,refer:[4,9,10],relat:10,represent:10,reshap:39,result:3,s:8,schedul:10,seed:4,shape:52,sigmoid:40,sin:41,softmax:[2,42],sourc:0,sqrt:43,squar:3,start:8,store:44,sum:45,test:[2,3,48,49,50,53],time:7,triton:[8,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53],tutori:6,unit:[2,3],vector:1,welcom:8,where:46,work:10,zero:47}})
\ No newline at end of file