diff --git a/_downloads/034d953b6214fedce6ea03803c712b89/02-fused-softmax.ipynb b/_downloads/034d953b6214fedce6ea03803c712b89/02-fused-softmax.ipynb
index 8c90a0be8..91722fcae 100644
--- a/_downloads/034d953b6214fedce6ea03803c712b89/02-fused-softmax.ipynb
+++ b/_downloads/034d953b6214fedce6ea03803c712b89/02-fused-softmax.ipynb
@@ -76,7 +76,7 @@
       },
       "outputs": [],
       "source": [
-        "def next_power_of_2(n):\n    n -= 1\n    n |= n >> 1\n    n |= n >> 2\n    n |= n >> 4\n    n |= n >> 8\n    n |= n >> 16\n    n += 1\n    return n\n\n\ndef softmax(x):\n    M, N = x.shape\n    # The block size is the smallest power of two greater than the number of columns in `x`\n    BLOCK = next_power_of_2(N)\n    # Another trick we can use is to ask the compiler to parallelize each\n    # row-normalization more aggressively -- i.e., with more warps -- vectors\n    # that are longer\n    # You will see in the next tutorial how to auto-tune this value in a more natural\n    # way so you don't have to come up with manual heuristics yourself\n    num_warps = 4\n    if BLOCK >= 2048: num_warps = 8\n    if BLOCK >= 4096: num_warps = 16\n    # Allocate output\n    y = torch.empty_like(x)\n    # Enqueue kernel. The launch grid is simple: we have one kernel instance per row of the input matrix\n    _softmax[(M, )](y, x, x.stride(0), y.stride(0), M, N, BLOCK=BLOCK)\n    return y"
+        "def next_power_of_2(n):\n    n -= 1\n    n |= n >> 1\n    n |= n >> 2\n    n |= n >> 4\n    n |= n >> 8\n    n |= n >> 16\n    n += 1\n    return n\n\n\ndef softmax(x):\n    M, N = x.shape\n    # The block size is the smallest power of two greater than the number of columns in `x`\n    BLOCK = next_power_of_2(N)\n    # Another trick we can use is to ask the compiler to parallelize each\n    # row-normalization more aggressively -- i.e., with more warps -- vectors\n    # that are longer\n    # You will see in the next tutorial how to auto-tune this value in a more natural\n    # way so you don't have to come up with manual heuristics yourself\n    num_warps = 4\n    if BLOCK >= 2048: num_warps = 8\n    if BLOCK >= 4096: num_warps = 16\n    # Allocate output\n    y = torch.empty_like(x)\n    # Enqueue kernel. The launch grid is simple: we have one kernel instance per row of the input matrix\n    _softmax[(M, )](y, x, x.stride(0), y.stride(0), M, N, num_warps=num_warps, BLOCK=BLOCK)\n    return y"
       ]
     },
     {
diff --git a/_downloads/662999063954282841dc90b8945f85ce/tutorials_jupyter.zip b/_downloads/662999063954282841dc90b8945f85ce/tutorials_jupyter.zip
index f46a615e7..164c82123 100644
Binary files a/_downloads/662999063954282841dc90b8945f85ce/tutorials_jupyter.zip and b/_downloads/662999063954282841dc90b8945f85ce/tutorials_jupyter.zip differ
diff --git a/_downloads/763344228ae6bc253ed1a6cf586aa30d/tutorials_python.zip b/_downloads/763344228ae6bc253ed1a6cf586aa30d/tutorials_python.zip
index e6a7b00f2..97b5a7ca0 100644
Binary files a/_downloads/763344228ae6bc253ed1a6cf586aa30d/tutorials_python.zip and b/_downloads/763344228ae6bc253ed1a6cf586aa30d/tutorials_python.zip differ
diff --git a/_downloads/d91442ac2982c4e0cc3ab0f43534afbc/02-fused-softmax.py b/_downloads/d91442ac2982c4e0cc3ab0f43534afbc/02-fused-softmax.py
index 3c5d674c2..f9b1b5103 100644
--- a/_downloads/d91442ac2982c4e0cc3ab0f43534afbc/02-fused-softmax.py
+++ b/_downloads/d91442ac2982c4e0cc3ab0f43534afbc/02-fused-softmax.py
@@ -100,7 +100,7 @@ def softmax(x):
     # Allocate output
     y = torch.empty_like(x)
     # Enqueue kernel. The launch grid is simple: we have one kernel instance per row of the input matrix
-    _softmax[(M, )](y, x, x.stride(0), y.stride(0), M, N, BLOCK=BLOCK)
+    _softmax[(M, )](y, x, x.stride(0), y.stride(0), M, N, num_warps=num_warps, BLOCK=BLOCK)
     return y
 
 
diff --git a/_images/sphx_glr_01-vector-add_001.png b/_images/sphx_glr_01-vector-add_001.png
index cdb766d83..05123e4a0 100644
Binary files a/_images/sphx_glr_01-vector-add_001.png and b/_images/sphx_glr_01-vector-add_001.png differ
diff --git a/_images/sphx_glr_01-vector-add_thumb.png b/_images/sphx_glr_01-vector-add_thumb.png
index f567402c9..2bbadbd65 100644
Binary files a/_images/sphx_glr_01-vector-add_thumb.png and b/_images/sphx_glr_01-vector-add_thumb.png differ
diff --git a/_images/sphx_glr_02-fused-softmax_001.png b/_images/sphx_glr_02-fused-softmax_001.png
index 9889c70ef..f61347b43 100644
Binary files a/_images/sphx_glr_02-fused-softmax_001.png and b/_images/sphx_glr_02-fused-softmax_001.png differ
diff --git a/_images/sphx_glr_02-fused-softmax_thumb.png b/_images/sphx_glr_02-fused-softmax_thumb.png
index 175214ab1..fa278f626 100644
Binary files a/_images/sphx_glr_02-fused-softmax_thumb.png and b/_images/sphx_glr_02-fused-softmax_thumb.png differ
diff --git a/_images/sphx_glr_03-matrix-multiplication_001.png b/_images/sphx_glr_03-matrix-multiplication_001.png
index 80cc917e5..32cef6cd0 100644
Binary files a/_images/sphx_glr_03-matrix-multiplication_001.png and b/_images/sphx_glr_03-matrix-multiplication_001.png differ
diff --git a/_images/sphx_glr_03-matrix-multiplication_thumb.png b/_images/sphx_glr_03-matrix-multiplication_thumb.png
index b1f955701..3514aa13b 100644
Binary files a/_images/sphx_glr_03-matrix-multiplication_thumb.png and b/_images/sphx_glr_03-matrix-multiplication_thumb.png differ
diff --git a/_sources/getting-started/tutorials/01-vector-add.rst.txt b/_sources/getting-started/tutorials/01-vector-add.rst.txt
index 654b91a35..20f67f6ef 100644
--- a/_sources/getting-started/tutorials/01-vector-add.rst.txt
+++ b/_sources/getting-started/tutorials/01-vector-add.rst.txt
@@ -212,7 +212,7 @@ We can now run the decorated function above. Pass `show_plots=True` to see the p
 
 .. rst-class:: sphx-glr-timing
 
-   **Total running time of the script:** ( 0 minutes  5.812 seconds)
+   **Total running time of the script:** ( 0 minutes  7.044 seconds)
 
 
 .. _sphx_glr_download_getting-started_tutorials_01-vector-add.py:
diff --git a/_sources/getting-started/tutorials/02-fused-softmax.rst.txt b/_sources/getting-started/tutorials/02-fused-softmax.rst.txt
index b6d8d0bf2..adba5d155 100644
--- a/_sources/getting-started/tutorials/02-fused-softmax.rst.txt
+++ b/_sources/getting-started/tutorials/02-fused-softmax.rst.txt
@@ -151,7 +151,7 @@ We can create a helper function that enqueues the kernel and its (meta-)argument
         # Allocate output
         y = torch.empty_like(x)
         # Enqueue kernel. The launch grid is simple: we have one kernel instance per row of the input matrix
-        _softmax[(M, )](y, x, x.stride(0), y.stride(0), M, N, BLOCK=BLOCK)
+        _softmax[(M, )](y, x, x.stride(0), y.stride(0), M, N, num_warps=num_warps, BLOCK=BLOCK)
         return y
 
 
@@ -264,7 +264,7 @@ In the above plot, we can see that:
 
 .. rst-class:: sphx-glr-timing
 
-   **Total running time of the script:** ( 0 minutes  20.767 seconds)
+   **Total running time of the script:** ( 0 minutes  20.176 seconds)
 
 
 .. _sphx_glr_download_getting-started_tutorials_02-fused-softmax.py:
diff --git a/_sources/getting-started/tutorials/03-matrix-multiplication.rst.txt b/_sources/getting-started/tutorials/03-matrix-multiplication.rst.txt
index 1d6f977e6..2a476a4bd 100644
--- a/_sources/getting-started/tutorials/03-matrix-multiplication.rst.txt
+++ b/_sources/getting-started/tutorials/03-matrix-multiplication.rst.txt
@@ -287,32 +287,32 @@ We can test our custom matrix multiplication operation against a native torch im
 
  .. code-block:: none
 
-    tensor([[-0.0000e+00,  2.9438e+01, -1.3113e-06,  ...,  9.7266e+00,
-             -3.4237e-04, -0.0000e+00],
-            [-1.7615e-01, -0.0000e+00,  6.1914e+00,  ...,  3.7562e+01,
-             -0.0000e+00, -0.0000e+00],
-            [ 9.9531e+00,  1.9078e+01, -0.0000e+00,  ...,  3.6934e+00,
-              1.6578e+01,  2.1031e+01],
+    tensor([[-5.9605e-08,  5.1094e+01, -1.8477e-05,  ...,  2.6547e+01,
+             -7.2598e-05, -4.2510e-04],
+            [-2.7100e-01, -3.0220e-05,  5.9414e+00,  ...,  2.8340e+00,
+             -1.8644e-04,  1.3094e+01],
+            [-1.5332e-01,  4.8125e+00,  8.4277e-01,  ...,  3.6387e+00,
+              4.3375e+01,  1.6865e+00],
             ...,
-            [ 2.6547e+01, -1.1802e-05,  7.7852e+00,  ...,  5.2156e+01,
-              3.5469e+01,  1.5602e+01],
-            [-0.0000e+00, -0.0000e+00,  1.6531e+01,  ...,  2.1211e+00,
-              1.7412e+00,  1.1422e+01],
-            [-2.6550e-02, -1.1325e-05,  3.0344e+01,  ..., -9.1248e-03,
-             -1.5199e-05,  3.8164e+00]], device='cuda:0', dtype=torch.float16)
-    tensor([[-0.0000e+00,  2.9438e+01, -1.3113e-06,  ...,  9.7266e+00,
-             -3.4261e-04, -0.0000e+00],
-            [-1.7615e-01, -0.0000e+00,  6.1914e+00,  ...,  3.7562e+01,
-             -0.0000e+00, -0.0000e+00],
-            [ 9.9531e+00,  1.9078e+01, -0.0000e+00,  ...,  3.6934e+00,
-              1.6578e+01,  2.1031e+01],
+            [-0.0000e+00,  2.9453e+01, -4.7684e-07,  ...,  6.2617e+00,
+              4.1133e+00, -0.0000e+00],
+            [ 1.6562e+01, -8.1539e-04,  1.3836e+01,  ...,  1.9844e+00,
+             -1.1238e-02,  8.4375e+00],
+            [-1.0876e-01, -2.7295e-01,  3.2156e+01,  ..., -1.6907e-02,
+             -0.0000e+00, -0.0000e+00]], device='cuda:0', dtype=torch.float16)
+    tensor([[-5.9605e-08,  5.1094e+01, -1.8537e-05,  ...,  2.6547e+01,
+             -7.2658e-05, -4.2605e-04],
+            [-2.7100e-01, -3.0220e-05,  5.9414e+00,  ...,  2.8340e+00,
+             -1.8632e-04,  1.3094e+01],
+            [-1.5332e-01,  4.8125e+00,  8.4277e-01,  ...,  3.6387e+00,
+              4.3375e+01,  1.6875e+00],
             ...,
-            [ 2.6547e+01, -1.1802e-05,  7.7852e+00,  ...,  5.2156e+01,
-              3.5469e+01,  1.5602e+01],
-            [-0.0000e+00, -0.0000e+00,  1.6531e+01,  ...,  2.1211e+00,
-              1.7412e+00,  1.1422e+01],
-            [-2.6550e-02, -1.1325e-05,  3.0344e+01,  ..., -9.1324e-03,
-             -1.5199e-05,  3.8164e+00]], device='cuda:0', dtype=torch.float16)
+            [-0.0000e+00,  2.9453e+01, -4.7684e-07,  ...,  6.2617e+00,
+              4.1133e+00, -0.0000e+00],
+            [ 1.6562e+01, -8.1778e-04,  1.3836e+01,  ...,  1.9844e+00,
+             -1.1238e-02,  8.4375e+00],
+            [-1.0876e-01, -2.7295e-01,  3.2156e+01,  ..., -1.6891e-02,
+             -0.0000e+00, -0.0000e+00]], device='cuda:0', dtype=torch.float16)
     tensor(True, device='cuda:0')
 
 
@@ -373,36 +373,36 @@ We can now compare the performance of our kernel against CUTLASS. Here we focus
 
              M      cuBLAS      Triton
     0    512.0   20.164923   15.420235
-    1    768.0   58.982401   42.130286
+    1    768.0   58.982401   40.215272
     2   1024.0   91.180520   72.315584
     3   1280.0  157.538463  117.028568
-    4   1536.0  150.593357  147.455995
-    5   1792.0  212.064605  193.783168
-    6   2048.0  197.379013  151.146088
-    7   2304.0  243.753804  179.608068
-    8   2560.0  237.449270  217.006622
-    9   2816.0  233.231062  200.987140
+    4   1536.0  153.867127  144.446699
+    5   1792.0  208.137481  190.498706
+    6   2048.0  199.728763  152.520144
+    7   2304.0  246.266731  178.267699
+    8   2560.0  235.741014  215.578957
+    9   2816.0  231.990461  198.246398
     10  3072.0  236.916752  221.184001
-    11  3328.0  234.499328  210.500857
+    11  3328.0  239.173747  210.500857
     12  3584.0  248.385067  230.552287
-    13  3840.0  252.493157  223.418188
-    14  4096.0  263.689066  244.922869
-    15  4352.0  247.295210  231.639115
-    16  4608.0  274.573240  254.803966
-    17  4864.0  266.298229  245.366501
-    18  5120.0  259.548513  238.312729
-    19  5376.0  252.676487  237.081606
-    20  5632.0  270.685535  249.046163
-    21  5888.0  264.382140  242.069377
-    22  6144.0  262.447761  240.565495
-    23  6400.0  257.028108  235.078047
-    24  6656.0  254.386204  232.699140
-    25  6912.0  252.040861  232.926171
-    26  7168.0  253.193644  231.815375
-    27  7424.0  251.789150  232.860938
-    28  7680.0  250.988932  231.727608
-    29  7936.0  253.622108  232.094986
-    30  8192.0  253.121589  231.859598
+    13  3840.0  251.917998  222.519114
+    14  4096.0  263.172024  244.032234
+    15  4352.0  249.595626  232.307632
+    16  4608.0  276.560014  254.803966
+    17  4864.0  266.614125  245.366501
+    18  5120.0  257.003930  238.096276
+    19  5376.0  252.676487  236.527241
+    20  5632.0  270.057027  248.514009
+    21  5888.0  264.206935  242.511113
+    22  6144.0  259.441481  241.205983
+    23  6400.0  257.157204  235.078047
+    24  6656.0  254.161678  232.699140
+    25  6912.0  251.844029  233.178785
+    26  7168.0  253.282797  231.740709
+    27  7424.0  251.868505  230.377264
+    28  7680.0  250.988932  231.606284
+    29  7936.0  253.293068  229.692102
+    30  8192.0  253.002304  231.360005
 
 
 
@@ -410,7 +410,7 @@ We can now compare the performance of our kernel against CUTLASS. Here we focus
 
 .. rst-class:: sphx-glr-timing
 
-   **Total running time of the script:** ( 0 minutes  36.230 seconds)
+   **Total running time of the script:** ( 0 minutes  32.933 seconds)
 
 
 .. _sphx_glr_download_getting-started_tutorials_03-matrix-multiplication.py:
diff --git a/_sources/getting-started/tutorials/sg_execution_times.rst.txt b/_sources/getting-started/tutorials/sg_execution_times.rst.txt
index aef0a0aff..85f0bd13f 100644
--- a/_sources/getting-started/tutorials/sg_execution_times.rst.txt
+++ b/_sources/getting-started/tutorials/sg_execution_times.rst.txt
@@ -5,12 +5,12 @@
 
 Computation times
 =================
-**00:36.230** total execution time for **getting-started_tutorials** files:
+**01:00.154** total execution time for **getting-started_tutorials** files:
 
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_03-matrix-multiplication.py` (``03-matrix-multiplication.py``) | 00:36.230 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_03-matrix-multiplication.py` (``03-matrix-multiplication.py``) | 00:32.933 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_01-vector-add.py` (``01-vector-add.py``)                       | 00:00.000 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_02-fused-softmax.py` (``02-fused-softmax.py``)                 | 00:20.176 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_02-fused-softmax.py` (``02-fused-softmax.py``)                 | 00:00.000 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_01-vector-add.py` (``01-vector-add.py``)                       | 00:07.044 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
diff --git a/getting-started/tutorials/01-vector-add.html b/getting-started/tutorials/01-vector-add.html
index 0fd411698..dd5e6f78f 100644
--- a/getting-started/tutorials/01-vector-add.html
+++ b/getting-started/tutorials/01-vector-add.html
@@ -295,7 +295,7 @@ for different problem sizes.</p>
 </pre></div>
 </div>
 <img alt="01 vector add" class="sphx-glr-single-img" src="../../_images/sphx_glr_01-vector-add_001.png" />
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  5.812 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  7.044 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-01-vector-add-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/62d97d49a32414049819dd8bb8378080/01-vector-add.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">01-vector-add.py</span></code></a></p>
diff --git a/getting-started/tutorials/02-fused-softmax.html b/getting-started/tutorials/02-fused-softmax.html
index 7827f9e37..48da6b1a9 100644
--- a/getting-started/tutorials/02-fused-softmax.html
+++ b/getting-started/tutorials/02-fused-softmax.html
@@ -280,7 +280,7 @@ so we need to internally “pad” tiles and guard the memory operations properl
     <span class="c1"># Allocate output</span>
     <span class="n">y</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">empty_like</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
     <span class="c1"># Enqueue kernel. The launch grid is simple: we have one kernel instance per row of the input matrix</span>
-    <span class="n">_softmax</span><span class="p">[(</span><span class="n">M</span><span class="p">,</span> <span class="p">)](</span><span class="n">y</span><span class="p">,</span> <span class="n">x</span><span class="p">,</span> <span class="n">x</span><span class="o">.</span><span class="n">stride</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">y</span><span class="o">.</span><span class="n">stride</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">M</span><span class="p">,</span> <span class="n">N</span><span class="p">,</span> <span class="n">BLOCK</span><span class="o">=</span><span class="n">BLOCK</span><span class="p">)</span>
+    <span class="n">_softmax</span><span class="p">[(</span><span class="n">M</span><span class="p">,</span> <span class="p">)](</span><span class="n">y</span><span class="p">,</span> <span class="n">x</span><span class="p">,</span> <span class="n">x</span><span class="o">.</span><span class="n">stride</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">y</span><span class="o">.</span><span class="n">stride</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">M</span><span class="p">,</span> <span class="n">N</span><span class="p">,</span> <span class="n">num_warps</span><span class="o">=</span><span class="n">num_warps</span><span class="p">,</span> <span class="n">BLOCK</span><span class="o">=</span><span class="n">BLOCK</span><span class="p">)</span>
     <span class="k">return</span> <span class="n">y</span>
 </pre></div>
 </div>
@@ -343,7 +343,7 @@ This means that – when temporary data is too large to fit entirely in the GPU
 Note that our Triton kernel is not only faster than PyTorch’s CUDA kernel, it is also <strong>easier to read, understand and maintain</strong>.</p></li>
 </ul>
 </div></blockquote>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  20.767 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  20.176 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-02-fused-softmax-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/d91442ac2982c4e0cc3ab0f43534afbc/02-fused-softmax.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">02-fused-softmax.py</span></code></a></p>
diff --git a/getting-started/tutorials/03-matrix-multiplication.html b/getting-started/tutorials/03-matrix-multiplication.html
index d4a0528c8..c2e21ad3d 100644
--- a/getting-started/tutorials/03-matrix-multiplication.html
+++ b/getting-started/tutorials/03-matrix-multiplication.html
@@ -406,32 +406,32 @@ and (1) checks any shape constraint; (2) allocates the output; (3) launches the
 </pre></div>
 </div>
 <p class="sphx-glr-script-out">Out:</p>
-<div class="sphx-glr-script-out highlight-none notranslate"><div class="highlight"><pre><span></span>tensor([[-0.0000e+00,  2.9438e+01, -1.3113e-06,  ...,  9.7266e+00,
-         -3.4237e-04, -0.0000e+00],
-        [-1.7615e-01, -0.0000e+00,  6.1914e+00,  ...,  3.7562e+01,
-         -0.0000e+00, -0.0000e+00],
-        [ 9.9531e+00,  1.9078e+01, -0.0000e+00,  ...,  3.6934e+00,
-          1.6578e+01,  2.1031e+01],
+<div class="sphx-glr-script-out highlight-none notranslate"><div class="highlight"><pre><span></span>tensor([[-5.9605e-08,  5.1094e+01, -1.8477e-05,  ...,  2.6547e+01,
+         -7.2598e-05, -4.2510e-04],
+        [-2.7100e-01, -3.0220e-05,  5.9414e+00,  ...,  2.8340e+00,
+         -1.8644e-04,  1.3094e+01],
+        [-1.5332e-01,  4.8125e+00,  8.4277e-01,  ...,  3.6387e+00,
+          4.3375e+01,  1.6865e+00],
         ...,
-        [ 2.6547e+01, -1.1802e-05,  7.7852e+00,  ...,  5.2156e+01,
-          3.5469e+01,  1.5602e+01],
-        [-0.0000e+00, -0.0000e+00,  1.6531e+01,  ...,  2.1211e+00,
-          1.7412e+00,  1.1422e+01],
-        [-2.6550e-02, -1.1325e-05,  3.0344e+01,  ..., -9.1248e-03,
-         -1.5199e-05,  3.8164e+00]], device=&#39;cuda:0&#39;, dtype=torch.float16)
-tensor([[-0.0000e+00,  2.9438e+01, -1.3113e-06,  ...,  9.7266e+00,
-         -3.4261e-04, -0.0000e+00],
-        [-1.7615e-01, -0.0000e+00,  6.1914e+00,  ...,  3.7562e+01,
-         -0.0000e+00, -0.0000e+00],
-        [ 9.9531e+00,  1.9078e+01, -0.0000e+00,  ...,  3.6934e+00,
-          1.6578e+01,  2.1031e+01],
+        [-0.0000e+00,  2.9453e+01, -4.7684e-07,  ...,  6.2617e+00,
+          4.1133e+00, -0.0000e+00],
+        [ 1.6562e+01, -8.1539e-04,  1.3836e+01,  ...,  1.9844e+00,
+         -1.1238e-02,  8.4375e+00],
+        [-1.0876e-01, -2.7295e-01,  3.2156e+01,  ..., -1.6907e-02,
+         -0.0000e+00, -0.0000e+00]], device=&#39;cuda:0&#39;, dtype=torch.float16)
+tensor([[-5.9605e-08,  5.1094e+01, -1.8537e-05,  ...,  2.6547e+01,
+         -7.2658e-05, -4.2605e-04],
+        [-2.7100e-01, -3.0220e-05,  5.9414e+00,  ...,  2.8340e+00,
+         -1.8632e-04,  1.3094e+01],
+        [-1.5332e-01,  4.8125e+00,  8.4277e-01,  ...,  3.6387e+00,
+          4.3375e+01,  1.6875e+00],
         ...,
-        [ 2.6547e+01, -1.1802e-05,  7.7852e+00,  ...,  5.2156e+01,
-          3.5469e+01,  1.5602e+01],
-        [-0.0000e+00, -0.0000e+00,  1.6531e+01,  ...,  2.1211e+00,
-          1.7412e+00,  1.1422e+01],
-        [-2.6550e-02, -1.1325e-05,  3.0344e+01,  ..., -9.1324e-03,
-         -1.5199e-05,  3.8164e+00]], device=&#39;cuda:0&#39;, dtype=torch.float16)
+        [-0.0000e+00,  2.9453e+01, -4.7684e-07,  ...,  6.2617e+00,
+          4.1133e+00, -0.0000e+00],
+        [ 1.6562e+01, -8.1778e-04,  1.3836e+01,  ...,  1.9844e+00,
+         -1.1238e-02,  8.4375e+00],
+        [-1.0876e-01, -2.7295e-01,  3.2156e+01,  ..., -1.6891e-02,
+         -0.0000e+00, -0.0000e+00]], device=&#39;cuda:0&#39;, dtype=torch.float16)
 tensor(True, device=&#39;cuda:0&#39;)
 </pre></div>
 </div>
@@ -472,39 +472,39 @@ tensor(True, device=&#39;cuda:0&#39;)
 <p class="sphx-glr-script-out">Out:</p>
 <div class="sphx-glr-script-out highlight-none notranslate"><div class="highlight"><pre><span></span>         M      cuBLAS      Triton
 0    512.0   20.164923   15.420235
-1    768.0   58.982401   42.130286
+1    768.0   58.982401   40.215272
 2   1024.0   91.180520   72.315584
 3   1280.0  157.538463  117.028568
-4   1536.0  150.593357  147.455995
-5   1792.0  212.064605  193.783168
-6   2048.0  197.379013  151.146088
-7   2304.0  243.753804  179.608068
-8   2560.0  237.449270  217.006622
-9   2816.0  233.231062  200.987140
+4   1536.0  153.867127  144.446699
+5   1792.0  208.137481  190.498706
+6   2048.0  199.728763  152.520144
+7   2304.0  246.266731  178.267699
+8   2560.0  235.741014  215.578957
+9   2816.0  231.990461  198.246398
 10  3072.0  236.916752  221.184001
-11  3328.0  234.499328  210.500857
+11  3328.0  239.173747  210.500857
 12  3584.0  248.385067  230.552287
-13  3840.0  252.493157  223.418188
-14  4096.0  263.689066  244.922869
-15  4352.0  247.295210  231.639115
-16  4608.0  274.573240  254.803966
-17  4864.0  266.298229  245.366501
-18  5120.0  259.548513  238.312729
-19  5376.0  252.676487  237.081606
-20  5632.0  270.685535  249.046163
-21  5888.0  264.382140  242.069377
-22  6144.0  262.447761  240.565495
-23  6400.0  257.028108  235.078047
-24  6656.0  254.386204  232.699140
-25  6912.0  252.040861  232.926171
-26  7168.0  253.193644  231.815375
-27  7424.0  251.789150  232.860938
-28  7680.0  250.988932  231.727608
-29  7936.0  253.622108  232.094986
-30  8192.0  253.121589  231.859598
+13  3840.0  251.917998  222.519114
+14  4096.0  263.172024  244.032234
+15  4352.0  249.595626  232.307632
+16  4608.0  276.560014  254.803966
+17  4864.0  266.614125  245.366501
+18  5120.0  257.003930  238.096276
+19  5376.0  252.676487  236.527241
+20  5632.0  270.057027  248.514009
+21  5888.0  264.206935  242.511113
+22  6144.0  259.441481  241.205983
+23  6400.0  257.157204  235.078047
+24  6656.0  254.161678  232.699140
+25  6912.0  251.844029  233.178785
+26  7168.0  253.282797  231.740709
+27  7424.0  251.868505  230.377264
+28  7680.0  250.988932  231.606284
+29  7936.0  253.293068  229.692102
+30  8192.0  253.002304  231.360005
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  36.230 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  32.933 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-03-matrix-multiplication-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/d5fee5b55a64e47f1b5724ec39adf171/03-matrix-multiplication.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">03-matrix-multiplication.py</span></code></a></p>
diff --git a/getting-started/tutorials/sg_execution_times.html b/getting-started/tutorials/sg_execution_times.html
index 9fc103117..cd82876f1 100644
--- a/getting-started/tutorials/sg_execution_times.html
+++ b/getting-started/tutorials/sg_execution_times.html
@@ -169,7 +169,7 @@
             
   <div class="section" id="computation-times">
 <span id="sphx-glr-getting-started-tutorials-sg-execution-times"></span><h1>Computation times<a class="headerlink" href="#computation-times" title="Permalink to this headline">¶</a></h1>
-<p><strong>00:36.230</strong> total execution time for <strong>getting-started_tutorials</strong> files:</p>
+<p><strong>01:00.154</strong> total execution time for <strong>getting-started_tutorials</strong> files:</p>
 <table class="docutils align-default">
 <colgroup>
 <col style="width: 85%" />
@@ -178,15 +178,15 @@
 </colgroup>
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="03-matrix-multiplication.html#sphx-glr-getting-started-tutorials-03-matrix-multiplication-py"><span class="std std-ref">Matrix Multiplication</span></a> (<code class="docutils literal notranslate"><span class="pre">03-matrix-multiplication.py</span></code>)</p></td>
-<td><p>00:36.230</p></td>
+<td><p>00:32.933</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="01-vector-add.html#sphx-glr-getting-started-tutorials-01-vector-add-py"><span class="std std-ref">Vector Addition</span></a> (<code class="docutils literal notranslate"><span class="pre">01-vector-add.py</span></code>)</p></td>
-<td><p>00:00.000</p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="02-fused-softmax.html#sphx-glr-getting-started-tutorials-02-fused-softmax-py"><span class="std std-ref">Fused Softmax</span></a> (<code class="docutils literal notranslate"><span class="pre">02-fused-softmax.py</span></code>)</p></td>
+<td><p>00:20.176</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="02-fused-softmax.html#sphx-glr-getting-started-tutorials-02-fused-softmax-py"><span class="std std-ref">Fused Softmax</span></a> (<code class="docutils literal notranslate"><span class="pre">02-fused-softmax.py</span></code>)</p></td>
-<td><p>00:00.000</p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="01-vector-add.html#sphx-glr-getting-started-tutorials-01-vector-add-py"><span class="std std-ref">Vector Addition</span></a> (<code class="docutils literal notranslate"><span class="pre">01-vector-add.py</span></code>)</p></td>
+<td><p>00:07.044</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 </tbody>
diff --git a/language-reference/python-api/generated/triton.arange.html b/language-reference/python-api/generated/triton.arange.html
index b687e4663..3dbd419df 100644
--- a/language-reference/python-api/generated/triton.arange.html
+++ b/language-reference/python-api/generated/triton.arange.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.zeros" href="triton.zeros.html" />
-    <link rel="prev" title="triton.num_programs" href="triton.num_programs.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,24 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a><ul class="current">
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.arange</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.zeros.html">triton.zeros</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -166,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.arange</li>
     
     
@@ -211,10 +191,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.zeros.html" class="btn btn-neutral float-right" title="triton.zeros" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.num_programs.html" class="btn btn-neutral float-left" title="triton.num_programs" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.atomic_cas.html b/language-reference/python-api/generated/triton.atomic_cas.html
index 325c23b67..b3fb9e739 100644
--- a/language-reference/python-api/generated/triton.atomic_cas.html
+++ b/language-reference/python-api/generated/triton.atomic_cas.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.atomic_xchg" href="triton.atomic_xchg.html" />
-    <link rel="prev" title="triton.store" href="triton.store.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,26 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="triton.load.html">triton.load</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.store.html">triton.store</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.atomic_cas</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.atomic_xchg.html">triton.atomic_xchg</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -168,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.atomic_cas</li>
     
     
@@ -203,10 +181,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.atomic_xchg.html" class="btn btn-neutral float-right" title="triton.atomic_xchg" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.store.html" class="btn btn-neutral float-left" title="triton.store" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.atomic_xchg.html b/language-reference/python-api/generated/triton.atomic_xchg.html
index 129b6fb07..f406dadb9 100644
--- a/language-reference/python-api/generated/triton.atomic_xchg.html
+++ b/language-reference/python-api/generated/triton.atomic_xchg.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.where" href="triton.where.html" />
-    <link rel="prev" title="triton.atomic_cas" href="triton.atomic_cas.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,26 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="triton.load.html">triton.load</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.store.html">triton.store</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.atomic_cas.html">triton.atomic_cas</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.atomic_xchg</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -168,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.atomic_xchg</li>
     
     
@@ -203,10 +181,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.where.html" class="btn btn-neutral float-right" title="triton.where" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.atomic_cas.html" class="btn btn-neutral float-left" title="triton.atomic_cas" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.broadcast_to.html b/language-reference/python-api/generated/triton.broadcast_to.html
index 55c0c6a7b..f0345b94e 100644
--- a/language-reference/python-api/generated/triton.broadcast_to.html
+++ b/language-reference/python-api/generated/triton.broadcast_to.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.reshape" href="triton.reshape.html" />
-    <link rel="prev" title="triton.zeros" href="triton.zeros.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,25 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a><ul class="current">
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.broadcast_to</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.reshape.html">triton.reshape</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.ravel.html">triton.ravel</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -167,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.broadcast_to</li>
     
     
@@ -212,10 +191,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.reshape.html" class="btn btn-neutral float-right" title="triton.reshape" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.zeros.html" class="btn btn-neutral float-left" title="triton.zeros" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.dot.html b/language-reference/python-api/generated/triton.dot.html
index 2ba4bb3e6..0071dc9a9 100644
--- a/language-reference/python-api/generated/triton.dot.html
+++ b/language-reference/python-api/generated/triton.dot.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.load" href="triton.load.html" />
-    <link rel="prev" title="triton.ravel" href="triton.ravel.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,23 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a><ul class="current">
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.dot</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -165,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.dot</li>
     
     
@@ -211,10 +192,6 @@ The two blocks must be two dimensionals and have compatible inner dimensions.</p
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.load.html" class="btn btn-neutral float-right" title="triton.load" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.ravel.html" class="btn btn-neutral float-left" title="triton.ravel" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.exp.html b/language-reference/python-api/generated/triton.exp.html
index 87a0aa004..512584951 100644
--- a/language-reference/python-api/generated/triton.exp.html
+++ b/language-reference/python-api/generated/triton.exp.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.log" href="triton.log.html" />
-    <link rel="prev" title="triton.where" href="triton.where.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,26 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#math-ops">Math Ops</a><ul class="current">
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.exp</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.log.html">triton.log</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.sigmoid.html">triton.sigmoid</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.softmax.html">triton.softmax</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -168,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.exp</li>
     
     
@@ -203,10 +181,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.log.html" class="btn btn-neutral float-right" title="triton.log" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.where.html" class="btn btn-neutral float-left" title="triton.where" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.load.html b/language-reference/python-api/generated/triton.load.html
index a391c1935..06ecb2789 100644
--- a/language-reference/python-api/generated/triton.load.html
+++ b/language-reference/python-api/generated/triton.load.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.store" href="triton.store.html" />
-    <link rel="prev" title="triton.dot" href="triton.dot.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,26 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a><ul class="current">
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.load</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.store.html">triton.store</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.atomic_cas.html">triton.atomic_cas</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.atomic_xchg.html">triton.atomic_xchg</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -168,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.load</li>
     
     
@@ -214,10 +192,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.store.html" class="btn btn-neutral float-right" title="triton.store" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.dot.html" class="btn btn-neutral float-left" title="triton.dot" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.log.html b/language-reference/python-api/generated/triton.log.html
index 965199a22..f8adf9a98 100644
--- a/language-reference/python-api/generated/triton.log.html
+++ b/language-reference/python-api/generated/triton.log.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.sigmoid" href="triton.sigmoid.html" />
-    <link rel="prev" title="triton.exp" href="triton.exp.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,26 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#math-ops">Math Ops</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="triton.exp.html">triton.exp</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.log</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.sigmoid.html">triton.sigmoid</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.softmax.html">triton.softmax</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -168,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.log</li>
     
     
@@ -203,10 +181,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.sigmoid.html" class="btn btn-neutral float-right" title="triton.sigmoid" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.exp.html" class="btn btn-neutral float-left" title="triton.exp" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.max.html b/language-reference/python-api/generated/triton.max.html
index ebbcee571..74a2d3d47 100644
--- a/language-reference/python-api/generated/triton.max.html
+++ b/language-reference/python-api/generated/triton.max.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.min" href="triton.min.html" />
-    <link rel="prev" title="triton.softmax" href="triton.softmax.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,25 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a><ul class="current">
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.max</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.min.html">triton.min</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.sum.html">triton.sum</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -167,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.max</li>
     
     
@@ -202,10 +181,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.min.html" class="btn btn-neutral float-right" title="triton.min" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.softmax.html" class="btn btn-neutral float-left" title="triton.softmax" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.maximum.html b/language-reference/python-api/generated/triton.maximum.html
index 0bd078e77..8446323f3 100644
--- a/language-reference/python-api/generated/triton.maximum.html
+++ b/language-reference/python-api/generated/triton.maximum.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.multiple_of" href="triton.multiple_of.html" />
-    <link rel="prev" title="triton.minimum" href="triton.minimum.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,24 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="triton.minimum.html">triton.minimum</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.maximum</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -166,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.maximum</li>
     
     
@@ -201,10 +181,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.multiple_of.html" class="btn btn-neutral float-right" title="triton.multiple_of" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.minimum.html" class="btn btn-neutral float-left" title="triton.minimum" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.min.html b/language-reference/python-api/generated/triton.min.html
index 85e8de15c..1003de5dd 100644
--- a/language-reference/python-api/generated/triton.min.html
+++ b/language-reference/python-api/generated/triton.min.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.sum" href="triton.sum.html" />
-    <link rel="prev" title="triton.max" href="triton.max.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,25 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="triton.max.html">triton.max</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.min</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.sum.html">triton.sum</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -167,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.min</li>
     
     
@@ -202,10 +181,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.sum.html" class="btn btn-neutral float-right" title="triton.sum" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.max.html" class="btn btn-neutral float-left" title="triton.max" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.minimum.html b/language-reference/python-api/generated/triton.minimum.html
index 6cdffdc9c..ee660fbd5 100644
--- a/language-reference/python-api/generated/triton.minimum.html
+++ b/language-reference/python-api/generated/triton.minimum.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.maximum" href="triton.maximum.html" />
-    <link rel="prev" title="triton.sum" href="triton.sum.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,24 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a><ul class="current">
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.minimum</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.maximum.html">triton.maximum</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -166,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.minimum</li>
     
     
@@ -201,10 +181,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.maximum.html" class="btn btn-neutral float-right" title="triton.maximum" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.sum.html" class="btn btn-neutral float-left" title="triton.sum" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.multiple_of.html b/language-reference/python-api/generated/triton.multiple_of.html
index c9d175a4c..d89f03079 100644
--- a/language-reference/python-api/generated/triton.multiple_of.html
+++ b/language-reference/python-api/generated/triton.multiple_of.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="Introduction" href="../../../programming-guide/chapter-1/introduction.html" />
-    <link rel="prev" title="triton.maximum" href="triton.maximum.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,23 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a><ul class="current">
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.multiple_of</a></li>
-</ul>
-</li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -165,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.multiple_of</li>
     
     
@@ -200,10 +181,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="../../../programming-guide/chapter-1/introduction.html" class="btn btn-neutral float-right" title="Introduction" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.maximum.html" class="btn btn-neutral float-left" title="triton.maximum" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.num_programs.html b/language-reference/python-api/generated/triton.num_programs.html
index 6b9710b58..0653c649f 100644
--- a/language-reference/python-api/generated/triton.num_programs.html
+++ b/language-reference/python-api/generated/triton.num_programs.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.arange" href="triton.arange.html" />
-    <link rel="prev" title="triton.program_id" href="triton.program_id.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,24 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#programming-model">Programming Model</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="triton.program_id.html">triton.program_id</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.num_programs</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -166,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.num_programs</li>
     
     
@@ -210,10 +190,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.arange.html" class="btn btn-neutral float-right" title="triton.arange" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.program_id.html" class="btn btn-neutral float-left" title="triton.program_id" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.program_id.html b/language-reference/python-api/generated/triton.program_id.html
index 4559352c9..db972ef24 100644
--- a/language-reference/python-api/generated/triton.program_id.html
+++ b/language-reference/python-api/generated/triton.program_id.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.num_programs" href="triton.num_programs.html" />
-    <link rel="prev" title="Python API" href="../index.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,24 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#programming-model">Programming Model</a><ul class="current">
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.program_id</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.num_programs.html">triton.num_programs</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -166,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.program_id</li>
     
     
@@ -211,10 +191,6 @@ Triton uses an SPMD model in which different &#64;triton.jit functions run in pa
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.num_programs.html" class="btn btn-neutral float-right" title="triton.num_programs" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="../index.html" class="btn btn-neutral float-left" title="Python API" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.ravel.html b/language-reference/python-api/generated/triton.ravel.html
index fd46cbc17..a818e9236 100644
--- a/language-reference/python-api/generated/triton.ravel.html
+++ b/language-reference/python-api/generated/triton.ravel.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.dot" href="triton.dot.html" />
-    <link rel="prev" title="triton.reshape" href="triton.reshape.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,25 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="triton.broadcast_to.html">triton.broadcast_to</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.reshape.html">triton.reshape</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.ravel</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -167,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.ravel</li>
     
     
@@ -202,10 +181,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.dot.html" class="btn btn-neutral float-right" title="triton.dot" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.reshape.html" class="btn btn-neutral float-left" title="triton.reshape" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.reshape.html b/language-reference/python-api/generated/triton.reshape.html
index 00036369e..b3f79892a 100644
--- a/language-reference/python-api/generated/triton.reshape.html
+++ b/language-reference/python-api/generated/triton.reshape.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.ravel" href="triton.ravel.html" />
-    <link rel="prev" title="triton.broadcast_to" href="triton.broadcast_to.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,25 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="triton.broadcast_to.html">triton.broadcast_to</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.reshape</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.ravel.html">triton.ravel</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -167,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.reshape</li>
     
     
@@ -205,10 +184,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.ravel.html" class="btn btn-neutral float-right" title="triton.ravel" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.broadcast_to.html" class="btn btn-neutral float-left" title="triton.broadcast_to" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.sigmoid.html b/language-reference/python-api/generated/triton.sigmoid.html
index 119c88e73..13804ea50 100644
--- a/language-reference/python-api/generated/triton.sigmoid.html
+++ b/language-reference/python-api/generated/triton.sigmoid.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.softmax" href="triton.softmax.html" />
-    <link rel="prev" title="triton.log" href="triton.log.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,26 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#math-ops">Math Ops</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="triton.exp.html">triton.exp</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.log.html">triton.log</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.sigmoid</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.softmax.html">triton.softmax</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -168,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.sigmoid</li>
     
     
@@ -203,10 +181,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.softmax.html" class="btn btn-neutral float-right" title="triton.softmax" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.log.html" class="btn btn-neutral float-left" title="triton.log" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.softmax.html b/language-reference/python-api/generated/triton.softmax.html
index ea734670e..ec0d48f04 100644
--- a/language-reference/python-api/generated/triton.softmax.html
+++ b/language-reference/python-api/generated/triton.softmax.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.max" href="triton.max.html" />
-    <link rel="prev" title="triton.sigmoid" href="triton.sigmoid.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,26 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#math-ops">Math Ops</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="triton.exp.html">triton.exp</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.log.html">triton.log</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.sigmoid.html">triton.sigmoid</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.softmax</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -168,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.softmax</li>
     
     
@@ -203,10 +181,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.max.html" class="btn btn-neutral float-right" title="triton.max" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.sigmoid.html" class="btn btn-neutral float-left" title="triton.sigmoid" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.store.html b/language-reference/python-api/generated/triton.store.html
index 4fc8deb49..c79db3804 100644
--- a/language-reference/python-api/generated/triton.store.html
+++ b/language-reference/python-api/generated/triton.store.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.atomic_cas" href="triton.atomic_cas.html" />
-    <link rel="prev" title="triton.load" href="triton.load.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,26 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="triton.load.html">triton.load</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.store</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.atomic_cas.html">triton.atomic_cas</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.atomic_xchg.html">triton.atomic_xchg</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -168,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.store</li>
     
     
@@ -214,10 +192,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.atomic_cas.html" class="btn btn-neutral float-right" title="triton.atomic_cas" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.load.html" class="btn btn-neutral float-left" title="triton.load" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.sum.html b/language-reference/python-api/generated/triton.sum.html
index 3a8af688d..8597e55b9 100644
--- a/language-reference/python-api/generated/triton.sum.html
+++ b/language-reference/python-api/generated/triton.sum.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.minimum" href="triton.minimum.html" />
-    <link rel="prev" title="triton.min" href="triton.min.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,25 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="triton.max.html">triton.max</a></li>
-<li class="toctree-l3"><a class="reference internal" href="triton.min.html">triton.min</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.sum</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -167,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.sum</li>
     
     
@@ -202,10 +181,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.minimum.html" class="btn btn-neutral float-right" title="triton.minimum" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.min.html" class="btn btn-neutral float-left" title="triton.min" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.where.html b/language-reference/python-api/generated/triton.where.html
index f4af5911a..3355b6358 100644
--- a/language-reference/python-api/generated/triton.where.html
+++ b/language-reference/python-api/generated/triton.where.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.exp" href="triton.exp.html" />
-    <link rel="prev" title="triton.atomic_xchg" href="triton.atomic_xchg.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,23 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a><ul class="current">
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.where</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -165,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.where</li>
     
     
@@ -215,10 +196,6 @@ The shape of <cite>x</cite> and <cite>y</cite> are both broadcast to the shape o
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.exp.html" class="btn btn-neutral float-right" title="triton.exp" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.atomic_xchg.html" class="btn btn-neutral float-left" title="triton.atomic_xchg" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/generated/triton.zeros.html b/language-reference/python-api/generated/triton.zeros.html
index a5e8952d8..516c76af9 100644
--- a/language-reference/python-api/generated/triton.zeros.html
+++ b/language-reference/python-api/generated/triton.zeros.html
@@ -42,9 +42,7 @@
 
     
     <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" />
-    <link rel="next" title="triton.broadcast_to" href="triton.broadcast_to.html" />
-    <link rel="prev" title="triton.arange" href="triton.arange.html" /> 
+    <link rel="search" title="Search" href="../../../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -95,24 +93,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../getting-started/tutorials/index.html">Tutorials</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Language Reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="../index.html">Python API</a><ul class="current">
-<li class="toctree-l2"><a class="reference internal" href="../index.html#programming-model">Programming Model</a></li>
-<li class="toctree-l2 current"><a class="reference internal" href="../index.html#creation-ops">Creation Ops</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="triton.arange.html">triton.arange</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">triton.zeros</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#shape-manipulation-ops">Shape Manipulation Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#linear-algebra-ops">Linear Algebra Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#memory-ops">Memory Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#indexing-ops">Indexing Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#math-ops">Math Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#reduction-ops">Reduction Ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#comparison-ops">Comparison ops</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../index.html#compiler-hint-ops">Compiler Hint Ops</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../index.html">Python API</a></li>
 </ul>
 <p class="caption"><span class="caption-text">Programming Guide</span></p>
 <ul>
@@ -166,8 +148,6 @@
     
       <li><a href="../../../index.html" class="icon icon-home"></a> &raquo;</li>
         
-          <li><a href="../index.html">Python API</a> &raquo;</li>
-        
       <li>triton.zeros</li>
     
     
@@ -211,10 +191,6 @@
            
           </div>
           <footer>
-    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="triton.broadcast_to.html" class="btn btn-neutral float-right" title="triton.broadcast_to" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="triton.arange.html" class="btn btn-neutral float-left" title="triton.arange" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
 
   <hr/>
 
diff --git a/language-reference/python-api/index.html b/language-reference/python-api/index.html
index 974f1768b..a9595f52f 100644
--- a/language-reference/python-api/index.html
+++ b/language-reference/python-api/index.html
@@ -43,7 +43,7 @@
     
     <link rel="index" title="Index" href="../../genindex.html" />
     <link rel="search" title="Search" href="../../search.html" />
-    <link rel="next" title="triton.program_id" href="generated/triton.program_id.html" />
+    <link rel="next" title="Introduction" href="../../programming-guide/chapter-1/introduction.html" />
     <link rel="prev" title="Matrix Multiplication" href="../../getting-started/tutorials/03-matrix-multiplication.html" /> 
 </head>
 
@@ -97,59 +97,16 @@
 <p class="caption"><span class="caption-text">Language Reference</span></p>
 <ul class="current">
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Python API</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#programming-model">Programming Model</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.program_id.html">triton.program_id</a></li>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.num_programs.html">triton.num_programs</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="#creation-ops">Creation Ops</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.arange.html">triton.arange</a></li>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.zeros.html">triton.zeros</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="#shape-manipulation-ops">Shape Manipulation Ops</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.broadcast_to.html">triton.broadcast_to</a></li>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.reshape.html">triton.reshape</a></li>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.ravel.html">triton.ravel</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="#linear-algebra-ops">Linear Algebra Ops</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.dot.html">triton.dot</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="#memory-ops">Memory Ops</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.load.html">triton.load</a></li>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.store.html">triton.store</a></li>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.atomic_cas.html">triton.atomic_cas</a></li>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.atomic_xchg.html">triton.atomic_xchg</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="#indexing-ops">Indexing Ops</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.where.html">triton.where</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="#math-ops">Math Ops</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.exp.html">triton.exp</a></li>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.log.html">triton.log</a></li>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.sigmoid.html">triton.sigmoid</a></li>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.softmax.html">triton.softmax</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="#reduction-ops">Reduction Ops</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.max.html">triton.max</a></li>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.min.html">triton.min</a></li>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.sum.html">triton.sum</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="#comparison-ops">Comparison ops</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.minimum.html">triton.minimum</a></li>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.maximum.html">triton.maximum</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="#compiler-hint-ops">Compiler Hint Ops</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="generated/triton.multiple_of.html">triton.multiple_of</a></li>
-</ul>
-</li>
+<li class="toctree-l2"><a class="reference internal" href="#programming-model">Programming Model</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#creation-ops">Creation Ops</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#shape-manipulation-ops">Shape Manipulation Ops</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#linear-algebra-ops">Linear Algebra Ops</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#memory-ops">Memory Ops</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#indexing-ops">Indexing Ops</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#math-ops">Math Ops</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#reduction-ops">Reduction Ops</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#comparison-ops">Comparison ops</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#compiler-hint-ops">Compiler Hint Ops</a></li>
 </ul>
 </li>
 </ul>
@@ -234,12 +191,6 @@
 <col style="width: 90%" />
 </colgroup>
 <tbody>
-<tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.program_id.html#triton.program_id" title="triton.program_id"><code class="xref py py-obj docutils literal notranslate"><span class="pre">program_id</span></code></a></p></td>
-<td><p>Returns the id of the current program instance along the given <cite>axis</cite>. Triton uses an SPMD model in which different &#64;triton.jit functions run in parallel with different <a href="#id1"><span class="problematic" id="id2">`</span></a>program_id`s.</p></td>
-</tr>
-<tr class="row-even"><td><p><a class="reference internal" href="generated/triton.num_programs.html#triton.num_programs" title="triton.num_programs"><code class="xref py py-obj docutils literal notranslate"><span class="pre">num_programs</span></code></a></p></td>
-<td><p>Returns the number of program instances launched along the given <cite>axis</cite>.</p></td>
-</tr>
 </tbody>
 </table>
 </div>
@@ -251,12 +202,6 @@
 <col style="width: 90%" />
 </colgroup>
 <tbody>
-<tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.arange.html#triton.arange" title="triton.arange"><code class="xref py py-obj docutils literal notranslate"><span class="pre">arange</span></code></a></p></td>
-<td><p>Returns contiguous values within the open interval [start, end).</p></td>
-</tr>
-<tr class="row-even"><td><p><a class="reference internal" href="generated/triton.zeros.html#triton.zeros" title="triton.zeros"><code class="xref py py-obj docutils literal notranslate"><span class="pre">zeros</span></code></a></p></td>
-<td><p>Returns a block filled with the scalar value 0 and the given shape.</p></td>
-</tr>
 </tbody>
 </table>
 </div>
@@ -268,15 +213,6 @@
 <col style="width: 90%" />
 </colgroup>
 <tbody>
-<tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.broadcast_to.html#triton.broadcast_to" title="triton.broadcast_to"><code class="xref py py-obj docutils literal notranslate"><span class="pre">broadcast_to</span></code></a></p></td>
-<td><p>Tries to broadcast a block to a new shape.</p></td>
-</tr>
-<tr class="row-even"><td><p><a class="reference internal" href="generated/triton.reshape.html#triton.reshape" title="triton.reshape"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reshape</span></code></a></p></td>
-<td><p>Reshapes a block to a new shape.</p></td>
-</tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.ravel.html#triton.ravel" title="triton.ravel"><code class="xref py py-obj docutils literal notranslate"><span class="pre">ravel</span></code></a></p></td>
-<td><p></p></td>
-</tr>
 </tbody>
 </table>
 </div>
@@ -288,9 +224,6 @@
 <col style="width: 90%" />
 </colgroup>
 <tbody>
-<tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.dot.html#triton.dot" title="triton.dot"><code class="xref py py-obj docutils literal notranslate"><span class="pre">dot</span></code></a></p></td>
-<td><p>Returns the matrix product of two blocks.</p></td>
-</tr>
 </tbody>
 </table>
 </div>
@@ -302,18 +235,6 @@
 <col style="width: 90%" />
 </colgroup>
 <tbody>
-<tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.load.html#triton.load" title="triton.load"><code class="xref py py-obj docutils literal notranslate"><span class="pre">load</span></code></a></p></td>
-<td><p>Return a block of data whose values are, elementwise, loaded from memory at location defined by <cite>pointer</cite>.</p></td>
-</tr>
-<tr class="row-even"><td><p><a class="reference internal" href="generated/triton.store.html#triton.store" title="triton.store"><code class="xref py py-obj docutils literal notranslate"><span class="pre">store</span></code></a></p></td>
-<td><p>Stores <cite>value</cite> block of elements in memory, element-wise, at the memory locations specified by <cite>pointer</cite>.</p></td>
-</tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.atomic_cas.html#triton.atomic_cas" title="triton.atomic_cas"><code class="xref py py-obj docutils literal notranslate"><span class="pre">atomic_cas</span></code></a></p></td>
-<td><p></p></td>
-</tr>
-<tr class="row-even"><td><p><a class="reference internal" href="generated/triton.atomic_xchg.html#triton.atomic_xchg" title="triton.atomic_xchg"><code class="xref py py-obj docutils literal notranslate"><span class="pre">atomic_xchg</span></code></a></p></td>
-<td><p></p></td>
-</tr>
 </tbody>
 </table>
 </div>
@@ -325,9 +246,6 @@
 <col style="width: 90%" />
 </colgroup>
 <tbody>
-<tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.where.html#triton.where" title="triton.where"><code class="xref py py-obj docutils literal notranslate"><span class="pre">where</span></code></a></p></td>
-<td><p>Returns a block of elements from either <cite>x</cite> or <cite>y</cite>, depending on <cite>condition</cite>.</p></td>
-</tr>
 </tbody>
 </table>
 </div>
@@ -339,18 +257,6 @@
 <col style="width: 90%" />
 </colgroup>
 <tbody>
-<tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.exp.html#triton.exp" title="triton.exp"><code class="xref py py-obj docutils literal notranslate"><span class="pre">exp</span></code></a></p></td>
-<td><p></p></td>
-</tr>
-<tr class="row-even"><td><p><a class="reference internal" href="generated/triton.log.html#triton.log" title="triton.log"><code class="xref py py-obj docutils literal notranslate"><span class="pre">log</span></code></a></p></td>
-<td><p></p></td>
-</tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.sigmoid.html#triton.sigmoid" title="triton.sigmoid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">sigmoid</span></code></a></p></td>
-<td><p></p></td>
-</tr>
-<tr class="row-even"><td><p><a class="reference internal" href="generated/triton.softmax.html#triton.softmax" title="triton.softmax"><code class="xref py py-obj docutils literal notranslate"><span class="pre">softmax</span></code></a></p></td>
-<td><p></p></td>
-</tr>
 </tbody>
 </table>
 </div>
@@ -362,15 +268,6 @@
 <col style="width: 90%" />
 </colgroup>
 <tbody>
-<tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.max.html#triton.max" title="triton.max"><code class="xref py py-obj docutils literal notranslate"><span class="pre">max</span></code></a></p></td>
-<td><p></p></td>
-</tr>
-<tr class="row-even"><td><p><a class="reference internal" href="generated/triton.min.html#triton.min" title="triton.min"><code class="xref py py-obj docutils literal notranslate"><span class="pre">min</span></code></a></p></td>
-<td><p></p></td>
-</tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.sum.html#triton.sum" title="triton.sum"><code class="xref py py-obj docutils literal notranslate"><span class="pre">sum</span></code></a></p></td>
-<td><p></p></td>
-</tr>
 </tbody>
 </table>
 </div>
@@ -382,12 +279,6 @@
 <col style="width: 90%" />
 </colgroup>
 <tbody>
-<tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.minimum.html#triton.minimum" title="triton.minimum"><code class="xref py py-obj docutils literal notranslate"><span class="pre">minimum</span></code></a></p></td>
-<td><p></p></td>
-</tr>
-<tr class="row-even"><td><p><a class="reference internal" href="generated/triton.maximum.html#triton.maximum" title="triton.maximum"><code class="xref py py-obj docutils literal notranslate"><span class="pre">maximum</span></code></a></p></td>
-<td><p></p></td>
-</tr>
 </tbody>
 </table>
 </div>
@@ -399,9 +290,6 @@
 <col style="width: 90%" />
 </colgroup>
 <tbody>
-<tr class="row-odd"><td><p><a class="reference internal" href="generated/triton.multiple_of.html#triton.multiple_of" title="triton.multiple_of"><code class="xref py py-obj docutils literal notranslate"><span class="pre">multiple_of</span></code></a></p></td>
-<td><p></p></td>
-</tr>
 </tbody>
 </table>
 </div>
@@ -413,7 +301,7 @@
           </div>
           <footer>
     <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
-        <a href="generated/triton.program_id.html" class="btn btn-neutral float-right" title="triton.program_id" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="../../programming-guide/chapter-1/introduction.html" class="btn btn-neutral float-right" title="Introduction" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
         <a href="../../getting-started/tutorials/03-matrix-multiplication.html" class="btn btn-neutral float-left" title="Matrix Multiplication" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
     </div>
 
diff --git a/programming-guide/chapter-1/introduction.html b/programming-guide/chapter-1/introduction.html
index 8fd39f436..c23174c85 100644
--- a/programming-guide/chapter-1/introduction.html
+++ b/programming-guide/chapter-1/introduction.html
@@ -44,7 +44,7 @@
     <link rel="index" title="Index" href="../../genindex.html" />
     <link rel="search" title="Search" href="../../search.html" />
     <link rel="next" title="Related Work" href="../chapter-2/related-work.html" />
-    <link rel="prev" title="triton.multiple_of" href="../../language-reference/python-api/generated/triton.multiple_of.html" /> 
+    <link rel="prev" title="Python API" href="../../language-reference/python-api/index.html" /> 
 </head>
 
 <body class="wy-body-for-nav">
@@ -294,7 +294,7 @@
           <footer>
     <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
         <a href="../chapter-2/related-work.html" class="btn btn-neutral float-right" title="Related Work" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-        <a href="../../language-reference/python-api/generated/triton.multiple_of.html" class="btn btn-neutral float-left" title="triton.multiple_of" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="../../language-reference/python-api/index.html" class="btn btn-neutral float-left" title="Python API" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
     </div>
 
   <hr/>
diff --git a/searchindex.js b/searchindex.js
index ea21b36ad..5d8525940 100644
--- a/searchindex.js
+++ b/searchindex.js
@@ -1 +1 @@
-Search.setIndex({docnames:["getting-started/installation","getting-started/tutorials/01-vector-add","getting-started/tutorials/02-fused-softmax","getting-started/tutorials/03-matrix-multiplication","getting-started/tutorials/index","getting-started/tutorials/sg_execution_times","index","language-reference/python-api/generated/triton.arange","language-reference/python-api/generated/triton.atomic_cas","language-reference/python-api/generated/triton.atomic_xchg","language-reference/python-api/generated/triton.broadcast_to","language-reference/python-api/generated/triton.dot","language-reference/python-api/generated/triton.exp","language-reference/python-api/generated/triton.load","language-reference/python-api/generated/triton.log","language-reference/python-api/generated/triton.max","language-reference/python-api/generated/triton.maximum","language-reference/python-api/generated/triton.min","language-reference/python-api/generated/triton.minimum","language-reference/python-api/generated/triton.multiple_of","language-reference/python-api/generated/triton.num_programs","language-reference/python-api/generated/triton.program_id","language-reference/python-api/generated/triton.ravel","language-reference/python-api/generated/triton.reshape","language-reference/python-api/generated/triton.sigmoid","language-reference/python-api/generated/triton.softmax","language-reference/python-api/generated/triton.store","language-reference/python-api/generated/triton.sum","language-reference/python-api/generated/triton.where","language-reference/python-api/generated/triton.zeros","language-reference/python-api/index","programming-guide/chapter-1/introduction","programming-guide/chapter-2/related-work"],envversion:{"sphinx.domains.c":2,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":3,"sphinx.domains.index":1,"sphinx.domains.javascript":2,"sphinx.domains.math":2,"sphinx.domains.python":2,"sphinx.domains.rst":2,"sphinx.domains.std":2,sphinx:56},filenames:["getting-started/installation.rst","getting-started/tutorials/01-vector-add.rst","getting-started/tutorials/02-fused-softmax.rst","getting-started/tutorials/03-matrix-multiplication.rst","getting-started/tutorials/index.rst","getting-started/tutorials/sg_execution_times.rst","index.rst","language-reference/python-api/generated/triton.arange.rst","language-reference/python-api/generated/triton.atomic_cas.rst","language-reference/python-api/generated/triton.atomic_xchg.rst","language-reference/python-api/generated/triton.broadcast_to.rst","language-reference/python-api/generated/triton.dot.rst","language-reference/python-api/generated/triton.exp.rst","language-reference/python-api/generated/triton.load.rst","language-reference/python-api/generated/triton.log.rst","language-reference/python-api/generated/triton.max.rst","language-reference/python-api/generated/triton.maximum.rst","language-reference/python-api/generated/triton.min.rst","language-reference/python-api/generated/triton.minimum.rst","language-reference/python-api/generated/triton.multiple_of.rst","language-reference/python-api/generated/triton.num_programs.rst","language-reference/python-api/generated/triton.program_id.rst","language-reference/python-api/generated/triton.ravel.rst","language-reference/python-api/generated/triton.reshape.rst","language-reference/python-api/generated/triton.sigmoid.rst","language-reference/python-api/generated/triton.softmax.rst","language-reference/python-api/generated/triton.store.rst","language-reference/python-api/generated/triton.sum.rst","language-reference/python-api/generated/triton.where.rst","language-reference/python-api/generated/triton.zeros.rst","language-reference/python-api/index.rst","programming-guide/chapter-1/introduction.rst","programming-guide/chapter-2/related-work.rst"],objects:{triton:{arange:[7,0,1,""],atomic_cas:[8,0,1,""],atomic_xchg:[9,0,1,""],broadcast_to:[10,0,1,""],dot:[11,0,1,""],exp:[12,0,1,""],load:[13,0,1,""],log:[14,0,1,""],max:[15,0,1,""],maximum:[16,1,1,""],min:[17,0,1,""],minimum:[18,1,1,""],multiple_of:[19,0,1,""],num_programs:[20,0,1,""],program_id:[21,0,1,""],ravel:[22,1,1,""],reshape:[23,0,1,""],sigmoid:[24,1,1,""],softmax:[25,1,1,""],store:[26,0,1,""],sum:[27,0,1,""],where:[28,0,1,""],zeros:[29,0,1,""]}},objnames:{"0":["py","function","Python function"],"1":["py","data","Python data"]},objtypes:{"0":"py:function","1":"py:data"},terms:{"000":5,"0000e":3,"006622":3,"0220e":[],"028108":3,"028568":3,"0344e":3,"0359e":[],"040861":3,"046163":3,"0477e":[],"0641e":[],"0643e":[],"064605":3,"069377":3,"0703e":[],"078047":3,"0795e":[],"081606":3,"0876e":[],"0881e":[],"0942e":[],"094986":3,"1024":[1,3],"1031e":3,"1094e":[],"10mn":2,"1125e":[],"1133e":[],"117":3,"1211e":3,"121589":3,"1238e":[],"1248e":3,"128":3,"1280":3,"130286":3,"1324e":3,"1325e":3,"1422e":3,"1438e":[],"146088":3,"147":3,"148":[],"150":3,"151":3,"1516e":[],"1536":3,"1539e":[],"157":3,"164923":3,"1778e":[],"179":3,"1792":3,"1802e":3,"180520":3,"1823":2,"184001":3,"1914e":3,"193":3,"193644":3,"197":3,"1983":31,"1984":32,"1989":32,"1991":[31,32],"1999":32,"200":3,"2004":32,"2006":32,"2012":32,"2013":31,"2014":31,"2016":[31,32],"2017":31,"2018":[31,32],"2019":32,"2021":[31,32],"2048":[2,3],"210":3,"212":3,"2141":1,"2156e":3,"217":3,"2174e":[],"220":3,"221":3,"2212e":[],"223":3,"230":[3,5],"2304":3,"231":3,"231062":3,"232":3,"233":3,"234":3,"235":3,"236":3,"237":3,"238":3,"240":3,"242":3,"243":3,"244":3,"245":3,"247":3,"248":3,"249":3,"250":3,"251":3,"2510e":[],"252":3,"253":3,"2531e":[],"254":3,"256":[2,3],"2560":3,"257":3,"258":[],"259":3,"2598e":[],"2605e":[],"2617e":[],"262":3,"263":3,"264":3,"2658e":[],"266":3,"270":3,"274":3,"2816":3,"2930e":[],"295210":3,"295291":[],"298229":3,"2mn":2,"3072":3,"3076":1,"3094e":[],"3113e":3,"312729":3,"315584":3,"3328":3,"3375e":[],"3584":3,"366501":3,"3713":1,"3721e":[],"3777e":[],"379013":3,"382140":3,"3836e":[],"3840":3,"385067":3,"386204":3,"3mn":2,"4096":[2,3],"418188":3,"420235":3,"4237e":3,"4261e":3,"4277e":[],"4336e":[],"4352":3,"4375e":[],"447761":3,"448":[],"449270":3,"455995":3,"4587e":[],"4595e":[],"4608":3,"4829e":[],"4864":3,"4883e":[],"4890e":[],"4922e":[],"493157":3,"4940":1,"499328":3,"500857":3,"5078e":[],"512":3,"5120":3,"5166e":[],"5197e":[],"5199e":3,"5227e":[],"5268e":[],"5306e":[],"5332e":[],"5376":3,"538463":3,"546057":[],"5469e":3,"548513":3,"552287":3,"5602e":3,"5632":3,"565495":3,"5703e":[],"573240":3,"5888":3,"593357":3,"608068":3,"6144":3,"622108":3,"6343e":[],"6387e":[],"639115":3,"6400":3,"6531e":3,"6547e":3,"6550e":3,"6562e":[],"6578e":3,"6656":3,"6724":1,"676487":3,"6806e":[],"6844e":[],"685535":3,"6865e":[],"6875e":[],"689066":3,"6891e":[],"6907e":[],"6912":3,"6934e":3,"699140":3,"7100e":[],"7168":3,"7261e":[],"7266e":3,"727608":3,"7295e":[],"7412e":3,"7424":3,"753804":3,"7562e":3,"7615e":3,"767":2,"768":3,"7680":3,"7684e":[],"779924":[],"781":2,"783168":3,"7852e":3,"789150":3,"7936":3,"7mn":2,"803966":3,"812":1,"8125e":[],"815375":3,"8164e":3,"8192":3,"8340e":[],"8477e":[],"8537e":[],"859598":3,"860938":3,"8632e":[],"8644e":[],"869":[],"9078e":3,"916752":3,"922869":3,"926171":3,"930679":[],"9414e":[],"9438e":3,"9453e":[],"9531e":3,"9605e":[],"9672e":[],"9733":1,"9805e":[],"982401":3,"98432":1,"9844e":[],"9870e":[],"987140":3,"988932":3,"abstract":[31,32],"break":32,"byte":2,"case":[2,3,31,32],"class":[31,32],"float":[2,31,32],"function":[1,2,3,7,10,11,13,20,21,23,26,28,29,32],"import":[1,2,3,31,32],"int":[1,7,10,20,21,29,31,32],"new":[10,23,29],"return":[1,2,3,7,11,13,20,21,28,29],"static":[31,32],"super":3,"switch":3,"true":[1,2,3,28],"try":3,"var":32,"while":[0,31],For:[3,31,32],Has:[20,21],One:3,SMs:32,T_S:32,The:[1,2,3,10,11,20,21,26,28,31,32],These:[3,32],Used:[1,2,3],__expf:2,_add:1,_matmul:3,_softmax:2,a100:[3,32],abl:32,about:[1,2,3,6],abov:[1,2,3,32],abs:1,academ:31,acc:[3,31,32],acceler:31,accept:3,access:[1,31,32],accomod:3,accordingli:32,account:32,accumul:32,accuraci:31,achiev:[3,31,32],across:[31,32],activ:3,actual:[3,31,32],add:[1,5],addit:[2,4,5,31],addition:32,address:[2,31],adopt:32,advanc:31,advoc:32,affect:3,affin:32,against:[1,2,3,6],aggress:[2,31,32],agnost:[31,32],ahead:32,aim:6,algebra:32,algorithm:[3,31,32],alia:32,all:[2,3,4,31,32],allclos:[2,3],allen1984:32,allen:32,alloc:[1,2,3,31],allow:[1,2,31,32],almost:2,along:[1,20,21],also:[1,2,3,31,32],alwai:[28,32],amd:31,amen:32,amount:[2,31],ampl:32,analog:1,analysi:[31,32],analyz:32,ancourt1991:32,ancourt:32,ani:[2,3,32],anoth:[2,32],apart:32,api:[0,6],appli:[31,32],applic:32,approach:[31,32],approxim:2,arang:[1,2,3],arbitrari:3,architectur:[3,31],area:32,arg:[1,2,3],argument:[1,2,3,28],around:2,arrai:[29,32],arrang:3,art:[31,32],arxiv:[31,32],ask:2,aspect:32,asplo:31,assert:3,assum:2,asynchron:[1,31],auguin1983:31,auguin:31,auto:[2,3,32],autom:31,automat:[3,31,32],autotun:[3,32],avail:[31,32],avoid:28,awar:31,axi:[1,2,3,15,17,20,21,27],back:[1,2],baghdadi2021:[31,32],baghdadi:[31,32],balanc:32,bandwidth:2,base:[31,32],basic:[1,4,32],becom:31,been:[1,31,32],befor:3,begin:32,behavior:32,believ:32,below:[4,32],bench:0,benchmark:0,benefit:[2,31,32],best:[1,31],better:3,between:[1,31],bit:2,block:[1,2,3,10,11,13,23,26,28,29,31,32],block_k:3,block_m:3,block_n:3,block_siz:32,boil:32,bool:[13,26,28],both:[28,32],bound:[1,2,32],branch:32,broad:31,broadcast:[10,28],build:[0,3],builder:[7,8,9,10,11,12,13,14,15,17,19,20,21,23,26,27,28,29],built:[1,32],c_0:3,c_1:3,cach:[2,31,32],call:[1,3,32],callabl:1,can:[0,1,2,3,31,32],cannot:[3,31,32],capabl:[6,31],cdiv:[1,3],cgo:[31,32],chang:3,chapter:6,characterist:32,cheap:31,check:[3,6],checkout:6,chen2018:31,chen:31,chip:2,choic:6,cite:32,click:[1,2,3],clone:0,close:[3,32],cmake:0,cmp:8,coalesc:31,code:[1,2,3,4,7,10,11,13,20,21,23,26,28,29,31,32],code_gen:[16,18,22,24,25],codegen:0,col:[2,32],column:[2,3],com:[0,32],combin:31,come:[2,3,32],command:0,common:32,commonli:32,compar:[2,3,6,32],compat:11,compil:[0,2,3,6,31],complet:32,complex:32,compos:31,composit:32,comprehens:[31,32],comput:[6,31,32],computation:[31,32],concern:32,concis:1,condit:[28,32],config:3,configur:3,connectom:31,consecut:32,consequ:31,consid:2,consist:2,constitut:1,constraint:[3,32],construct:31,consum:3,contain:32,contextu:32,contigu:[3,7],control:[31,32],conveni:3,convert:1,convolut:31,copi:31,core:[31,32],correspond:[1,2,3],cost:32,could:[2,32],cours:31,creat:[1,2,3,31],csv:1,cubla:[3,31],cuda:[1,2,3,31],cudnn:31,current:21,custom:[1,2,3,6],cutlass:3,cvpr:31,dart:32,darte1999:32,data:[1,2,3,13,28,29,31,32],dataflow:32,decad:31,declara:1,decompos:32,decor:[1,3],deep:[3,31,32],def:[1,2,3],defin:[2,3,13,32],definit:32,denom:2,denomin:2,denot:1,dens:32,depend:[28,32],deploi:31,describ:32,design:32,detail:32,detect:31,develop:[31,32],devic:[1,2,3],dialect:32,diesel:32,differ:[1,2,3,21,31,32],difficult:32,difficulti:[3,31],dijkstra82:32,dim:32,dimens:[3,11],dimension:[3,11,32],dir:0,direct:0,directli:0,disjoint:32,disk:1,dissert:32,distribut:32,dnn:[6,31,32],do_bench:[1,2,3],doe:[1,2,32],doesn:32,doing:31,domain:[31,32],don:[1,2],done:[0,3,31],dot:3,doubli:3,doubt:32,down:32,download:[0,1,2,3,4],dram:2,driver:0,dsl:[6,31,32],dtype:[1,2,3,29],each:[2,3,31,32],eas:32,easi:3,easier:[1,2,31],easili:3,education:2,effect:32,effici:[3,31],effort:32,either:[1,20,21,28],elango2018:32,elango:32,element:[1,2,3,26,28],element_s:2,elementwis:[2,13],emerg:31,empti:3,empty_lik:[1,2],enabl:32,encod:32,end:[7,31,32],enforc:32,engin:32,enqueu:[1,2],ensur:32,entir:[2,32],entri:1,environ:6,equal:32,especi:31,etc:3,euromicro:31,evalu:[3,28],even:32,evidenc:31,evolv:31,exampl:[1,2,3,4,31,32],execut:[1,5,31,32],exist:[31,32],exp:[2,3],expect:2,expens:[31,32],expert:3,explor:31,exponenti:2,express:[31,32],extend:3,extract:3,extrem:32,facilit:[31,32],fact:32,fairli:3,fals:[13,26,28],far:2,fast:[2,31,32],faster:2,fastest:32,feel:3,fetch:31,few:32,field:31,figur:32,file:[1,2,3,5],fill:29,first:[1,6,11,32],fit:2,flexibl:31,float16:[3,11,29],float32:[1,2,3,11],flow:[31,32],focu:[3,32],follow:[0,2,3,6,31,32],forget:1,formal:32,format:32,found:0,foundat:32,framework:[31,32],free:3,from:[2,3,7,10,11,13,20,21,23,26,28,29,31,32],full:[1,2,3],fulli:32,func:32,fundament:32,further:32,fuse:[3,4,5],fusion:[2,32],galleri:[1,2,3,4],gbp:[1,2],gener:[1,2,3,4,7,10,11,13,20,21,23,26,28,29,31,32],geq:32,get:[1,2,5],girbal2006:32,girbal:32,git:0,github:0,give:31,given:[2,3,20,21,29],global:32,good:[1,32],gpgpu:31,gpu:[1,2,3,6,31,32],grammat:32,graphic:31,greater:2,grid:[1,2,3,20,21],grid_m:3,grid_n:3,grosser2012:32,grosser:32,group:3,group_id:3,group_m:3,group_siz:3,grow:32,guard:[1,2],guess:2,guid:31,halid:[31,32],hand:32,handl:[1,2,3,32],handwritten:31,hard:3,harder:32,hardwar:[3,6,32],has:[1,31,32],hasn:1,have:[2,11,28,31,32],heavi:31,helper:[1,2],henc:3,here:[0,1,2,3],heurist:2,hierarch:31,hierarchi:32,high:[3,31,32],highli:31,highlight:32,hint:32,hit:3,how:[1,2,3,6,31],howev:[3,32],http:0,idea:31,ident:2,idx:[13,26],imag:[31,32],imper:6,implement:[1,2,3,31,32],implicitli:1,importantli:32,impos:32,improv:3,incompat:[3,32],increas:1,incred:31,increment:32,inde:32,independ:32,index:2,indic:[2,28,32],induc:32,industri:31,inequ:32,inf:2,inform:32,infrastructur:32,initi:3,inner:[3,11],input:[1,2,3,10,11,15,17,23,27,32],instal:6,instanc:[1,2,3,20,21,31],instead:[2,13,28],instruct:[6,31],integ:32,integr:0,interchang:32,interest:[0,31,32],intermedi:[0,32],intern:[0,2,32],interv:7,intrins:32,introduct:6,invari:32,ipynb:[1,2,3],irregular:[2,32],is_contigu:3,issu:[31,32],iter:[3,31,32],its:[2,32],jit:[1,2,3,7,10,11,13,20,21,23,26,28,29],jitfunct:[16,18,22,24,25],journal:32,jrk2013:31,jupyt:[1,2,3,4],just:32,kei:[1,2,3,31],kellei:31,kernel:[6,31],keyword:1,known:32,label:[1,2,3],lam1991:31,lam:31,lambda:[1,2,3],languag:31,larg:[2,31,32],later:32,latest:0,lattner2004:32,lattner2019:32,lattner:32,launch:[1,2,3,20,21],law:32,layer:[31,32],lead:[31,32],learn:[1,2,3,6,31,32],least:32,lee2017:31,lee:31,left:32,legal:32,less:[2,31,32],let:2,letter:32,level:[3,31,32],librari:[3,31,32],lies:31,lifelong:32,like:[1,31,32],limit:2,line:[1,2,3,32],linear:[31,32],list:3,litteratur:32,llvm:[0,32],load:[1,2,3,28,32],local:[31,32],locat:[3,13,26],logarithm:1,longer:2,look:[2,6,31],loop:[3,32],low:32,machin:[31,32],machineri:[31,32],made:31,mai:[0,32],main:[1,3,31,32],maintain:[2,32],major:[3,32],make:[0,1,2,31,32],manag:31,mani:[31,32],manual:[2,32],manual_se:[1,2,3],mapl:32,markedli:31,mask:[1,2,3,13,26,28],mathbb:32,mathbf:32,mathcal:32,mathemat:32,matmul:[3,32],matric:[2,3],matrix:[2,4,5,11,31,32],matrix_s:32,matter:[3,31,32],max:[1,2],max_m:[1,2,3],maxim:[6,32],maximum:[1,2],mean:[2,3,32],mechan:[2,32],memori:[1,2,3,13,26,28,31,32],mention:3,meta:[1,2,3],metaparamet:[1,3],method:32,methodolog:32,micro:31,min:3,min_m:[1,2,3],minut:[0,1,2,3],miss:32,mitig:32,mixtur:3,mkdir:0,mlir:32,model:[1,21,31,32],modern:[3,6,31,32],modular:32,moor:32,more:[2,6,31,32],most:[3,32],move:2,mullapudi2016:32,mullapudi:32,multi:[3,31,32],multipl:[4,5,31,32],multipli:[11,32],must:[2,3,11,28],naiv:[2,3],naive_softmax:2,name:[1,2,3],nativ:[1,3],natur:[2,31],necessari:2,need:[2,3],nelement:2,nest:[3,32],net:32,network:[31,32],neural:[31,32],neurosci:31,next:[2,3],next_power_of_2:2,nightli:0,nip:31,non:31,none:[2,3,7,8,9,10,11,12,13,14,15,17,19,20,21,23,26,27,28,29],nonzero:28,normal:[2,3],note:[0,1,2,28,32],notebook:[1,2,3,4],notic:32,notori:[3,31],novel:31,now:[1,3],num:2,num_warp:[2,3],number:[1,2,20,32],numer:[2,31],nvidia:31,object:[1,3,16,18,22,24,25,31],obtain:1,obvious:2,occur:32,offer:31,offici:0,offset:1,often:3,omega:32,onc:[2,31,32],one:[2,4,31,32],onli:[2,3,31,32],open:7,opencl:31,oper:[1,2,3,4,28,31],operand:3,opportun:31,ops:1,opsila:31,optim:[31,32],option:[1,3,7,10,11,13,20,21,23,26,28,29],order:[3,4,32],origin:32,osdi:31,other:[2,3,6,11,13,32],otherwis:28,our:[1,2,3,31],out:[1,2,3,6,32],outlin:32,outperform:2,output:[1,2,3],over:[31,32],pact:32,pad:2,paradigm:[31,32],parallel:[1,2,3,6,21,31,32],paralleliz:31,param:23,paramet:[1,3,7,10,11,13,20,21,26,28,29,32],parametr:31,parser:0,part:[3,32],partial:2,particularli:[31,32],partit:31,pass:[1,32],past:[31,32],path:1,pattern:31,peak:[3,32],per:2,perf:3,perf_report:[1,2,3],perform:[1,2,31,32],phase:32,philosophi:32,pid:[1,3],pid_m:3,pid_n:3,pip:0,pipelin:[31,32],platform:[6,32],pldi:31,plot:[0,1,2,3],plot_nam:[1,2,3],pmatrix:32,point:[1,32],pointer:[1,13,26],polli:32,polyhedr:31,polyhedra:32,popular:32,portabl:[31,32],pose:31,possibl:[1,2,3,32],power:[2,32],ppopp:32,practic:[1,2,3,31],pragma:31,pre:[0,31],predict:[2,32],prefer:2,premis:31,present:3,preserv:32,prevent:32,primer:32,primit:31,principl:32,print:[1,2,3],print_data:3,probabl:32,problem:1,problemat:32,procedur:32,process:[1,31,32],processor:31,product:[6,11,32],program:[1,2,3,6,20,21,31],program_id:[1,2,3],programm:[31,32],project:31,promot:[3,32],properli:2,properti:32,propos:31,proprietari:3,provid:[1,2,3,6,32],pseudo:3,ptillet:0,ptr:[8,9],purpos:[31,32],push:32,putat:32,pytest:0,python:[1,2,3,4,6],pytorch:[1,2],qquad:32,ragan:31,rand:1,randn:[2,3],rang:[1,2,3,31,32],rapidli:[31,32],rate:3,rather:31,raw:1,rdom:32,read:[2,3,4],reader:32,real:31,reason:[3,32],recent:31,recommend:4,recomput:31,rectifi:31,redmon2016:31,redmon:31,reduct:2,refer:1,regardless:28,regist:3,regrett:31,regular:32,rel:[1,32],relat:6,releas:[0,31],reli:32,remain:31,remateri:3,reorder:32,repres:32,represent:0,requir:[2,32],research:[31,32],resolut:32,resourc:31,resp:32,respect:32,restrict:32,result:[0,1,2,31,32],ret:2,ret_fals:3,ret_tru:3,retriev:32,reus:3,revisit:31,right:32,rise:32,roughli:3,row:[2,3],run:[0,1,2,3,6,21,32],runtim:[0,32],rvar:32,said:32,same:31,sato2019:32,sato:32,save:[1,2,3],save_path:1,scalabl:32,scalar:[11,29,31],scan:32,schedul:31,scienc:32,scop:32,scope:32,script:[1,2,3],second:[1,2,3,11,32],section:32,see:[1,2,32],seem:[1,32],select:[28,31],semant:32,semi:32,sens:[1,31,32],separ:32,sequenc:31,set:[1,32],sever:[31,32],shall:32,shape:[1,2,3,10,23,28,29,32],share:[2,31],should:[1,31,32],show:3,show_plot:[1,2],shown:32,side:32,sight:32,sigmoid:3,signal:31,significantli:2,sigplan:32,silu:3,simd:31,simpl:[1,2],simplest:4,simpli:32,sinc:[1,3],singl:31,size:[1,2,32],slower:[31,32],slowest:32,smallest:2,snemi3d:31,softmax:[4,5],solid:32,solut:[2,3],solv:32,some:3,sometim:32,sourc:[1,2,3,4,32],space:[31,32],spars:[31,32],spatial:32,speak:3,special:31,specif:[3,31],specifi:[3,26,32],speed:2,sphinx:[1,2,3,4],split:32,spmd:[1,21,31,32],stabil:2,standard:32,start:[4,7],started_tutori:5,state:[31,32],statement:32,step:32,still:[1,32],stop:7,store:[1,2,3,28],straightforward:3,strategi:32,strength:31,stride:[2,3],stride_a_0:3,stride_a_1:3,stride_ak:3,stride_am:3,stride_b_0:3,stride_b_1:3,stride_bk:3,stride_bn:3,stride_cm:3,stride_cn:3,stride_x_0:3,stride_x_1:3,stride_xm:2,stride_ym:2,structur:[31,32],subscript:[1,32],substanti:31,substract:2,successfulli:32,suffer:32,suit:31,sum:[1,2],superhuman:31,support:[0,32],sure:2,surprisingli:31,surround:32,sutskev:31,sutskever2014:31,swish:3,swizzl:31,synchron:[1,31],system:[3,31,32],taco:32,take:[0,3,6],taken:32,target:31,techniqu:[3,31,32],tempor:32,temporari:2,tend:32,tension:31,tensor:[1,2,3,31,32],tensorrt:31,test:[0,1],text:32,tflop:3,than:[2,31,32],thei:[3,31,32],them:1,themselv:3,theoret:2,therebi:32,therefor:3,theta:32,theta_:32,thi:[0,1,2,3,31,32],thing:1,think:2,those:0,though:[2,31,32],thread:31,through:[4,32],throughout:32,throughput:6,tile:[2,32],time:[1,2,3,31,32],tiramisu:[31,32],tmp:0,tog:32,too:2,topic:32,torch:[1,2,3],total:[1,2,3,5],tradit:[31,32],transfer:2,transform:32,travers:32,trend:31,tri:10,trick:2,trigger:3,triton:[0,1,2,3,4,31,32],trivial:31,tune:[2,3,32],tupl:[1,10,29],tutori:[0,1,2,3,6],tutorials_jupyt:4,tutorials_python:4,tvm:[31,32],twice:2,two:[1,2,3,11,32],type:[11,23,28,29],typic:[3,32],uncommon:32,underneath:32,understand:2,unfortun:[3,32],unifi:31,unint:28,unit:[0,31],univers:32,unlik:3,unrol:32,updat:[3,32],usag:0,use:[0,1,2,3,28,31,32],used:1,uses:21,using:[1,3,31,32],util:1,v100:32,val:[8,9],valid:1,valu:[1,2,3,7,10,13,19,26,28,29],valuabl:2,variant:31,variou:4,vasilach:[31,32],vasilache2018:[31,32],vast:32,vec:32,vector:[2,4,5,31,32],vendor:3,veri:[2,32],verif:32,verifi:[2,32],via:[3,32],visibl:32,vision:31,wai:[2,3],want:[0,2,28],warp:2,wast:2,well:[31,32],when:[2,28,31,32],where:[3,26,32],whether:31,which:[1,2,3,21,31,32],whose:[1,2,3,13,32],wide:32,width:3,wise:[2,3,26],wish:[3,32],within:[7,10,11,13,20,21,23,26,28,29],without:32,wolf:32,wolfe1989:32,won:2,word:32,work:[2,6,31],workload:3,wors:[31,32],would:2,wouldn:32,wrapper:3,write:[1,2,3,4,6,32],wrote:2,x_log:1,x_max:2,x_name:[1,2,3],x_val:[1,2,3],xii:32,y_line:[1,2,3],y_name:[1,2,3],y_ref:2,y_tri:2,y_val:[1,2,3],year:32,yet:[31,32],yield:28,yii:32,ylabel:[1,2,3],you:[0,1,2,3,4,28,31],your:[0,6],yourself:[2,3],zero:3,zip:4},titles:["Installation","Vector Addition","Fused Softmax","Matrix Multiplication","Tutorials","Computation times","Welcome to Triton\u2019s documentation!","triton.arange","triton.atomic_cas","triton.atomic_xchg","triton.broadcast_to","triton.dot","triton.exp","triton.load","triton.log","triton.max","triton.maximum","triton.min","triton.minimum","triton.multiple_of","triton.num_programs","triton.program_id","triton.ravel","triton.reshape","triton.sigmoid","triton.softmax","triton.store","triton.sum","triton.where","triton.zeros","Python API","Introduction","Related Work"],titleterms:{"final":3,Going:6,Ops:30,addit:1,advantag:32,algebra:30,api:30,arang:7,arithmet:3,atomic_ca:8,atomic_xchg:9,benchmark:[1,2,3],binari:0,broadcast_to:10,cach:3,challeng:31,comparison:30,compil:[30,32],comput:[1,2,3,5],creation:30,distribut:0,document:6,dot:11,exp:12,from:0,further:6,fuse:2,get:6,hint:30,index:30,instal:0,introduct:31,kernel:[1,2,3],languag:[6,32],limit:32,linear:30,load:13,log:14,manipul:30,math:30,matrix:3,max:15,maximum:16,memori:30,min:17,minimum:18,model:30,motiv:[2,3,31],multipl:3,multiple_of:19,num_program:20,ops:30,optim:3,packag:0,perform:3,pointer:3,polyhedr:32,program:[30,32],program_id:21,python:[0,30],ravel:22,reduct:30,refer:[6,31,32],relat:32,represent:32,reshap:23,result:3,schedul:32,shape:30,sigmoid:24,softmax:[2,25],sourc:0,squar:3,start:6,store:26,sum:27,test:[2,3],time:5,triton:[6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29],tutori:4,unit:[2,3],vector:1,welcom:6,where:28,work:32,zero:29}})
\ No newline at end of file
+Search.setIndex({docnames:["getting-started/tutorials/01-vector-add","getting-started/tutorials/02-fused-softmax","getting-started/tutorials/03-matrix-multiplication","getting-started/tutorials/index","getting-started/tutorials/sg_execution_times","index","language-reference/python-api/generated/triton.arange","language-reference/python-api/generated/triton.atomic_cas","language-reference/python-api/generated/triton.atomic_xchg","language-reference/python-api/generated/triton.broadcast_to","language-reference/python-api/generated/triton.dot","language-reference/python-api/generated/triton.exp","language-reference/python-api/generated/triton.load","language-reference/python-api/generated/triton.log","language-reference/python-api/generated/triton.max","language-reference/python-api/generated/triton.maximum","language-reference/python-api/generated/triton.min","language-reference/python-api/generated/triton.minimum","language-reference/python-api/generated/triton.multiple_of","language-reference/python-api/generated/triton.num_programs","language-reference/python-api/generated/triton.program_id","language-reference/python-api/generated/triton.ravel","language-reference/python-api/generated/triton.reshape","language-reference/python-api/generated/triton.sigmoid","language-reference/python-api/generated/triton.softmax","language-reference/python-api/generated/triton.store","language-reference/python-api/generated/triton.sum","language-reference/python-api/generated/triton.where","language-reference/python-api/generated/triton.zeros"],envversion:{"sphinx.domains.c":2,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":3,"sphinx.domains.index":1,"sphinx.domains.javascript":2,"sphinx.domains.math":2,"sphinx.domains.python":2,"sphinx.domains.rst":2,"sphinx.domains.std":2,sphinx:56},filenames:["getting-started/tutorials/01-vector-add.rst","getting-started/tutorials/02-fused-softmax.rst","getting-started/tutorials/03-matrix-multiplication.rst","getting-started/tutorials/index.rst","getting-started/tutorials/sg_execution_times.rst","index.rst","language-reference/python-api/generated/triton.arange.rst","language-reference/python-api/generated/triton.atomic_cas.rst","language-reference/python-api/generated/triton.atomic_xchg.rst","language-reference/python-api/generated/triton.broadcast_to.rst","language-reference/python-api/generated/triton.dot.rst","language-reference/python-api/generated/triton.exp.rst","language-reference/python-api/generated/triton.load.rst","language-reference/python-api/generated/triton.log.rst","language-reference/python-api/generated/triton.max.rst","language-reference/python-api/generated/triton.maximum.rst","language-reference/python-api/generated/triton.min.rst","language-reference/python-api/generated/triton.minimum.rst","language-reference/python-api/generated/triton.multiple_of.rst","language-reference/python-api/generated/triton.num_programs.rst","language-reference/python-api/generated/triton.program_id.rst","language-reference/python-api/generated/triton.ravel.rst","language-reference/python-api/generated/triton.reshape.rst","language-reference/python-api/generated/triton.sigmoid.rst","language-reference/python-api/generated/triton.softmax.rst","language-reference/python-api/generated/triton.store.rst","language-reference/python-api/generated/triton.sum.rst","language-reference/python-api/generated/triton.where.rst","language-reference/python-api/generated/triton.zeros.rst"],objects:{triton:{arange:[6,0,1,""],atomic_cas:[7,0,1,""],atomic_xchg:[8,0,1,""],broadcast_to:[9,0,1,""],dot:[10,0,1,""],exp:[11,0,1,""],load:[12,0,1,""],log:[13,0,1,""],max:[14,0,1,""],maximum:[15,1,1,""],min:[16,0,1,""],minimum:[17,1,1,""],multiple_of:[18,0,1,""],num_programs:[19,0,1,""],program_id:[20,0,1,""],ravel:[21,1,1,""],reshape:[22,0,1,""],sigmoid:[23,1,1,""],softmax:[24,1,1,""],store:[25,0,1,""],sum:[26,0,1,""],where:[27,0,1,""],zeros:[28,0,1,""]}},objnames:{"0":["py","function","Python function"],"1":["py","data","Python data"]},objtypes:{"0":"py:function","1":"py:data"},terms:{"0000e":2,"002304":2,"003930":2,"0220e":2,"028568":2,"032234":2,"044":[0,4],"057027":2,"078047":2,"0876e":2,"096276":2,"1024":[0,2],"1094e":2,"10mn":1,"1133e":2,"117":2,"1238e":2,"128":2,"1280":2,"137481":2,"144":2,"152":2,"153":2,"1536":2,"1539e":2,"154":4,"157":2,"157204":2,"161678":2,"164923":2,"172024":2,"173747":2,"176":[1,4],"1778e":2,"178":2,"178785":2,"1792":2,"180520":2,"1823":1,"184001":2,"190":2,"198":2,"199":2,"2048":[1,2],"205983":2,"206935":2,"208":2,"210":2,"2141":0,"215":2,"215272":2,"2156e":2,"220":2,"221":2,"222":2,"229":2,"230":2,"2304":2,"231":2,"232":2,"233":2,"235":2,"236":2,"238":2,"239":2,"241":2,"242":2,"244":2,"245":2,"246":2,"246398":2,"248":2,"249":2,"250":2,"251":2,"2510e":2,"252":2,"253":2,"254":2,"256":[1,2],"2560":2,"257":2,"259":2,"2598e":2,"2605e":2,"2617e":2,"263":2,"264":2,"2658e":2,"266":2,"266731":2,"267699":2,"270":2,"276":2,"2816":2,"282797":2,"293068":2,"2mn":1,"3072":2,"3076":0,"307632":2,"3094e":2,"315584":2,"3328":2,"3375e":2,"3584":2,"360005":2,"366501":2,"3713":0,"377264":2,"3836e":2,"3840":2,"385067":2,"3mn":1,"4096":[1,2],"420235":2,"4277e":2,"4352":2,"4375e":2,"441481":2,"446699":2,"4608":2,"4864":2,"4940":0,"498706":2,"500857":2,"511113":2,"512":2,"5120":2,"514009":2,"519114":2,"520144":2,"527241":2,"5332e":2,"5376":2,"538463":2,"552287":2,"560014":2,"5632":2,"578957":2,"5888":2,"595626":2,"606284":2,"614125":2,"6144":2,"6387e":2,"6400":2,"6547e":2,"6562e":2,"6656":2,"6724":0,"676487":2,"6865e":2,"6875e":2,"6891e":2,"6907e":2,"6912":2,"692102":2,"699140":2,"7100e":2,"7168":2,"728763":2,"7295e":2,"740709":2,"741014":2,"7424":2,"768":2,"7680":2,"7684e":2,"781":1,"7936":2,"7mn":1,"803966":2,"8125e":2,"8192":2,"8340e":2,"844029":2,"8477e":2,"8537e":2,"8632e":2,"8644e":2,"867127":2,"868505":2,"916752":2,"917998":2,"933":[2,4],"9414e":2,"9453e":2,"9605e":2,"9733":0,"982401":2,"98432":0,"9844e":2,"988932":2,"990461":2,"byte":1,"case":[1,2],"float":1,"function":[0,1,2,6,9,10,12,19,20,22,25,27,28],"import":[0,1,2],"int":[0,6,9,19,20,28],"new":[9,22,28],"return":[0,1,2,6,10,12,19,20,27,28],"super":2,"switch":2,"true":[0,1,2,27],"try":2,For:2,Has:[19,20],One:2,The:[0,1,2,9,10,19,20,25,27],These:2,Used:[0,1,2],__expf:1,_add:0,_matmul:2,_softmax:1,a100:2,about:[0,1,2,5],abov:[0,1,2],abs:0,acc:2,accept:2,access:0,accomod:2,achiev:2,activ:2,actual:2,add:[0,4],addit:[1,3,4],address:1,affect:2,against:[0,1,2,5],aggress:1,aim:5,algorithm:2,all:[1,2,3],allclos:[1,2],alloc:[0,1,2],allow:[0,1],almost:1,along:[0,19,20],also:[0,1,2],alwai:27,amount:1,analog:0,ani:[1,2],anoth:1,api:5,approxim:1,arang:[0,1,2],arbitrari:2,architectur:2,arg:[0,1,2],argument:[0,1,2,27],around:1,arrai:28,arrang:2,ask:1,assert:2,assum:1,asynchron:0,auto:[1,2],automat:2,autotun:2,avoid:27,axi:[0,1,2,14,16,19,20,26],back:[0,1],bandwidth:1,basic:[0,3],been:0,befor:2,below:3,benefit:1,best:0,better:2,between:0,bit:1,block:[0,1,2,9,10,12,22,25,27,28],block_k:2,block_m:2,block_n:2,bool:[12,25,27],both:27,bound:[0,1],broadcast:[9,27],build:2,builder:[6,7,8,9,10,11,12,13,14,16,18,19,20,22,25,26,27,28],built:0,c_0:2,c_1:2,cach:1,call:[0,2],callabl:0,can:[0,1,2],cannot:2,capabl:5,cdiv:[0,2],chang:2,chapter:5,check:[2,5],checkout:5,chip:1,choic:5,click:[0,1,2],close:2,cmp:7,code:[0,1,2,3,6,9,10,12,19,20,22,25,27,28],code_gen:[15,17,21,23,24],col:1,column:[1,2],come:[1,2],compar:[1,2,5],compat:10,compil:[1,2,5],comput:5,concis:0,condit:27,config:2,configur:2,consid:1,consist:1,constitut:0,constraint:2,consum:2,contigu:[2,6],conveni:2,convert:0,correspond:[0,1,2],could:1,creat:[0,1,2],csv:0,cubla:2,cuda:[0,1,2],current:20,custom:[0,1,2,5],cutlass:2,data:[0,1,2,12,27,28],declara:0,decor:[0,2],deep:2,def:[0,1,2],defin:[1,2,12],denom:1,denomin:1,denot:0,depend:27,devic:[0,1,2],differ:[0,1,2,20],difficulti:2,dimens:[2,10],dimension:[2,10],disk:0,dnn:5,do_bench:[0,1,2],doe:[0,1],don:[0,1],done:2,dot:2,doubli:2,download:[0,1,2,3],dram:1,dsl:5,dtype:[0,1,2,28],each:[1,2],easi:2,easier:[0,1],easili:2,education:1,effici:2,either:[0,19,20,27],element:[0,1,2,25,27],element_s:1,elementwis:[1,12],empti:2,empty_lik:[0,1],end:6,enqueu:[0,1],entir:1,entri:0,environ:5,etc:2,evalu:[2,27],exampl:[0,1,2,3],execut:[0,4],exp:[1,2],expect:1,expert:2,exponenti:1,extend:2,extract:2,fairli:2,fals:[12,25,27],far:1,fast:1,faster:1,feel:2,file:[0,1,2,4],fill:28,first:[0,5,10],fit:1,float16:[2,10,28],float32:[0,1,2,10],focu:2,follow:[1,2,5],forget:0,free:2,from:[1,2,6,9,10,12,19,20,22,25,27,28],full:[0,1,2],fuse:[2,3,4],fusion:1,galleri:[0,1,2,3],gbp:[0,1],gener:[0,1,2,3,6,9,10,12,19,20,22,25,27,28],get:[0,1,4],given:[1,2,19,20,28],good:0,gpu:[0,1,2,5],greater:1,grid:[0,1,2,19,20],grid_m:2,grid_n:2,group:2,group_id:2,group_m:2,group_siz:2,guard:[0,1],guess:1,handl:[0,1,2],hard:2,hardwar:[2,5],has:0,hasn:0,have:[1,10,27],helper:[0,1],henc:2,here:[0,1,2],heurist:1,high:2,hit:2,how:[0,1,2,5],howev:2,ident:1,idx:[12,25],imper:5,implement:[0,1,2],implicitli:0,improv:2,incompat:2,increas:0,index:1,indic:[1,27],inf:1,initi:2,inner:[2,10],input:[0,1,2,9,10,14,16,22,26],instal:5,instanc:[0,1,2,19,20],instead:[1,12,27],instruct:5,intern:1,interv:6,introduct:5,ipynb:[0,1,2],irregular:1,is_contigu:2,iter:2,its:1,jit:[0,1,2,6,9,10,12,19,20,22,25,27,28],jitfunct:[15,17,21,23,24],jupyt:[0,1,2,3],kei:[0,1,2],kernel:5,keyword:0,label:[0,1,2],lambda:[0,1,2],larg:1,launch:[0,1,2,19,20],learn:[0,1,2,5],less:1,let:1,level:2,librari:2,like:0,limit:1,line:[0,1,2],list:2,load:[0,1,2,27],locat:[2,12,25],logarithm:0,longer:1,look:[1,5],loop:2,main:[0,2],maintain:1,major:2,make:[0,1],manual:1,manual_se:[0,1,2],mask:[0,1,2,12,25,27],matmul:2,matric:[1,2],matrix:[1,3,4,10],matter:2,max:[0,1],max_m:[0,1,2],maxim:5,maximum:[0,1],mean:[1,2],mechan:1,memori:[0,1,2,12,25,27],mention:2,meta:[0,1,2],metaparamet:[0,2],min:2,min_m:[0,1,2],minut:[0,1,2],mixtur:2,model:[0,20],modern:[2,5],more:[1,5],most:2,move:1,multi:2,multipl:[3,4],multipli:10,must:[1,2,10,27],naiv:[1,2],naive_softmax:1,name:[0,1,2],nativ:[0,2],natur:1,necessari:1,need:[1,2],nelement:1,nest:2,next:[1,2],next_power_of_2:1,none:[1,2,6,7,8,9,10,11,12,13,14,16,18,19,20,22,25,26,27,28],nonzero:27,normal:[1,2],note:[0,1,27],notebook:[0,1,2,3],notori:2,now:[0,2],num:1,num_warp:[1,2],number:[0,1,19],numer:1,object:[0,2,15,17,21,23,24],obtain:0,obvious:1,offset:0,often:2,onc:1,one:[1,3],onli:[1,2],open:6,oper:[0,1,2,3,27],operand:2,ops:0,option:[0,2,6,9,10,12,19,20,22,25,27,28],order:[2,3],other:[1,2,5,10,12],otherwis:27,our:[0,1,2],out:[0,1,2,5],outperform:1,output:[0,1,2],pad:1,parallel:[0,1,2,5,20],param:22,paramet:[0,2,6,9,10,12,19,20,25,27,28],part:2,partial:1,pass:0,path:0,peak:2,per:1,perf:2,perf_report:[0,1,2],perform:[0,1],pid:[0,2],pid_m:2,pid_n:2,platform:5,plot:[0,1,2],plot_nam:[0,1,2],point:0,pointer:[0,12,25],possibl:[0,1,2],power:1,practic:[0,1,2],predict:1,prefer:1,present:2,print:[0,1,2],print_data:2,problem:0,process:0,product:[5,10],program:[0,1,2,5,19,20],program_id:[0,1,2],promot:2,properli:1,proprietari:2,provid:[0,1,2,5],pseudo:2,ptr:[7,8],python:[0,1,2,3,5],pytorch:[0,1],rand:0,randn:[1,2],rang:[0,1,2],rate:2,raw:0,read:[1,2,3],reason:2,recommend:3,reduct:1,refer:0,regardless:27,regist:2,rel:0,relat:5,remateri:2,requir:1,result:[0,1],ret:1,ret_fals:2,ret_tru:2,reus:2,roughli:2,row:[1,2],run:[0,1,2,5,20],save:[0,1,2],save_path:0,scalar:[10,28],script:[0,1,2],second:[0,1,2,10],see:[0,1],seem:0,select:27,sens:0,set:0,shape:[0,1,2,9,22,27,28],share:1,should:0,show:2,show_plot:[0,1],sigmoid:2,significantli:1,silu:2,simpl:[0,1],simplest:3,sinc:[0,2],size:[0,1],smallest:1,softmax:[3,4],solut:[1,2],some:2,sourc:[0,1,2,3],speak:2,specif:2,specifi:[2,25],speed:1,sphinx:[0,1,2,3],spmd:[0,20],stabil:1,start:[3,6],started_tutori:4,still:0,stop:6,store:[0,1,2,27],straightforward:2,stride:[1,2],stride_a_0:2,stride_a_1:2,stride_ak:2,stride_am:2,stride_b_0:2,stride_b_1:2,stride_bk:2,stride_bn:2,stride_cm:2,stride_cn:2,stride_x_0:2,stride_x_1:2,stride_xm:1,stride_ym:1,subscript:0,substract:1,sum:[0,1],sure:1,swish:2,synchron:0,system:2,take:[2,5],techniqu:2,temporari:1,tensor:[0,1,2],test:0,tflop:2,than:1,thei:2,them:0,themselv:2,theoret:1,therefor:2,thi:[0,1,2],thing:0,think:1,though:1,through:3,throughput:5,tile:1,time:[0,1,2],too:1,torch:[0,1,2],total:[0,1,2,4],transfer:1,tri:9,trick:1,trigger:2,triton:[0,1,2,3],tune:[1,2],tupl:[0,9,28],tutori:[0,1,2,5],tutorials_jupyt:3,tutorials_python:3,twice:1,two:[0,1,2,10],type:[10,22,27,28],typic:2,understand:1,unfortun:2,unint:27,unlik:2,updat:2,use:[0,1,2,27],used:0,uses:20,using:[0,2],util:0,val:[7,8],valid:0,valu:[0,1,2,6,9,12,18,25,27,28],valuabl:1,variou:3,vector:[1,3,4],vendor:2,veri:1,verifi:1,via:2,wai:[1,2],want:[1,27],warp:1,wast:1,when:[1,27],where:[2,25],which:[0,1,2,20],whose:[0,1,2,12],width:2,wise:[1,2,25],wish:2,within:[6,9,10,12,19,20,22,25,27,28],won:1,work:[1,5],workload:2,would:1,wrapper:2,write:[0,1,2,3,5],wrote:1,x_log:0,x_max:1,x_name:[0,1,2],x_val:[0,1,2],y_line:[0,1,2],y_name:[0,1,2],y_ref:1,y_tri:1,y_val:[0,1,2],yield:27,ylabel:[0,1,2],you:[0,1,2,3,27],your:5,yourself:[1,2],zero:2,zip:3},titles:["Vector Addition","Fused Softmax","Matrix Multiplication","Tutorials","Computation times","Welcome to Triton\u2019s documentation!","triton.arange","triton.atomic_cas","triton.atomic_xchg","triton.broadcast_to","triton.dot","triton.exp","triton.load","triton.log","triton.max","triton.maximum","triton.min","triton.minimum","triton.multiple_of","triton.num_programs","triton.program_id","triton.ravel","triton.reshape","triton.sigmoid","triton.softmax","triton.store","triton.sum","triton.where","triton.zeros"],titleterms:{"final":2,Going:5,addit:0,arang:6,arithmet:2,atomic_ca:7,atomic_xchg:8,benchmark:[0,1,2],broadcast_to:9,cach:2,comput:[0,1,2,4],document:5,dot:10,exp:11,further:5,fuse:1,get:5,kernel:[0,1,2],languag:5,load:12,log:13,matrix:2,max:14,maximum:15,min:16,minimum:17,motiv:[1,2],multipl:2,multiple_of:18,num_program:19,optim:2,perform:2,pointer:2,program_id:20,ravel:21,refer:5,reshap:22,result:2,sigmoid:23,softmax:[1,24],squar:2,start:5,store:25,sum:26,test:[1,2],time:4,triton:[5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28],tutori:3,unit:[1,2],vector:0,welcom:5,where:27,zero:28}})
\ No newline at end of file