[GH-PAGES] Updated website

2022-09-06 00:50:44 +00:00
parent af0e35297e
commit c46759fc89
161 changed files with 238 additions and 238 deletions
--- a/master/.buildinfo
+++ b/master/.buildinfo
@@ -1,4 +1,4 @@
 # Sphinx build info version 1
 # This file hashes the configuration used when building these files. When it is not found, a full rebuild will be done.
-config: 9f90f53619be8e157415c1b1b1939b53
+config: 812898956dd0e9a6f8cc51a162e3dac8
 tags: 645f666f9bcd5a90fca523b33c5a78b7
--- a/master/.doctrees/environment.pickle
+++ b/master/.doctrees/environment.pickle
--- a/master/.doctrees/getting-started/installation.doctree
+++ b/master/.doctrees/getting-started/installation.doctree
--- a/master/.doctrees/getting-started/tutorials/01-vector-add.doctree
+++ b/master/.doctrees/getting-started/tutorials/01-vector-add.doctree
--- a/master/.doctrees/getting-started/tutorials/02-fused-softmax.doctree
+++ b/master/.doctrees/getting-started/tutorials/02-fused-softmax.doctree
--- a/master/.doctrees/getting-started/tutorials/03-matrix-multiplication.doctree
+++ b/master/.doctrees/getting-started/tutorials/03-matrix-multiplication.doctree
--- a/master/.doctrees/getting-started/tutorials/04-low-memory-dropout.doctree
+++ b/master/.doctrees/getting-started/tutorials/04-low-memory-dropout.doctree
--- a/master/.doctrees/getting-started/tutorials/05-layer-norm.doctree
+++ b/master/.doctrees/getting-started/tutorials/05-layer-norm.doctree
--- a/master/.doctrees/getting-started/tutorials/06-fused-attention.doctree
+++ b/master/.doctrees/getting-started/tutorials/06-fused-attention.doctree
--- a/master/.doctrees/getting-started/tutorials/07-libdevice-function.doctree
+++ b/master/.doctrees/getting-started/tutorials/07-libdevice-function.doctree
--- a/master/.doctrees/getting-started/tutorials/index.doctree
+++ b/master/.doctrees/getting-started/tutorials/index.doctree
--- a/master/.doctrees/getting-started/tutorials/sg_execution_times.doctree
+++ b/master/.doctrees/getting-started/tutorials/sg_execution_times.doctree
--- a/master/.doctrees/index.doctree
+++ b/master/.doctrees/index.doctree
--- a/master/.doctrees/programming-guide/chapter-1/introduction.doctree
+++ b/master/.doctrees/programming-guide/chapter-1/introduction.doctree
--- a/master/.doctrees/programming-guide/chapter-2/related-work.doctree
+++ b/master/.doctrees/programming-guide/chapter-2/related-work.doctree
--- a/master/.doctrees/python-api/generated/triton.Config.doctree
+++ b/master/.doctrees/python-api/generated/triton.Config.doctree
--- a/master/.doctrees/python-api/generated/triton.autotune.doctree
+++ b/master/.doctrees/python-api/generated/triton.autotune.doctree
--- a/master/.doctrees/python-api/generated/triton.heuristics.doctree
+++ b/master/.doctrees/python-api/generated/triton.heuristics.doctree
--- a/master/.doctrees/python-api/generated/triton.jit.doctree
+++ b/master/.doctrees/python-api/generated/triton.jit.doctree
--- a/master/.doctrees/python-api/generated/triton.language.arange.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.arange.doctree
--- a/master/.doctrees/python-api/generated/triton.language.atomic_add.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.atomic_add.doctree
--- a/master/.doctrees/python-api/generated/triton.language.atomic_and.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.atomic_and.doctree
--- a/master/.doctrees/python-api/generated/triton.language.atomic_cas.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.atomic_cas.doctree
--- a/master/.doctrees/python-api/generated/triton.language.atomic_max.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.atomic_max.doctree
--- a/master/.doctrees/python-api/generated/triton.language.atomic_min.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.atomic_min.doctree
--- a/master/.doctrees/python-api/generated/triton.language.atomic_or.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.atomic_or.doctree
--- a/master/.doctrees/python-api/generated/triton.language.atomic_xchg.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.atomic_xchg.doctree
--- a/master/.doctrees/python-api/generated/triton.language.atomic_xor.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.atomic_xor.doctree
--- a/master/.doctrees/python-api/generated/triton.language.broadcast_to.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.broadcast_to.doctree
--- a/master/.doctrees/python-api/generated/triton.language.cos.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.cos.doctree
--- a/master/.doctrees/python-api/generated/triton.language.dot.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.dot.doctree
--- a/master/.doctrees/python-api/generated/triton.language.exp.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.exp.doctree
--- a/master/.doctrees/python-api/generated/triton.language.load.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.load.doctree
--- a/master/.doctrees/python-api/generated/triton.language.log.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.log.doctree
--- a/master/.doctrees/python-api/generated/triton.language.max.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.max.doctree
--- a/master/.doctrees/python-api/generated/triton.language.maximum.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.maximum.doctree
--- a/master/.doctrees/python-api/generated/triton.language.min.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.min.doctree
--- a/master/.doctrees/python-api/generated/triton.language.minimum.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.minimum.doctree
--- a/master/.doctrees/python-api/generated/triton.language.multiple_of.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.multiple_of.doctree
--- a/master/.doctrees/python-api/generated/triton.language.num_programs.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.num_programs.doctree
--- a/master/.doctrees/python-api/generated/triton.language.program_id.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.program_id.doctree
--- a/master/.doctrees/python-api/generated/triton.language.rand.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.rand.doctree
--- a/master/.doctrees/python-api/generated/triton.language.randint.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.randint.doctree
--- a/master/.doctrees/python-api/generated/triton.language.randint4x.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.randint4x.doctree
--- a/master/.doctrees/python-api/generated/triton.language.randn.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.randn.doctree
--- a/master/.doctrees/python-api/generated/triton.language.ravel.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.ravel.doctree
--- a/master/.doctrees/python-api/generated/triton.language.reshape.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.reshape.doctree
--- a/master/.doctrees/python-api/generated/triton.language.sigmoid.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.sigmoid.doctree
--- a/master/.doctrees/python-api/generated/triton.language.sin.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.sin.doctree
--- a/master/.doctrees/python-api/generated/triton.language.softmax.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.softmax.doctree
--- a/master/.doctrees/python-api/generated/triton.language.sqrt.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.sqrt.doctree
--- a/master/.doctrees/python-api/generated/triton.language.store.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.store.doctree
--- a/master/.doctrees/python-api/generated/triton.language.sum.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.sum.doctree
--- a/master/.doctrees/python-api/generated/triton.language.where.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.where.doctree
--- a/master/.doctrees/python-api/generated/triton.language.zeros.doctree
+++ b/master/.doctrees/python-api/generated/triton.language.zeros.doctree
--- a/master/.doctrees/python-api/generated/triton.testing.Benchmark.doctree
+++ b/master/.doctrees/python-api/generated/triton.testing.Benchmark.doctree
--- a/master/.doctrees/python-api/generated/triton.testing.do_bench.doctree
+++ b/master/.doctrees/python-api/generated/triton.testing.do_bench.doctree
--- a/master/.doctrees/python-api/generated/triton.testing.perf_report.doctree
+++ b/master/.doctrees/python-api/generated/triton.testing.perf_report.doctree
--- a/master/.doctrees/python-api/triton.doctree
+++ b/master/.doctrees/python-api/triton.doctree
--- a/master/.doctrees/python-api/triton.language.doctree
+++ b/master/.doctrees/python-api/triton.language.doctree
--- a/master/.doctrees/python-api/triton.testing.doctree
+++ b/master/.doctrees/python-api/triton.testing.doctree
--- a/master/_downloads/662999063954282841dc90b8945f85ce/tutorials_jupyter.zip
+++ b/master/_downloads/662999063954282841dc90b8945f85ce/tutorials_jupyter.zip
--- a/master/_downloads/763344228ae6bc253ed1a6cf586aa30d/tutorials_python.zip
+++ b/master/_downloads/763344228ae6bc253ed1a6cf586aa30d/tutorials_python.zip
--- a/master/_images/sphx_glr_01-vector-add_001.png
+++ b/master/_images/sphx_glr_01-vector-add_001.png
--- a/master/_images/sphx_glr_01-vector-add_thumb.png
+++ b/master/_images/sphx_glr_01-vector-add_thumb.png
--- a/master/_images/sphx_glr_02-fused-softmax_001.png
+++ b/master/_images/sphx_glr_02-fused-softmax_001.png
--- a/master/_images/sphx_glr_02-fused-softmax_thumb.png
+++ b/master/_images/sphx_glr_02-fused-softmax_thumb.png
--- a/master/_images/sphx_glr_03-matrix-multiplication_001.png
+++ b/master/_images/sphx_glr_03-matrix-multiplication_001.png
--- a/master/_images/sphx_glr_03-matrix-multiplication_thumb.png
+++ b/master/_images/sphx_glr_03-matrix-multiplication_thumb.png
--- a/master/_images/sphx_glr_05-layer-norm_001.png
+++ b/master/_images/sphx_glr_05-layer-norm_001.png
--- a/master/_images/sphx_glr_05-layer-norm_thumb.png
+++ b/master/_images/sphx_glr_05-layer-norm_thumb.png
--- a/master/_sources/getting-started/tutorials/01-vector-add.rst.txt
+++ b/master/_sources/getting-started/tutorials/01-vector-add.rst.txt
@@ -255,7 +255,7 @@ We can now run the decorated function above. Pass `print_data=True` to see the p

 .. rst-class:: sphx-glr-timing

-   **Total running time of the script:** ( 1 minutes  43.794 seconds)
+   **Total running time of the script:** ( 1 minutes  44.974 seconds)


 .. _sphx_glr_download_getting-started_tutorials_01-vector-add.py:
--- a/master/_sources/getting-started/tutorials/02-fused-softmax.rst.txt
+++ b/master/_sources/getting-started/tutorials/02-fused-softmax.rst.txt
@@ -287,7 +287,7 @@ We will then compare its performance against (1) :code:`torch.softmax` and (2) t
    93  12160.0  812.359066      406.179533   198.733401
    94  12288.0  812.429770      415.661740   198.995960
    95  12416.0  812.498981      412.149375   198.655991
-    96  12544.0  812.566838      412.971190   198.864492
+    96  12544.0  810.925276      412.546756   198.864492
    97  12672.0  811.007961      412.097543   198.971549

    [98 rows x 4 columns]
@@ -306,7 +306,7 @@ In the above plot, we can see that:

 .. rst-class:: sphx-glr-timing

-   **Total running time of the script:** ( 3 minutes  29.999 seconds)
+   **Total running time of the script:** ( 3 minutes  30.087 seconds)


 .. _sphx_glr_download_getting-started_tutorials_02-fused-softmax.py:
--- a/master/_sources/getting-started/tutorials/03-matrix-multiplication.rst.txt
+++ b/master/_sources/getting-started/tutorials/03-matrix-multiplication.rst.txt
@@ -459,37 +459,37 @@ We can now compare the performance of our kernel against that of cuBLAS. Here we

    matmul-performance:
             M     cuBLAS  ...     Triton  Triton (+ LeakyReLU)
-    0    256.0   2.730667  ...   2.978909              3.276800
-    1    384.0   7.372800  ...   8.507077              8.507077
-    2    512.0  14.563555  ...  16.384000             16.384000
+    0    256.0   2.978909  ...   2.978909              2.978909
+    1    384.0   7.372800  ...   8.507077              7.899428
+    2    512.0  14.563555  ...  16.384000             15.420235
    3    640.0  22.260869  ...  24.380953             24.380953
    4    768.0  32.768000  ...  35.389441             34.028308
    5    896.0  39.025776  ...  40.140799             39.025776
    6   1024.0  49.932191  ...  53.773130             52.428801
-    7   1152.0  45.242181  ...  47.396572             47.396572
+    7   1152.0  45.242181  ...  48.161033             47.396572
    8   1280.0  51.200001  ...  57.690139             57.690139
-    9   1408.0  64.138541  ...  68.147202             67.305878
+    9   1408.0  64.138541  ...  69.009825             68.147202
    10  1536.0  80.430545  ...  81.355034             79.526831
-    11  1664.0  62.929456  ...  63.372618             62.492442
-    12  1792.0  72.512412  ...  73.460287             59.467852
-    13  1920.0  69.120002  ...  71.257735             71.257735
-    14  2048.0  73.584279  ...  78.398206             77.314362
-    15  2176.0  83.500614  ...  87.494120             85.998493
-    16  2304.0  68.251065  ...  78.064941             77.307030
-    17  2432.0  71.305746  ...  86.711310             83.614477
-    18  2560.0  78.019048  ...  82.747477             81.715711
-    19  2688.0  83.737433  ...  90.316801             89.254248
-    20  2816.0  79.733474  ...  84.197315             83.074685
-    21  2944.0  82.034625  ...  83.060049             82.237674
-    22  3072.0  82.661468  ...  85.147525             88.750943
-    23  3200.0  84.768213  ...  94.814812             95.808380
-    24  3328.0  83.034941  ...  85.096096             81.346098
-    25  3456.0  81.026701  ...  89.579522             83.545665
-    26  3584.0  85.633710  ...  93.661869             94.947616
-    27  3712.0  85.455380  ...  87.246590             87.552452
-    28  3840.0  81.738356  ...  89.766237             89.693434
-    29  3968.0  88.938731  ...  92.163097             85.093402
-    30  4096.0  93.401342  ...  86.009438             85.543487
+    11  1664.0  63.372618  ...  63.822072             62.492442
+    12  1792.0  72.983276  ...  73.943582             59.625589
+    13  1920.0  69.467336  ...  71.626943             71.257735
+    14  2048.0  73.908442  ...  78.398206             77.314362
+    15  2176.0  83.155572  ...  87.304326             85.998493
+    16  2304.0  68.446623  ...  78.064941             77.307030
+    17  2432.0  71.305746  ...  86.179335             85.653855
+    18  2560.0  77.833728  ...  82.956960             81.715711
+    19  2688.0  83.369354  ...  90.102270             89.464755
+    20  2816.0  80.099554  ...  84.687779             83.873477
+    21  2944.0  82.237674  ...  83.337844             82.102191
+    22  3072.0  81.589488  ...  89.877939             88.335577
+    23  3200.0  84.210524  ...  95.808380             93.841640
+    24  3328.0  84.003845  ...  85.398926             84.895397
+    25  3456.0  81.766291  ...  92.033756             91.200871
+    26  3584.0  86.125852  ...  92.220917             94.647779
+    27  3712.0  85.309435  ...  89.035062             82.287760
+    28  3840.0  84.485870  ...  92.817458             88.686451
+    29  3968.0  92.372393  ...  85.033178             90.724116
+    30  4096.0  86.202781  ...  92.820009             88.563330

    [31 rows x 5 columns]

@@ -499,7 +499,7 @@ We can now compare the performance of our kernel against that of cuBLAS. Here we

 .. rst-class:: sphx-glr-timing

-   **Total running time of the script:** ( 6 minutes  31.264 seconds)
+   **Total running time of the script:** ( 6 minutes  33.939 seconds)


 .. _sphx_glr_download_getting-started_tutorials_03-matrix-multiplication.py:
--- a/master/_sources/getting-started/tutorials/05-layer-norm.rst.txt
+++ b/master/_sources/getting-started/tutorials/05-layer-norm.rst.txt
@@ -40,16 +40,16 @@ Layer Normalization
              N      Triton       Torch        Apex
    0    1024.0  585.142849  277.694907  468.114273
    1    1536.0  630.153868  323.368435  511.999982
-    2    2048.0  668.734716  334.367358  520.126988
-    3    2560.0  694.237267  365.714281  518.481028
+    2    2048.0  682.666643  334.367358  520.126988
+    3    2560.0  694.237267  365.714281  512.000013
    4    3072.0  712.347810  378.092307  496.484863
-    5    3584.0  725.873439  384.859062  455.111115
+    5    3584.0  725.873439  384.859062  448.000001
    6    4096.0  728.177767  381.023256  455.111095
-    7    4608.0  670.254540  394.267384  421.302872
-    8    5120.0  688.403381  397.669909  424.455959
-    9    5632.0  704.000002  395.228063  413.357796
+    7    4608.0  670.254540  394.267384  426.173427
+    8    5120.0  688.403381  397.669909  422.268057
+    9    5632.0  704.000002  395.228063  415.262685
    10   6144.0  697.191505  402.885254  409.600010
-    11   6656.0  700.631610  400.360920  400.360920
+    11   6656.0  705.271522  400.360920  400.360920
    12   7168.0  690.891575  396.844306  387.459443
    13   7680.0  678.895043  393.846167  386.415087
    14   8192.0  636.271854  393.609605  371.308771
@@ -60,14 +60,14 @@ Layer Normalization
    19  10752.0  547.872604  411.559798  381.445676
    20  11264.0  533.207081  406.826188  373.134567
    21  11776.0  520.486200  409.599991  377.587162
-    22  12288.0  514.680630  413.911572  383.251457
+    22  12288.0  513.336807  413.911572  383.251457
    23  12800.0  504.433489  410.420828  376.470582
    24  13312.0  494.180982  405.699062  376.976995
    25  13824.0  482.934503  411.888257  379.389355
    26  14336.0  471.967074  406.695045  374.185964
    27  14848.0  461.297068  408.192434  375.304904
    28  15360.0  454.269882  406.214870  378.092307
-    29  15872.0  447.098578  406.974373  376.225175
+    29  15872.0  447.887117  406.974373  376.225175



@@ -393,7 +393,7 @@ Layer Normalization

 .. rst-class:: sphx-glr-timing

-   **Total running time of the script:** ( 5 minutes  33.449 seconds)
+   **Total running time of the script:** ( 5 minutes  35.450 seconds)


 .. _sphx_glr_download_getting-started_tutorials_05-layer-norm.py:
--- a/master/_sources/getting-started/tutorials/06-fused-attention.rst.txt
+++ b/master/_sources/getting-started/tutorials/06-fused-attention.rst.txt
@@ -390,7 +390,7 @@ This is a Triton implementation of the Flash Attention algorithm

 .. rst-class:: sphx-glr-timing

-   **Total running time of the script:** ( 0 minutes  0.073 seconds)
+   **Total running time of the script:** ( 0 minutes  0.075 seconds)


 .. _sphx_glr_download_getting-started_tutorials_06-fused-attention.py:
--- a/master/_sources/getting-started/tutorials/sg_execution_times.rst.txt
+++ b/master/_sources/getting-started/tutorials/sg_execution_times.rst.txt
@@ -5,18 +5,18 @@

 Computation times
 =================
-**17:18.602** total execution time for **getting-started_tutorials** files:
+**17:24.547** total execution time for **getting-started_tutorials** files:

 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_03-matrix-multiplication.py` (``03-matrix-multiplication.py``) | 06:31.264 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_03-matrix-multiplication.py` (``03-matrix-multiplication.py``) | 06:33.939 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_05-layer-norm.py` (``05-layer-norm.py``)                       | 05:33.449 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_05-layer-norm.py` (``05-layer-norm.py``)                       | 05:35.450 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_02-fused-softmax.py` (``02-fused-softmax.py``)                 | 03:29.999 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_02-fused-softmax.py` (``02-fused-softmax.py``)                 | 03:30.087 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_01-vector-add.py` (``01-vector-add.py``)                       | 01:43.794 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_01-vector-add.py` (``01-vector-add.py``)                       | 01:44.974 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
-| :ref:`sphx_glr_getting-started_tutorials_06-fused-attention.py` (``06-fused-attention.py``)             | 00:00.073 | 0.0 MB |
+| :ref:`sphx_glr_getting-started_tutorials_06-fused-attention.py` (``06-fused-attention.py``)             | 00:00.075 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
 | :ref:`sphx_glr_getting-started_tutorials_04-low-memory-dropout.py` (``04-low-memory-dropout.py``)       | 00:00.012 | 0.0 MB |
 +---------------------------------------------------------------------------------------------------------+-----------+--------+
--- a/master/getting-started/tutorials/01-vector-add.html
+++ b/master/getting-started/tutorials/01-vector-add.html
@@ -342,7 +342,7 @@ for different problem sizes.</p>
 15  134217728.0  849.737435  850.656574
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 1 minutes  43.794 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 1 minutes  44.974 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-01-vector-add-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/62d97d49a32414049819dd8bb8378080/01-vector-add.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">01-vector-add.py</span></code></a></p>
--- a/master/getting-started/tutorials/02-fused-softmax.html
+++ b/master/getting-started/tutorials/02-fused-softmax.html
@@ -380,7 +380,7 @@ We will then compare its performance against (1) <code class="code docutils lite
 93  12160.0  812.359066      406.179533   198.733401
 94  12288.0  812.429770      415.661740   198.995960
 95  12416.0  812.498981      412.149375   198.655991
-96  12544.0  812.566838      412.971190   198.864492
+96  12544.0  810.925276      412.546756   198.864492
 97  12672.0  811.007961      412.097543   198.971549

 [98 rows x 4 columns]
@@ -394,7 +394,7 @@ We will then compare its performance against (1) <code class="code docutils lite
 Note however that the PyTorch <cite>softmax</cite> operation is more general and will works on tensors of any shape.</p></li>
 </ul>
 </div></blockquote>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 3 minutes  29.999 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 3 minutes  30.087 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-02-fused-softmax-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/d91442ac2982c4e0cc3ab0f43534afbc/02-fused-softmax.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">02-fused-softmax.py</span></code></a></p>
--- a/master/getting-started/tutorials/03-matrix-multiplication.html
+++ b/master/getting-started/tutorials/03-matrix-multiplication.html
@@ -567,42 +567,42 @@ torch_output=tensor([[  1.1045, -36.9688,  31.4688,  ..., -11.3906,  24.4531, -3
 <p class="sphx-glr-script-out">Out:</p>
 <div class="sphx-glr-script-out highlight-none notranslate"><div class="highlight"><pre><span></span>matmul-performance:
         M     cuBLAS  ...     Triton  Triton (+ LeakyReLU)
-0    256.0   2.730667  ...   2.978909              3.276800
-1    384.0   7.372800  ...   8.507077              8.507077
-2    512.0  14.563555  ...  16.384000             16.384000
+0    256.0   2.978909  ...   2.978909              2.978909
+1    384.0   7.372800  ...   8.507077              7.899428
+2    512.0  14.563555  ...  16.384000             15.420235
 3    640.0  22.260869  ...  24.380953             24.380953
 4    768.0  32.768000  ...  35.389441             34.028308
 5    896.0  39.025776  ...  40.140799             39.025776
 6   1024.0  49.932191  ...  53.773130             52.428801
-7   1152.0  45.242181  ...  47.396572             47.396572
+7   1152.0  45.242181  ...  48.161033             47.396572
 8   1280.0  51.200001  ...  57.690139             57.690139
-9   1408.0  64.138541  ...  68.147202             67.305878
+9   1408.0  64.138541  ...  69.009825             68.147202
 10  1536.0  80.430545  ...  81.355034             79.526831
-11  1664.0  62.929456  ...  63.372618             62.492442
-12  1792.0  72.512412  ...  73.460287             59.467852
-13  1920.0  69.120002  ...  71.257735             71.257735
-14  2048.0  73.584279  ...  78.398206             77.314362
-15  2176.0  83.500614  ...  87.494120             85.998493
-16  2304.0  68.251065  ...  78.064941             77.307030
-17  2432.0  71.305746  ...  86.711310             83.614477
-18  2560.0  78.019048  ...  82.747477             81.715711
-19  2688.0  83.737433  ...  90.316801             89.254248
-20  2816.0  79.733474  ...  84.197315             83.074685
-21  2944.0  82.034625  ...  83.060049             82.237674
-22  3072.0  82.661468  ...  85.147525             88.750943
-23  3200.0  84.768213  ...  94.814812             95.808380
-24  3328.0  83.034941  ...  85.096096             81.346098
-25  3456.0  81.026701  ...  89.579522             83.545665
-26  3584.0  85.633710  ...  93.661869             94.947616
-27  3712.0  85.455380  ...  87.246590             87.552452
-28  3840.0  81.738356  ...  89.766237             89.693434
-29  3968.0  88.938731  ...  92.163097             85.093402
-30  4096.0  93.401342  ...  86.009438             85.543487
+11  1664.0  63.372618  ...  63.822072             62.492442
+12  1792.0  72.983276  ...  73.943582             59.625589
+13  1920.0  69.467336  ...  71.626943             71.257735
+14  2048.0  73.908442  ...  78.398206             77.314362
+15  2176.0  83.155572  ...  87.304326             85.998493
+16  2304.0  68.446623  ...  78.064941             77.307030
+17  2432.0  71.305746  ...  86.179335             85.653855
+18  2560.0  77.833728  ...  82.956960             81.715711
+19  2688.0  83.369354  ...  90.102270             89.464755
+20  2816.0  80.099554  ...  84.687779             83.873477
+21  2944.0  82.237674  ...  83.337844             82.102191
+22  3072.0  81.589488  ...  89.877939             88.335577
+23  3200.0  84.210524  ...  95.808380             93.841640
+24  3328.0  84.003845  ...  85.398926             84.895397
+25  3456.0  81.766291  ...  92.033756             91.200871
+26  3584.0  86.125852  ...  92.220917             94.647779
+27  3712.0  85.309435  ...  89.035062             82.287760
+28  3840.0  84.485870  ...  92.817458             88.686451
+29  3968.0  92.372393  ...  85.033178             90.724116
+30  4096.0  86.202781  ...  92.820009             88.563330

 [31 rows x 5 columns]
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 6 minutes  31.264 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 6 minutes  33.939 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-03-matrix-multiplication-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/d5fee5b55a64e47f1b5724ec39adf171/03-matrix-multiplication.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">03-matrix-multiplication.py</span></code></a></p>
--- a/master/getting-started/tutorials/05-layer-norm.html
+++ b/master/getting-started/tutorials/05-layer-norm.html
@@ -198,16 +198,16 @@ to download the full example code</p>
          N      Triton       Torch        Apex
 0    1024.0  585.142849  277.694907  468.114273
 1    1536.0  630.153868  323.368435  511.999982
-2    2048.0  668.734716  334.367358  520.126988
-3    2560.0  694.237267  365.714281  518.481028
+2    2048.0  682.666643  334.367358  520.126988
+3    2560.0  694.237267  365.714281  512.000013
 4    3072.0  712.347810  378.092307  496.484863
-5    3584.0  725.873439  384.859062  455.111115
+5    3584.0  725.873439  384.859062  448.000001
 6    4096.0  728.177767  381.023256  455.111095
-7    4608.0  670.254540  394.267384  421.302872
-8    5120.0  688.403381  397.669909  424.455959
-9    5632.0  704.000002  395.228063  413.357796
+7    4608.0  670.254540  394.267384  426.173427
+8    5120.0  688.403381  397.669909  422.268057
+9    5632.0  704.000002  395.228063  415.262685
 10   6144.0  697.191505  402.885254  409.600010
-11   6656.0  700.631610  400.360920  400.360920
+11   6656.0  705.271522  400.360920  400.360920
 12   7168.0  690.891575  396.844306  387.459443
 13   7680.0  678.895043  393.846167  386.415087
 14   8192.0  636.271854  393.609605  371.308771
@@ -218,14 +218,14 @@ to download the full example code</p>
 19  10752.0  547.872604  411.559798  381.445676
 20  11264.0  533.207081  406.826188  373.134567
 21  11776.0  520.486200  409.599991  377.587162
-22  12288.0  514.680630  413.911572  383.251457
+22  12288.0  513.336807  413.911572  383.251457
 23  12800.0  504.433489  410.420828  376.470582
 24  13312.0  494.180982  405.699062  376.976995
 25  13824.0  482.934503  411.888257  379.389355
 26  14336.0  471.967074  406.695045  374.185964
 27  14848.0  461.297068  408.192434  375.304904
 28  15360.0  454.269882  406.214870  378.092307
-29  15872.0  447.098578  406.974373  376.225175
+29  15872.0  447.887117  406.974373  376.225175
 </pre></div>
 </div>
 <div class="line-block">
@@ -543,7 +543,7 @@ to download the full example code</p>
 <span class="n">bench_layer_norm</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">save_path</span><span class="o">=</span><span class="s1">&#39;.&#39;</span><span class="p">,</span> <span class="n">print_data</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 5 minutes  33.449 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 5 minutes  35.450 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-05-layer-norm-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/935c0dd0fbeb4b2e69588471cbb2d4b2/05-layer-norm.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">05-layer-norm.py</span></code></a></p>
--- a/master/getting-started/tutorials/06-fused-attention.html
+++ b/master/getting-started/tutorials/06-fused-attention.html
@@ -548,7 +548,7 @@ to download the full example code</p>
 <span class="c1"># bench_flash_attention.run(save_path=&#39;.&#39;, print_data=True)</span>
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  0.073 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  0.075 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-06-fused-attention-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/54a35f6ec55f9746935b9566fb6bb1df/06-fused-attention.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">06-fused-attention.py</span></code></a></p>
--- a/master/getting-started/tutorials/sg_execution_times.html
+++ b/master/getting-started/tutorials/sg_execution_times.html
@@ -174,7 +174,7 @@
            
  <div class="section" id="computation-times">
 <span id="sphx-glr-getting-started-tutorials-sg-execution-times"></span><h1>Computation times<a class="headerlink" href="#computation-times" title="Permalink to this headline">¶</a></h1>
-<p><strong>17:18.602</strong> total execution time for <strong>getting-started_tutorials</strong> files:</p>
+<p><strong>17:24.547</strong> total execution time for <strong>getting-started_tutorials</strong> files:</p>
 <table class="docutils align-default">
 <colgroup>
 <col style="width: 85%" />
@@ -183,23 +183,23 @@
 </colgroup>
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="03-matrix-multiplication.html#sphx-glr-getting-started-tutorials-03-matrix-multiplication-py"><span class="std std-ref">Matrix Multiplication</span></a> (<code class="docutils literal notranslate"><span class="pre">03-matrix-multiplication.py</span></code>)</p></td>
-<td><p>06:31.264</p></td>
+<td><p>06:33.939</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="05-layer-norm.html#sphx-glr-getting-started-tutorials-05-layer-norm-py"><span class="std std-ref">Layer Normalization</span></a> (<code class="docutils literal notranslate"><span class="pre">05-layer-norm.py</span></code>)</p></td>
-<td><p>05:33.449</p></td>
+<td><p>05:35.450</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="02-fused-softmax.html#sphx-glr-getting-started-tutorials-02-fused-softmax-py"><span class="std std-ref">Fused Softmax</span></a> (<code class="docutils literal notranslate"><span class="pre">02-fused-softmax.py</span></code>)</p></td>
-<td><p>03:29.999</p></td>
+<td><p>03:30.087</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="01-vector-add.html#sphx-glr-getting-started-tutorials-01-vector-add-py"><span class="std std-ref">Vector Addition</span></a> (<code class="docutils literal notranslate"><span class="pre">01-vector-add.py</span></code>)</p></td>
-<td><p>01:43.794</p></td>
+<td><p>01:44.974</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="06-fused-attention.html#sphx-glr-getting-started-tutorials-06-fused-attention-py"><span class="std std-ref">Fused Attention</span></a> (<code class="docutils literal notranslate"><span class="pre">06-fused-attention.py</span></code>)</p></td>
-<td><p>00:00.073</p></td>
+<td><p>00:00.075</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="04-low-memory-dropout.html#sphx-glr-getting-started-tutorials-04-low-memory-dropout-py"><span class="std std-ref">Low-Memory Dropout</span></a> (<code class="docutils literal notranslate"><span class="pre">04-low-memory-dropout.py</span></code>)</p></td>
--- a/master/searchindex.js
+++ b/master/searchindex.js
--- a/v1.1.2/.buildinfo
+++ b/v1.1.2/.buildinfo
@@ -1,4 +1,4 @@
 # Sphinx build info version 1
 # This file hashes the configuration used when building these files. When it is not found, a full rebuild will be done.
-config: 2f9d05c7762b7aa6d76d2c249b8e532f
+config: 51c45bbdcfcce5e95a01f306866c15d3
 tags: 645f666f9bcd5a90fca523b33c5a78b7
--- a/v1.1.2/.doctrees/environment.pickle
+++ b/v1.1.2/.doctrees/environment.pickle
--- a/v1.1.2/.doctrees/getting-started/installation.doctree
+++ b/v1.1.2/.doctrees/getting-started/installation.doctree
--- a/v1.1.2/.doctrees/getting-started/tutorials/01-vector-add.doctree
+++ b/v1.1.2/.doctrees/getting-started/tutorials/01-vector-add.doctree
--- a/v1.1.2/.doctrees/getting-started/tutorials/02-fused-softmax.doctree
+++ b/v1.1.2/.doctrees/getting-started/tutorials/02-fused-softmax.doctree
--- a/v1.1.2/.doctrees/getting-started/tutorials/03-matrix-multiplication.doctree
+++ b/v1.1.2/.doctrees/getting-started/tutorials/03-matrix-multiplication.doctree
--- a/v1.1.2/.doctrees/getting-started/tutorials/04-low-memory-dropout.doctree
+++ b/v1.1.2/.doctrees/getting-started/tutorials/04-low-memory-dropout.doctree
--- a/v1.1.2/.doctrees/getting-started/tutorials/05-layer-norm.doctree
+++ b/v1.1.2/.doctrees/getting-started/tutorials/05-layer-norm.doctree
--- a/v1.1.2/.doctrees/getting-started/tutorials/index.doctree
+++ b/v1.1.2/.doctrees/getting-started/tutorials/index.doctree
--- a/v1.1.2/.doctrees/getting-started/tutorials/sg_execution_times.doctree
+++ b/v1.1.2/.doctrees/getting-started/tutorials/sg_execution_times.doctree
--- a/v1.1.2/.doctrees/index.doctree
+++ b/v1.1.2/.doctrees/index.doctree
--- a/v1.1.2/.doctrees/programming-guide/chapter-1/introduction.doctree
+++ b/v1.1.2/.doctrees/programming-guide/chapter-1/introduction.doctree
--- a/v1.1.2/.doctrees/programming-guide/chapter-2/related-work.doctree
+++ b/v1.1.2/.doctrees/programming-guide/chapter-2/related-work.doctree
--- a/v1.1.2/.doctrees/python-api/generated/triton.Config.doctree
+++ b/v1.1.2/.doctrees/python-api/generated/triton.Config.doctree
--- a/v1.1.2/.doctrees/python-api/generated/triton.autotune.doctree
+++ b/v1.1.2/.doctrees/python-api/generated/triton.autotune.doctree
--- a/v1.1.2/.doctrees/python-api/generated/triton.heuristics.doctree
+++ b/v1.1.2/.doctrees/python-api/generated/triton.heuristics.doctree
--- a/Show More
+++ b/Show More