[GH-PAGES] Updated website

2022-07-23 00:49:35 +00:00
parent 10f1d77697
commit 5f9c7bc693
165 changed files with 273 additions and 273 deletions
--- a/master/getting-started/tutorials/01-vector-add.html
+++ b/master/getting-started/tutorials/01-vector-add.html
@@ -326,7 +326,7 @@ for different problem sizes.</p>
           size      Triton       Torch
 0        4096.0    9.600000    9.600000
 1        8192.0   19.200000   19.200000
-2       16384.0   38.400001   38.400001
+2       16384.0   31.999999   31.999999
 3       32768.0   76.800002   76.800002
 4       65536.0  127.999995  127.999995
 5      131072.0  219.428568  219.428568
@@ -342,7 +342,7 @@ for different problem sizes.</p>
 15  134217728.0  849.737435  850.656574
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 1 minutes  42.248 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 1 minutes  38.087 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-01-vector-add-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/62d97d49a32414049819dd8bb8378080/01-vector-add.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">01-vector-add.py</span></code></a></p>
--- a/master/getting-started/tutorials/02-fused-softmax.html
+++ b/master/getting-started/tutorials/02-fused-softmax.html
@@ -371,17 +371,17 @@ We will then compare its performance against (1) <code class="code docutils lite
 <p class="sphx-glr-script-out">Out:</p>
 <div class="sphx-glr-script-out highlight-none notranslate"><div class="highlight"><pre><span></span>softmax-performance:
          N      Triton  Torch (native)  Torch (jit)
-0     256.0  512.000001      512.000001   186.181817
-1     384.0  614.400016      585.142862   153.600004
+0     256.0  512.000001      512.000001   190.511628
+1     384.0  614.400016      558.545450   153.600004
 2     512.0  655.360017      585.142849   154.566038
-3     640.0  682.666684      640.000002   158.759699
+3     640.0  706.206879      640.000002   160.000000
 4     768.0  722.823517      664.216187   162.754967
 ..      ...         ...             ...          ...
-93  12160.0  812.359066      406.179533   198.834951
-94  12288.0  812.429770      415.222812   199.197579
-95  12416.0  810.840807      412.149375   198.854847
-96  12544.0  810.925276      412.546756   199.111113
-97  12672.0  811.007961      412.097543   199.167004
+93  12160.0  812.359066      406.179533   199.038365
+94  12288.0  812.429770      415.222812   199.298541
+95  12416.0  812.498981      412.149375   198.954424
+96  12544.0  810.925276      412.546756   199.209928
+97  12672.0  811.007961      412.097543   199.264875

 [98 rows x 4 columns]
 </pre></div>
@@ -394,7 +394,7 @@ We will then compare its performance against (1) <code class="code docutils lite
 Note however that the PyTorch <cite>softmax</cite> operation is more general and will works on tensors of any shape.</p></li>
 </ul>
 </div></blockquote>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 3 minutes  25.192 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 3 minutes  26.158 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-02-fused-softmax-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/d91442ac2982c4e0cc3ab0f43534afbc/02-fused-softmax.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">02-fused-softmax.py</span></code></a></p>
--- a/master/getting-started/tutorials/03-matrix-multiplication.html
+++ b/master/getting-started/tutorials/03-matrix-multiplication.html
@@ -430,8 +430,8 @@ more than 10% on some hardware architecture (e.g., 220 to 245 TFLOPS on A100).</
        <span class="n">b_ptrs</span> <span class="o">+=</span> <span class="n">BLOCK_SIZE_K</span> <span class="o">*</span> <span class="n">stride_bk</span>
    <span class="c1"># you can fuse arbitrary activation functions here</span>
    <span class="c1"># while the accumulator is still in FP32!</span>
-    <span class="k">if</span> <span class="n">ACTIVATION</span><span class="p">:</span>
-        <span class="n">accumulator</span> <span class="o">=</span> <span class="n">ACTIVATION</span><span class="p">(</span><span class="n">accumulator</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">ACTIVATION</span> <span class="o">==</span> <span class="s2">&quot;leaky_relu&quot;</span><span class="p">:</span>
+        <span class="n">accumulator</span> <span class="o">=</span> <span class="n">leaky_relu</span><span class="p">(</span><span class="n">accumulator</span><span class="p">)</span>
    <span class="n">c</span> <span class="o">=</span> <span class="n">accumulator</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">tl</span><span class="o">.</span><span class="n">float16</span><span class="p">)</span>

    <span class="c1"># -----------------------------------------------------------</span>
@@ -452,7 +452,7 @@ more than 10% on some hardware architecture (e.g., 220 to 245 TFLOPS on A100).</
 </div>
 <p>We can now create a convenience wrapper function that only takes two input tensors
 and (1) checks any shape constraint; (2) allocates the output; (3) launches the above kernel</p>
-<div class="highlight-default notranslate"><div class="highlight"><pre><span></span><span class="k">def</span> <span class="nf">matmul</span><span class="p">(</span><span class="n">a</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">activation</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<div class="highlight-default notranslate"><div class="highlight"><pre><span></span><span class="k">def</span> <span class="nf">matmul</span><span class="p">(</span><span class="n">a</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">activation</span><span class="o">=</span><span class="s2">&quot;&quot;</span><span class="p">):</span>
    <span class="c1"># checks constraints</span>
    <span class="k">assert</span> <span class="n">a</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="n">b</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="s2">&quot;incompatible dimensions&quot;</span>
    <span class="k">assert</span> <span class="n">a</span><span class="o">.</span><span class="n">is_contiguous</span><span class="p">(),</span> <span class="s2">&quot;matrix A must be contiguous&quot;</span>
@@ -554,7 +554,7 @@ torch_output=tensor([[  1.1045, -36.9688,  31.4688,  ..., -11.3906,  24.4531, -3
        <span class="p">)</span>
    <span class="k">if</span> <span class="n">provider</span> <span class="o">==</span> <span class="s1">&#39;triton + relu&#39;</span><span class="p">:</span>
        <span class="n">ms</span><span class="p">,</span> <span class="n">min_ms</span><span class="p">,</span> <span class="n">max_ms</span> <span class="o">=</span> <span class="n">triton</span><span class="o">.</span><span class="n">testing</span><span class="o">.</span><span class="n">do_bench</span><span class="p">(</span>
-            <span class="k">lambda</span><span class="p">:</span> <span class="n">matmul</span><span class="p">(</span><span class="n">a</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">activation</span><span class="o">=</span><span class="n">leaky_relu</span><span class="p">)</span>
+            <span class="k">lambda</span><span class="p">:</span> <span class="n">matmul</span><span class="p">(</span><span class="n">a</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">activation</span><span class="o">=</span><span class="s2">&quot;leaky_relu&quot;</span><span class="p">)</span>
        <span class="p">)</span>
    <span class="n">perf</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">ms</span><span class="p">:</span> <span class="mi">2</span> <span class="o">*</span> <span class="n">M</span> <span class="o">*</span> <span class="n">N</span> <span class="o">*</span> <span class="n">K</span> <span class="o">*</span> <span class="mf">1e-12</span> <span class="o">/</span> <span class="p">(</span><span class="n">ms</span> <span class="o">*</span> <span class="mf">1e-3</span><span class="p">)</span>
    <span class="k">return</span> <span class="n">perf</span><span class="p">(</span><span class="n">ms</span><span class="p">),</span> <span class="n">perf</span><span class="p">(</span><span class="n">max_ms</span><span class="p">),</span> <span class="n">perf</span><span class="p">(</span><span class="n">min_ms</span><span class="p">)</span>
@@ -567,42 +567,42 @@ torch_output=tensor([[  1.1045, -36.9688,  31.4688,  ..., -11.3906,  24.4531, -3
 <p class="sphx-glr-script-out">Out:</p>
 <div class="sphx-glr-script-out highlight-none notranslate"><div class="highlight"><pre><span></span>matmul-performance:
         M     cuBLAS  ...     Triton  Triton (+ LeakyReLU)
-0    256.0   2.730667  ...   2.978909              2.978909
-1    384.0   7.372800  ...   7.899428              7.899428
+0    256.0   2.978909  ...   2.978909              2.978909
+1    384.0   7.372800  ...   8.507077              8.507077
 2    512.0  14.563555  ...  15.420235             15.420235
 3    640.0  22.260869  ...  24.380953             24.380953
 4    768.0  32.768000  ...  34.028308             34.028308
 5    896.0  39.025776  ...  40.140799             39.025776
 6   1024.0  49.932191  ...  53.773130             52.428801
-7   1152.0  45.242181  ...  47.396572             47.396572
+7   1152.0  45.242181  ...  48.161033             47.396572
 8   1280.0  51.200001  ...  57.690139             57.690139
 9   1408.0  64.138541  ...  68.147202             67.305878
-10  1536.0  80.430545  ...  80.430545             79.526831
+10  1536.0  80.430545  ...  81.355034             79.526831
 11  1664.0  63.372618  ...  63.372618             62.492442
 12  1792.0  72.983276  ...  73.460287             59.467852
-13  1920.0  68.776119  ...  71.626943             71.257735
-14  2048.0  73.908442  ...  78.398206             77.314362
-15  2176.0  83.500614  ...  87.494120             85.998493
-16  2304.0  68.446623  ...  78.064941             77.307030
-17  2432.0  71.125224  ...  86.179335             85.653855
-18  2560.0  77.833728  ...  82.331658             81.108913
-19  2688.0  83.737433  ...  91.185232             89.888756
-20  2816.0  83.233216  ...  84.441840             84.197315
-21  2944.0  81.564701  ...  83.758038             82.373605
-22  3072.0  82.540970  ...  89.593522             88.335577
-23  3200.0  83.989503  ...  95.096582             89.012517
-24  3328.0  82.464255  ...  82.939284             84.596116
-25  3456.0  81.932484  ...  90.994998             91.200871
-26  3584.0  87.127323  ...  99.354022             92.600816
-27  3712.0  84.159518  ...  89.353616             83.247783
-28  3840.0  85.136259  ...  93.484358             86.738820
-29  3968.0  92.302520  ...  87.976885             90.926929
-30  4096.0  91.741443  ...  90.933416             91.304576
+13  1920.0  68.776119  ...  71.257735             70.892307
+14  2048.0  73.584279  ...  78.033565             76.959706
+15  2176.0  83.155572  ...  87.494120             85.998493
+16  2304.0  68.446623  ...  78.320893             77.558029
+17  2432.0  71.305746  ...  86.711310             75.320281
+18  2560.0  77.833728  ...  82.747477             81.715711
+19  2688.0  83.552988  ...  90.532356             89.676257
+20  2816.0  83.552120  ...  84.035084             83.392363
+21  2944.0  81.832567  ...  83.758038             81.967162
+22  3072.0  82.540970  ...  89.877939             89.170242
+23  3200.0  84.321474  ...  96.822991             95.380032
+24  3328.0  83.034941  ...  85.806075             84.596116
+25  3456.0  82.183044  ...  91.928814             87.632137
+26  3584.0  87.381330  ...  92.696281             96.891584
+27  3712.0  84.694652  ...  87.244203             88.092894
+28  3840.0  85.136259  ...  88.900318             90.279183
+29  3968.0  88.008611  ...  92.547541             84.268854
+30  4096.0  93.368854  ...  87.781379             86.592080

 [31 rows x 5 columns]
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 6 minutes  44.471 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 6 minutes  21.318 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-03-matrix-multiplication-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/d5fee5b55a64e47f1b5724ec39adf171/03-matrix-multiplication.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">03-matrix-multiplication.py</span></code></a></p>
--- a/master/getting-started/tutorials/04-low-memory-dropout.html
+++ b/master/getting-started/tutorials/04-low-memory-dropout.html
@@ -374,7 +374,7 @@ to explore the <cite>triton/language/random</cite> folder!</p>
 <dd><p>Nitish Srivastava and Geoffrey Hinton and Alex Krizhevsky and Ilya Sutskever and Ruslan Salakhutdinov, “Dropout: A Simple Way to Prevent Neural Networks from Overfitting”, JMLR 2014</p>
 </dd>
 </dl>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  0.275 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  0.279 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-04-low-memory-dropout-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/c9aed78977a4c05741d675a38dde3d7d/04-low-memory-dropout.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">04-low-memory-dropout.py</span></code></a></p>
--- a/master/getting-started/tutorials/05-layer-norm.html
+++ b/master/getting-started/tutorials/05-layer-norm.html
@@ -200,31 +200,31 @@ to download the full example code</p>
 1    1536.0  630.153868  323.368435  511.999982
 2    2048.0  668.734716  334.367358  520.126988
 3    2560.0  694.237267  362.477870  512.000013
-4    3072.0  712.347810  378.092307  501.551037
-5    3584.0  725.873439  384.859062  458.751978
-6    4096.0  728.177767  381.023256  458.293714
-7    4608.0  670.254540  396.387087  426.173427
-8    5120.0  688.403381  397.669909  426.666652
-9    5632.0  698.542675  395.228063  413.357796
-10   6144.0  697.191505  402.885254  411.313806
-11   6656.0  700.631610  400.360920  398.861429
-12   7168.0  690.891575  396.844306  388.772874
-13   7680.0  678.895043  392.587863  387.634072
+4    3072.0  712.347810  375.206126  496.484863
+5    3584.0  725.873439  384.859062  451.527536
+6    4096.0  728.177767  381.023256  455.111095
+7    4608.0  670.254540  394.267384  421.302872
+8    5120.0  688.403381  397.669909  424.455959
+9    5632.0  698.542675  395.228063  411.470331
+10   6144.0  697.191505  402.885254  409.600010
+11   6656.0  700.631610  398.861429  398.861429
+12   7168.0  690.891575  396.844306  387.459443
+13   7680.0  678.895043  393.846167  386.415087
 14   8192.0  639.375598  393.609605  372.363633
 15   8704.0  624.502255  389.005597  380.502740
 16   9216.0  604.327881  407.337026  383.002605
-17   9728.0  585.142883  409.599987  383.369452
-18  10240.0  564.965524  408.578556  382.803739
+17   9728.0  585.142883  409.599987  382.427505
+18  10240.0  564.965524  408.578556  381.911416
 19  10752.0  546.133312  411.559798  381.445676
-20  11264.0  533.207081  406.826188  373.134567
+20  11264.0  531.634232  406.826188  373.134567
 21  11776.0  520.486200  409.599991  377.587162
-22  12288.0  516.031509  413.911572  383.251457
+22  12288.0  514.680630  413.911572  383.251457
 23  12800.0  504.433489  410.420828  376.470582
 24  13312.0  494.180982  405.699062  376.310952
-25  13824.0  482.934503  411.888257  379.389355
-26  14336.0  471.967074  406.695045  374.185964
+25  13824.0  481.882350  411.122660  379.389355
+26  14336.0  470.997935  406.695045  374.185964
 27  14848.0  461.297068  408.192434  375.304904
-28  15360.0  454.269882  406.214870  378.092307
+28  15360.0  454.269882  406.214870  377.511515
 29  15872.0  447.887117  406.974373  376.225175
 </pre></div>
 </div>
@@ -543,7 +543,7 @@ to download the full example code</p>
 <span class="n">bench_layer_norm</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">save_path</span><span class="o">=</span><span class="s1">&#39;.&#39;</span><span class="p">,</span> <span class="n">print_data</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 5 minutes  28.983 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 5 minutes  33.112 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-05-layer-norm-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/935c0dd0fbeb4b2e69588471cbb2d4b2/05-layer-norm.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">05-layer-norm.py</span></code></a></p>
--- a/master/getting-started/tutorials/07-libdevice-function.html
+++ b/master/getting-started/tutorials/07-libdevice-function.html
@@ -276,7 +276,7 @@ tensor([0.4105, 0.5430, 0.0249,  ..., 0.0424, 0.5351, 0.8149], device=&#39;cuda:
 The maximum difference between torch and triton is 2.384185791015625e-07
 </pre></div>
 </div>
-<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  0.249 seconds)</p>
+<p class="sphx-glr-timing"><strong>Total running time of the script:</strong> ( 0 minutes  0.257 seconds)</p>
 <div class="sphx-glr-footer class sphx-glr-footer-example docutils container" id="sphx-glr-download-getting-started-tutorials-07-libdevice-function-py">
 <div class="sphx-glr-download sphx-glr-download-python docutils container">
 <p><a class="reference download internal" download="" href="../../_downloads/3ff29f967ace7985da24aab10352fc76/07-libdevice-function.py"><code class="xref download docutils literal notranslate"><span class="pre">Download</span> <span class="pre">Python</span> <span class="pre">source</span> <span class="pre">code:</span> <span class="pre">07-libdevice-function.py</span></code></a></p>
--- a/master/getting-started/tutorials/sg_execution_times.html
+++ b/master/getting-started/tutorials/sg_execution_times.html
@@ -174,7 +174,7 @@
            
  <div class="section" id="computation-times">
 <span id="sphx-glr-getting-started-tutorials-sg-execution-times"></span><h1>Computation times<a class="headerlink" href="#computation-times" title="Permalink to this headline">¶</a></h1>
-<p><strong>17:21.490</strong> total execution time for <strong>getting-started_tutorials</strong> files:</p>
+<p><strong>16:59.282</strong> total execution time for <strong>getting-started_tutorials</strong> files:</p>
 <table class="docutils align-default">
 <colgroup>
 <col style="width: 85%" />
@@ -183,27 +183,27 @@
 </colgroup>
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="03-matrix-multiplication.html#sphx-glr-getting-started-tutorials-03-matrix-multiplication-py"><span class="std std-ref">Matrix Multiplication</span></a> (<code class="docutils literal notranslate"><span class="pre">03-matrix-multiplication.py</span></code>)</p></td>
-<td><p>06:44.471</p></td>
+<td><p>06:21.318</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="05-layer-norm.html#sphx-glr-getting-started-tutorials-05-layer-norm-py"><span class="std std-ref">Layer Normalization</span></a> (<code class="docutils literal notranslate"><span class="pre">05-layer-norm.py</span></code>)</p></td>
-<td><p>05:28.983</p></td>
+<td><p>05:33.112</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="02-fused-softmax.html#sphx-glr-getting-started-tutorials-02-fused-softmax-py"><span class="std std-ref">Fused Softmax</span></a> (<code class="docutils literal notranslate"><span class="pre">02-fused-softmax.py</span></code>)</p></td>
-<td><p>03:25.192</p></td>
+<td><p>03:26.158</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="01-vector-add.html#sphx-glr-getting-started-tutorials-01-vector-add-py"><span class="std std-ref">Vector Addition</span></a> (<code class="docutils literal notranslate"><span class="pre">01-vector-add.py</span></code>)</p></td>
-<td><p>01:42.248</p></td>
+<td><p>01:38.087</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="04-low-memory-dropout.html#sphx-glr-getting-started-tutorials-04-low-memory-dropout-py"><span class="std std-ref">Low-Memory Dropout</span></a> (<code class="docutils literal notranslate"><span class="pre">04-low-memory-dropout.py</span></code>)</p></td>
-<td><p>00:00.275</p></td>
+<td><p>00:00.279</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="07-libdevice-function.html#sphx-glr-getting-started-tutorials-07-libdevice-function-py"><span class="std std-ref">Libdevice function</span></a> (<code class="docutils literal notranslate"><span class="pre">07-libdevice-function.py</span></code>)</p></td>
-<td><p>00:00.249</p></td>
+<td><p>00:00.257</p></td>
 <td><p>0.0 MB</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="06-fused-attention.html#sphx-glr-getting-started-tutorials-06-fused-attention-py"><span class="std std-ref">Fused Attention</span></a> (<code class="docutils literal notranslate"><span class="pre">06-fused-attention.py</span></code>)</p></td>