feat(decompress): optimize offset 13 loop unrolling

google-labs-jules[bot] · 404Setup · google-labs-jules[bot] · commit 0b9261806a62 · 2026-02-24T12:15:12.000Z
Unrolls the `decompress_offset_13` loop to 8 stores (104 bytes per iteration)
instead of 4 stores (52 bytes). This reduces loop overhead for long matches
and improves throughput by ~4.1%.

Benchmark (Decompress offset13/libdeflate-rs offset13):
Before: ~8.03 GiB/s
After:  ~8.36 GiB/s
Change: +4.1%

Co-authored-by: 404Setup &lt;153366651+404Setup@users.noreply.github.com&gt;
diff --git a/src/decompress/x86.rs b/src/decompress/x86.rs
@@ -963,6 +963,23 @@ decompress_offset_simple! {
         _mm_shuffle_epi8(v_raw, mask)
     },
     unrolled_loops: {
+        // Unroll loop 8x for offset 13 (8 * 13 = 104 bytes per iteration).
+        // This reduces loop overhead for long matches.
+        // Safety: The last write is at offset 91 (7 * 13).
+        // A 16-byte write at 91 requires 91 + 16 = 107 bytes.
+        // We check for 120 bytes to be safe and consistent with other offsets.
+        while copied + 120 <= length {
+            _mm_storeu_si128(out_next.add(copied) as *mut __m128i, v_pat);
+            _mm_storeu_si128(out_next.add(copied + 13) as *mut __m128i, v_pat);
+            _mm_storeu_si128(out_next.add(copied + 26) as *mut __m128i, v_pat);
+            _mm_storeu_si128(out_next.add(copied + 39) as *mut __m128i, v_pat);
+            _mm_storeu_si128(out_next.add(copied + 52) as *mut __m128i, v_pat);
+            _mm_storeu_si128(out_next.add(copied + 65) as *mut __m128i, v_pat);
+            _mm_storeu_si128(out_next.add(copied + 78) as *mut __m128i, v_pat);
+            _mm_storeu_si128(out_next.add(copied + 91) as *mut __m128i, v_pat);
+            copied += 104;
+        }
+
         while copied + 64 <= length {
             _mm_storeu_si128(out_next.add(copied) as *mut __m128i, v_pat);
             _mm_storeu_si128(out_next.add(copied + 13) as *mut __m128i, v_pat);