From 41115a151d91377f1417cf5ae7be35245005fac9 Mon Sep 17 00:00:00 2001
From: "google-labs-jules[bot]"
 <161369871+google-labs-jules[bot]@users.noreply.github.com>
Date: Thu, 19 Feb 2026 02:16:06 +0000
Subject: [PATCH] Optimize decompression for offset 6 using AVX2 pshufb

This commit implements a specialized SIMD optimization for `offset == 6` in `decompress_bmi2`.
By using `_mm_shuffle_epi8` with precomputed cyclic masks (`OFFSET6_MASKS`), we can replicate the 6-byte repeating pattern into 16-byte vectors and process data in 48-byte chunks (LCM of 6 and 16).

This avoids the slow scalar fallback loop for offsets < 8.

Benchmark results (bench_decompress_offset6_micro):
- Baseline: ~2.06 GiB/s
- Optimized: ~10.75 GiB/s
- Improvement: +423%

Also added `bench_decompress_offset6_micro` to `benches/bench_main.rs` to verify and track this optimization.

Co-authored-by: 404Setup <153366651+404Setup@users.noreply.github.com>
---
 benches/bench_main.rs | 33 +++++++++++++++++++++++
 src/decompress/x86.rs | 63 ++++++++++++++++++++++++++++++++++++++++++-
 2 files changed, 95 insertions(+), 1 deletion(-)

diff --git a/benches/bench_main.rs b/benches/bench_main.rs
index 3ba2583..07b2452 100644
--- a/benches/bench_main.rs
+++ b/benches/bench_main.rs
@@ -1443,6 +1443,7 @@ criterion_group!(
     bench_decompress_offset3_small,
     bench_decompress_offset9_small,
     bench_decompress_offset5,
+    bench_decompress_offset6_micro,
     bench_decompress_offset1,
     bench_decompress_offset2,
     bench_decompress_offset4,
@@ -1680,3 +1681,35 @@ fn bench_crc32_slice8_tail(c: &mut Criterion) {
 
     group.finish();
 }
+
+fn bench_decompress_offset6_micro(c: &mut Criterion) {
+    let size = 1024 * 1024; // 1MB
+    let pattern = b"123456"; // 6 bytes
+    let mut original_data = Vec::with_capacity(size);
+    while original_data.len() < size {
+        original_data.extend_from_slice(pattern);
+    }
+    original_data.truncate(size);
+
+    let mut compressor = Compressor::new(6).unwrap();
+    let mut compressed_data = vec![0u8; size + size / 2 + 1024];
+    let compressed_size = compressor
+        .compress_deflate_into(&original_data, &mut compressed_data)
+        .unwrap();
+
+    let mut out_buf = vec![0u8; size];
+
+    let mut group = c.benchmark_group("Decompress offset6 Micro");
+    group.throughput(Throughput::Bytes(size as u64));
+
+    group.bench_with_input("libdeflate-rs offset6 micro", &size, |b, &_size| {
+        let mut decompressor = Decompressor::new();
+        b.iter(|| {
+            decompressor
+                .decompress_deflate_into(&compressed_data[..compressed_size], &mut out_buf)
+                .unwrap_or(0)
+        });
+    });
+
+    group.finish();
+}
diff --git a/src/decompress/x86.rs b/src/decompress/x86.rs
index cff2d49..e2650b0 100644
--- a/src/decompress/x86.rs
+++ b/src/decompress/x86.rs
@@ -55,6 +55,12 @@ static OFFSET3_MASKS: [u8; 48] = [
     2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2,
 ];
 
+// LCM(6, 16) = 48. 3 vectors.
+static OFFSET6_MASKS: [u8; 48] = [
+    0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 5, 0, 1,
+    2, 3, 4, 5, 0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 5,
+];
+
 // LCM(10, 16) = 80. 5 vectors.
 static OFFSET10_MASKS: [u8; 80] = [
     0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1,
@@ -989,12 +995,67 @@ pub unsafe fn decompress_bmi2(
                                             }
                                         }
 
+                                        while copied < length {
+                                            *dest_ptr.add(copied) = *src_ptr.add(copied);
+                                            copied += 1;
+                                        }
+                                    } else if offset == 6 {
+                                        let dest_ptr = out_next;
+                                        let src_ptr = src;
+                                        let mut copied = 0;
+
+                                        if length >= 16 {
+                                            let v_src = _mm_loadu_si128(src_ptr as *const __m128i);
+                                            let masks_ptr = OFFSET6_MASKS.as_ptr() as *const __m128i;
+                                            let v_base =
+                                                _mm_shuffle_epi8(v_src, _mm_loadu_si128(masks_ptr));
+
+                                            while copied + 48 <= length {
+                                                _mm_storeu_si128(
+                                                    dest_ptr.add(copied) as *mut __m128i,
+                                                    v_base,
+                                                );
+                                                _mm_storeu_si128(
+                                                    dest_ptr.add(copied + 16) as *mut __m128i,
+                                                    _mm_shuffle_epi8(
+                                                        v_src,
+                                                        _mm_loadu_si128(masks_ptr.add(1)),
+                                                    ),
+                                                );
+                                                _mm_storeu_si128(
+                                                    dest_ptr.add(copied + 32) as *mut __m128i,
+                                                    _mm_shuffle_epi8(
+                                                        v_src,
+                                                        _mm_loadu_si128(masks_ptr.add(2)),
+                                                    ),
+                                                );
+                                                copied += 48;
+                                            }
+
+                                            while copied + 16 <= length {
+                                                let idx = (copied % 48) / 16;
+                                                let v = if idx == 0 {
+                                                    v_base
+                                                } else {
+                                                    _mm_shuffle_epi8(
+                                                        v_src,
+                                                        _mm_loadu_si128(masks_ptr.add(idx)),
+                                                    )
+                                                };
+                                                _mm_storeu_si128(
+                                                    dest_ptr.add(copied) as *mut __m128i,
+                                                    v,
+                                                );
+                                                copied += 16;
+                                            }
+                                        }
+
                                         while copied < length {
                                             *dest_ptr.add(copied) = *src_ptr.add(copied);
                                             copied += 1;
                                         }
                                     } else {
-                                        // Simple loop for offsets 5, 6, 7
+                                        // Simple loop for offsets 5, 7
                                         let mut copied = 0;
                                         while copied < length {
                                             *out_next.add(copied) = *src.add(copied);