[SM6.10] Implement MatVecMul/MatVecMullAdd Builtins (#8192)

V-FEXrt · web-flow · commit 15c1596d2564 · 2026-03-03T21:21:31.000-07:00
Fixes #7908 Fixes #7909
diff --git a/lib/HLSL/HLOperationLower.cpp b/lib/HLSL/HLOperationLower.cpp
@@ -6956,7 +6956,25 @@ Value *TranslateLinAlgMatVecMul(CallInst *CI, IntrinsicOp IOP,
                                 HLOperationLowerHelper &Helper,
                                 HLObjectOperationLowerHelper *ObjHelper,
                                 bool &Translated) {
-  DXASSERT(false, "Not implemented.");
+  hlsl::OP *HlslOp = &Helper.hlslOP;
+  IRBuilder<> Builder(CI);
+
+  Value *ReturnVecPtr = CI->getArgOperand(1);
+  DXASSERT_NOMSG(isa<PointerType>(ReturnVecPtr->getType()));
+  Type *ReturnVecType = ReturnVecPtr->getType()->getPointerElementType();
+
+  Value *Matrix = CI->getArgOperand(2);
+  Value *InputVector = CI->getArgOperand(3);
+  Value *InputVectorInterp = CI->getArgOperand(4);
+
+  Constant *OpArg = HlslOp->GetU32Const((unsigned)OpCode);
+  Function *DxilFunc = HlslOp->GetOpFunc(
+      OpCode, {ReturnVecType, Matrix->getType(), InputVector->getType()});
+
+  Value *ReturnVec = Builder.CreateCall(
+      DxilFunc, {OpArg, Matrix, InputVector, InputVectorInterp});
+  Builder.CreateStore(ReturnVec, ReturnVecPtr);
+
   return nullptr;
 }
 
@@ -6965,7 +6983,29 @@ Value *TranslateLinAlgMatVecMulAdd(CallInst *CI, IntrinsicOp IOP,
                                    HLOperationLowerHelper &Helper,
                                    HLObjectOperationLowerHelper *ObjHelper,
                                    bool &Translated) {
-  DXASSERT(false, "Not implemented.");
+  hlsl::OP *HlslOp = &Helper.hlslOP;
+  IRBuilder<> Builder(CI);
+
+  Value *ReturnVecPtr = CI->getArgOperand(1);
+  DXASSERT_NOMSG(isa<PointerType>(ReturnVecPtr->getType()));
+  Type *ReturnVecType = ReturnVecPtr->getType()->getPointerElementType();
+
+  Value *Matrix = CI->getArgOperand(2);
+  Value *InputVector = CI->getArgOperand(3);
+  Value *InputVectorInterp = CI->getArgOperand(4);
+  Value *BiasVector = CI->getArgOperand(5);
+  Value *BiasVectorInterp = CI->getArgOperand(6);
+
+  Constant *OpArg = HlslOp->GetU32Const((unsigned)OpCode);
+  Function *DxilFunc = HlslOp->GetOpFunc(
+      OpCode, {ReturnVecType, Matrix->getType(), InputVector->getType(),
+               BiasVector->getType()});
+
+  Value *ReturnVec = Builder.CreateCall(
+      DxilFunc, {OpArg, Matrix, InputVector, InputVectorInterp, BiasVector,
+                 BiasVectorInterp});
+  Builder.CreateStore(ReturnVec, ReturnVecPtr);
+
   return nullptr;
 }
 
diff --git a/tools/clang/test/CodeGenDXIL/hlsl/linalg/builtins/matrixvectormultiply/nominal.hlsl b/tools/clang/test/CodeGenDXIL/hlsl/linalg/builtins/matrixvectormultiply/nominal.hlsl
@@ -0,0 +1,14 @@
+// REQUIRES: dxil-1-10
+// RUN: %dxc -T cs_6_10 -E main %s | FileCheck %s
+
+[numthreads(1,1,1)]
+void main() {
+  // CHECK-LABEL: define void @main()
+
+  __builtin_LinAlgMatrix [[__LinAlgMatrix_Attributes(4, 5, 4, 1, 2)]] mat;
+  float4 vec = {1,2,3,4};
+  float4 result;
+
+  // CHECK: call <4 x float> @dx.op.linAlgMatVecMul.v4f32.mC4M5N4U1S2.v4f32(i32 -2147483623, %dx.types.LinAlgMatrixC4M5N4U1S2 {{.*}}, <4 x float> <float 1.000000e+00, float 2.000000e+00, float 3.000000e+00, float 4.000000e+00>, i32 1)  ; LinAlgMatVecMul(matrix,inputVector,interpretation)
+  __builtin_LinAlg_MatrixVectorMultiply(result, mat, vec, 1);
+}
diff --git a/tools/clang/test/CodeGenDXIL/hlsl/linalg/builtins/matrixvectormultiplyadd/nominal.hlsl b/tools/clang/test/CodeGenDXIL/hlsl/linalg/builtins/matrixvectormultiplyadd/nominal.hlsl
@@ -0,0 +1,13 @@
+// REQUIRES: dxil-1-10
+// RUN: %dxc -T cs_6_10 -E main %s | FileCheck %s
+
+[numthreads(1,1,1)]
+void main() {
+  // CHECK-LABEL: define void @main()
+  __builtin_LinAlgMatrix [[__LinAlgMatrix_Attributes(5, 3, 4, 0, 0)]] mat;
+  float4 vec = {1,2,3,4};
+  float4 result;
+
+  // CHECK: call <4 x float> @dx.op.linAlgMatVecMulAdd.v4f32.mC5M3N4U0S0.v4f32.v4f32(i32 -2147483622, %dx.types.LinAlgMatrixC5M3N4U0S0 {{.*}}, <4 x float> <float 1.000000e+00, float 2.000000e+00, float 3.000000e+00, float 4.000000e+00>, i32 1, <4 x float> {{.*}}, i32 0)  ; LinAlgMatVecMulAdd(matrix,inputVector,inputInterpretation,biasVector,biasInterpretation)
+  __builtin_LinAlg_MatrixVectorMultiplyAdd(result, mat, vec, 1, result, 0);
+}
diff --git a/tools/clang/test/SemaHLSL/hlsl/linalg/builtins/matrixvectormultiply/ast.hlsl b/tools/clang/test/SemaHLSL/hlsl/linalg/builtins/matrixvectormultiply/ast.hlsl
@@ -0,0 +1,21 @@
+// REQUIRES: dxil-1-10
+// RUN: %dxc -T lib_6_10 -E main %s -ast-dump-implicit | FileCheck %s
+
+// CHECK: FunctionDecl {{.*}} implicit used __builtin_LinAlg_MatrixVectorMultiply 'void (vector<float, 4> &, __builtin_LinAlgMatrix {{.*}}, vector<float, 4>, unsigned int)' extern
+// CHECK-NEXT: ParmVarDecl {{.*}} ret 'vector<float, 4> &&__restrict'
+// CHECK-NEXT: ParmVarDecl {{.*}} mat '__builtin_LinAlgMatrix {{.*}}'
+// CHECK-NEXT: ParmVarDecl {{.*}} input 'vector<float, 4>':'vector<float, 4>'
+// CHECK-NEXT: ParmVarDecl {{.*}} input_interp 'unsigned int'
+// CHECK-NEXT: HLSLIntrinsicAttr {{.*}} Implicit "op" "" 422
+// CHECK-NEXT: AvailabilityAttr {{.*}} Implicit  6.10 0 0 ""
+
+[shader("compute")]
+[numthreads(1,1,1)]
+void main() {
+  __builtin_LinAlgMatrix [[__LinAlgMatrix_Attributes(1, 5, 4, 2, 2)]] mat;
+  __builtin_LinAlg_FillMatrix(mat, 15);
+
+  float4 vec = {1,2,3,4};
+  float4 result;
+  __builtin_LinAlg_MatrixVectorMultiply(result, mat, vec, 1);
+}
diff --git a/tools/clang/test/SemaHLSL/hlsl/linalg/builtins/matrixvectormultiply/errors.hlsl b/tools/clang/test/SemaHLSL/hlsl/linalg/builtins/matrixvectormultiply/errors.hlsl
@@ -0,0 +1,169 @@
+// REQUIRES: dxil-1-10
+// RUN: %dxc -T lib_6_10 %s -verify
+
+// expected-no-diagnostics
+
+RWByteAddressBuffer buf;
+void CallFunction()
+{
+  __builtin_LinAlgMatrix [[__LinAlgMatrix_Attributes(4, 5, 4, 1, 2)]] mat;
+  float4 vec = {9,9,9,9};
+  float4 result;
+  __builtin_LinAlg_MatrixVectorMultiply(result, mat, vec, 1);
+}
+
+// --- Allowed Stages ---
+
+[shader("compute")]
+[numthreads(4,4,4)]
+void mainCS(uint ix : SV_GroupIndex, uint3 id : SV_GroupThreadID) {
+  CallFunction();
+}
+
+struct Verts {
+    float4 position : SV_Position;
+};
+
+[shader("mesh")]
+[NumThreads(8, 8, 2)]
+[OutputTopology("triangle")]
+void mainMeS(out vertices Verts verts[32], uint ix : SV_GroupIndex) {
+  CallFunction();
+  SetMeshOutputCounts(32, 16);
+  Verts v = {0.0, 0.0, 0.0, 0.0};
+  verts[ix] = v;
+}
+
+struct AmpPayload {
+    float2 dummy;
+};
+
+[numthreads(8, 1, 1)]
+[shader("amplification")]
+void mainAS()
+{
+    CallFunction();
+    AmpPayload pld;
+    pld.dummy = float2(1.0,2.0);
+    DispatchMesh(8, 1, 1, pld);
+}
+
+[shader("pixel")]
+float4 mainPS(uint ix : SV_PrimitiveID) : SV_TARGET {
+  CallFunction();
+  return 1.0;
+}
+
+[shader("vertex")]
+float4 mainVS(uint ix : SV_VertexID) : OUT {
+  CallFunction();
+  return 1.0;
+}
+
+[shader("node")]
+[nodedispatchgrid(8,1,1)]
+[numthreads(64,2,2)]
+void mainNS() {
+  CallFunction();
+}
+
+[shader("raygeneration")]
+void mainRG() {
+  CallFunction();
+}
+
+[shader("intersection")]
+void mainIS() {
+  CallFunction();
+}
+
+struct Attribs { float2 barys; };
+
+[shader("callable")]
+void mainCALL(inout Attribs attrs) {
+  CallFunction();
+}
+
+struct [raypayload] RayPayload
+{
+    float elem
+          : write(caller,closesthit,anyhit,miss)
+          : read(caller,closesthit,anyhit,miss);
+};
+
+[shader("anyhit")]
+void mainAH(inout RayPayload pld, in Attribs attrs) {
+ CallFunction();
+}
+
+[shader("closesthit")]
+void mainCH(inout RayPayload pld, in Attribs attrs) {
+  CallFunction();
+}
+
+[shader("miss")]
+void mainMS(inout RayPayload pld) {
+  CallFunction();
+}
+
+struct PosStruct {
+  float4 pos : SV_Position;
+};
+
+struct PCStruct
+{
+  float Edges[3]  : SV_TessFactor;
+  float Inside : SV_InsideTessFactor;
+  float4 test : TEST;
+};
+
+PCStruct HSPatch(InputPatch<PosStruct, 3> ip,
+                 OutputPatch<PosStruct, 3> op,
+                 uint ix : SV_PrimitiveID)
+{
+  PCStruct a;
+  a.Edges[0] = ip[0].pos.w;
+  a.Edges[1] = ip[0].pos.w;
+  a.Edges[2] = ip[0].pos.w;
+  a.Inside = ip[0].pos.w;
+  return a;
+}
+
+[shader("hull")]
+[domain("tri")]
+[partitioning("fractional_odd")]
+[outputtopology("triangle_cw")]
+[outputcontrolpoints(3)]
+[patchconstantfunc("HSPatch")]
+PosStruct mainHS(InputPatch<PosStruct, 3> p, uint ix : SV_OutputControlPointID)
+{
+  CallFunction();
+  PosStruct s;
+  s.pos = p[ix].pos;
+  return s;
+}
+
+[shader("domain")]
+[domain("tri")]
+PosStruct mainDS(const OutputPatch<PosStruct, 3> patch,
+                 uint ix : SV_PrimitiveID)
+{
+  CallFunction();
+  PosStruct v;
+  v.pos = patch[0].pos;
+  return v;
+}
+
+float4 a;
+
+[shader("geometry")]
+[maxvertexcount(1)]
+void mainGS(triangle float4 array[3] : SV_Position, uint ix : SV_GSInstanceID,
+            inout PointStream<PosStruct> OutputStream)
+{
+  CallFunction();
+  PosStruct s;
+  s.pos = a;
+  OutputStream.Append(s);
+  OutputStream.RestartStrip();
+}
diff --git a/tools/clang/test/SemaHLSL/hlsl/linalg/builtins/matrixvectormultiply/unavailable_pre_sm610.hlsl b/tools/clang/test/SemaHLSL/hlsl/linalg/builtins/matrixvectormultiply/unavailable_pre_sm610.hlsl
@@ -0,0 +1,11 @@
+// RUN: %dxc -I %hlsl_headers -T cs_6_9 -E main %s -verify
+
+[numthreads(4,1,1)]
+void main() {
+  __builtin_LinAlgMatrix [[__LinAlgMatrix_Attributes(1, 5, 4, 0, 0)]] mat;
+  float4 input = {1,2,3,4};
+  float4 result;
+
+  // expected-error@+1{{intrinsic __builtin_LinAlg_MatrixVectorMultiply potentially used by ''main'' requires shader model 6.10 or greater}}
+  __builtin_LinAlg_MatrixVectorMultiply(result, mat, input, 1);
+}
diff --git a/tools/clang/test/SemaHLSL/hlsl/linalg/builtins/matrixvectormultiplyadd/ast.hlsl b/tools/clang/test/SemaHLSL/hlsl/linalg/builtins/matrixvectormultiplyadd/ast.hlsl
@@ -0,0 +1,24 @@
+// REQUIRES: dxil-1-10
+// RUN: %dxc -T lib_6_10 -E main %s -ast-dump-implicit | FileCheck %s
+
+// CHECK: FunctionDecl {{.*}} implicit used __builtin_LinAlg_MatrixVectorMultiplyAdd 'void (vector<float, 4> &, __builtin_LinAlgMatrix {{.*}}, vector<float, 4>, unsigned int, vector<float, 4>, unsigned int)' extern
+// CHECK-NEXT: ParmVarDecl {{.*}} ret 'vector<float, 4> &&__restrict'
+// CHECK-NEXT: ParmVarDecl {{.*}} mat '__builtin_LinAlgMatrix {{.*}}'
+// CHECK-NEXT: ParmVarDecl {{.*}} input 'vector<float, 4>':'vector<float, 4>'
+// CHECK-NEXT: ParmVarDecl {{.*}} input_interp 'unsigned int'
+// CHECK-NEXT: ParmVarDecl {{.*}} bias 'vector<float, 4>':'vector<float, 4>'
+// CHECK-NEXT: ParmVarDecl {{.*}} bias_interp 'unsigned int'
+// CHECK-NEXT: HLSLIntrinsicAttr {{.*}} Implicit "op" "" 423
+// CHECK-NEXT: AvailabilityAttr {{.*}} Implicit  6.10 0 0 ""
+
+[shader("compute")]
+[numthreads(1,1,1)]
+void main() {
+  __builtin_LinAlgMatrix [[__LinAlgMatrix_Attributes(1, 5, 4, 2, 2)]] mat;
+  __builtin_LinAlg_FillMatrix(mat, 15);
+
+  float4 input = {1,2,3,4};
+  float4 bias = {5,6,7,8};
+  float4 result;
+  __builtin_LinAlg_MatrixVectorMultiplyAdd(result, mat, input, 1, bias, 2);
+}
diff --git a/tools/clang/test/SemaHLSL/hlsl/linalg/builtins/matrixvectormultiplyadd/errors.hlsl b/tools/clang/test/SemaHLSL/hlsl/linalg/builtins/matrixvectormultiplyadd/errors.hlsl
diff --git a/tools/clang/test/SemaHLSL/hlsl/linalg/builtins/matrixvectormultiplyadd/unavailable_pre_sm610.hlsl b/tools/clang/test/SemaHLSL/hlsl/linalg/builtins/matrixvectormultiplyadd/unavailable_pre_sm610.hlsl