buddy-compiler · qzylalala · May 6, 2024 · May 7, 2024 · linuxlonelyeagle · May 9, 2024
diff --git a/examples/GemminiDialect/makefile b/examples/GemminiDialect/makefile
@@ -49,6 +49,18 @@ matmul-os-run:
 	@riscv64-unknown-linux-gnu-gcc log.o -O2 -static -o a.out
 	@spike --extension=gemmini pk a.out
 
+matmul-transpose-fuse-run:
+	@${BUDDY_OPT} ./matmul-transpose-fuse.mlir \
+		-convert-linalg-to-gemmini \
+		-convert-linalg-to-loops \
+		-lower-gemmini | \
+	${BUDDY_TRANSLATE} --buddy-to-llvmir | \
+	${BUDDY_LLC} -filetype=obj -mtriple=riscv64 \
+		-mattr=+buddyext,+D -float-abi=hard \
+		-o log.o
+	@riscv64-unknown-linux-gnu-gcc log.o -O2 -static -o a.out
+	@spike --extension=gemmini pk a.out
+
 compute-accumulated-run:
 	@${BUDDY_OPT} ./compute-accumulated.mlir -lower-gemmini | \
 	${BUDDY_TRANSLATE} --buddy-to-llvmir | \

diff --git a/examples/GemminiDialect/matmul-transpose-fuse.mlir b/examples/GemminiDialect/matmul-transpose-fuse.mlir
@@ -0,0 +1,36 @@
+// RUN: buddy-opt %s \
+// RUN:     --convert-linalg-to-gemmini | \
+// RUN: FileCheck %s
+
+memref.global "private" @gv1 : memref<3x4xi8> = dense<[[1, 2, 3, 4],
+                                                       [5, 6, 7, 8],
+                                                       [9, 10, 11, 12]]>
+memref.global "private" @gv2 : memref<4x3xi8> = dense<[[1, 1, 1],
+                                                       [1, 1, 1],
+                                                       [1, 1, 1],
+                                                       [1, 1, 1]]>
+
+func.func @main() -> i8 {
+    %arrayA = memref.get_global @gv1 : memref<3x4xi8>
+    %arrayB = memref.get_global @gv2 : memref<4x3xi8>
+    %arrayC = memref.alloc() : memref<3x3xi8>
+    %cst0 = arith.constant 0 : i8
+    gemmini.print %arrayC : memref<3x3xi8>
+    // Matrix-matrix multiplication
+    // CHECK: gemmini.tile_matmul %1 %0 %alloc %alloc_0 {aTranspose = true, bTranspose = true} : 
+    // CHECK-SAME: memref<4x3xi8> memref<3x4xi8> memref<3x3xi8> memref<3x4xi32>
+    linalg.matmul 
+        ins(%arrayA, %arrayB: memref<3x4xi8>, memref<4x3xi8>) 
+    outs(%arrayC: memref<3x3xi8>)
+
+    // transpose
+    linalg.transpose 
+        ins(%arrayC: memref<3x3xi8>)
+    outs(%arrayC: memref<3x3xi8>)
+    permutation = [1, 0]
+
+    gemmini.print %arrayC : memref<3x3xi8>
+    memref.dealloc %arrayC : memref<3x3xi8>
+
+    return %cst0 : i8
+}
diff --git a/midend/lib/Conversion/LowerLinalgToGemmini/LowerLinalgToGemmini.cpp b/midend/lib/Conversion/LowerLinalgToGemmini/LowerLinalgToGemmini.cpp
@@ -63,10 +63,42 @@ class MatmulLowering : public OpRewritePattern<linalg::MatmulOp> {
     Value fillOpInputValue =
         rewriter.create<arith::ConstantOp>(loc, fillOpInsType, fillOpInputAttr);
     rewriter.create<linalg::FillOp>(loc, fillOpInputValue, bias);
-    rewriter.replaceOpWithNewOp<gemmini::TileMatMulOp>(
-        matMulOp, input0, input1, output0, bias, /*aScaleFactor = */ scale1,
-        /*bScaleFactor = */ scale1, /*dScaleFactor = */ scale1, /*act = */ 0,
-        /*accScale = */ scale1, /*bertScale = */ scale0);
+
+    // llvm::outs() << " has "
+    //                << std::distance(output0.getUses().begin(),
+    //                                 output0.getUses().end())
+    //                << " uses:\n";
+    // for (Operation *userOp : output0.getUsers()) {
+    //   llvm::outs() << "    - " << userOp->getName() << "\n";
+    // }
+
+    // If this matmul operation is followed by a transpose operation, do fusion.
+    // We should make sure that the result of this matmul op only has one user.
+    Operation* fuseOp = *output0.user_begin();
+    int output0Use = 0;
+    for (auto userOp : output0.getUsers()) {
+      if (auto transposeOp = dyn_cast<linalg::TransposeOp>(userOp)) {
+        fuseOp = transposeOp;
+        output0Use ++;
+      }
+    }
+
+    if (output0Use) {
+      // llvm::outs() << "Fuse linalg.matmul and linalg.transpose. \n";
+      rewriter.replaceOpWithNewOp<gemmini::TileMatMulOp>(
+            matMulOp, input1, input0, output0, bias, /*aScaleFactor = */ scale1,
+            /*bScaleFactor = */ scale1, /*dScaleFactor = */ scale1, /*act = */0,
+            /*accScale = */ scale1, /*bertScale = */ scale0,
+            /*repeatingBias = */ false, /*aTranspose = */ true, 
+            /*bTranspose = */ true);
+      rewriter.eraseOp(fuseOp);
+    } else {
+      rewriter.replaceOpWithNewOp<gemmini::TileMatMulOp>(
+          matMulOp, input0, input1, output0, bias, /*aScaleFactor = */ scale1,
+          /*bScaleFactor = */ scale1, /*dScaleFactor = */ scale1, /*act = */ 0,
+          /*accScale = */ scale1, /*bertScale = */ scale0);
+    }
+
     rewriter.create<memref::DeallocOp>(loc, bias);
     return success();
   }