कुडा में आयताकार मैट्रिक्स गुणा

मैं cuda में आयताकार मैट्रिक्स गुणा कर रहा हूं, लेकिन मैं कर्नेल को उचित ग्रिड और ब्लॉक आकार के साथ लॉन्च करने में सक्षम नहीं हूं। मैंने कई विन्यास के साथ कोशिश की। मेरे मैट्रिक्स आकार 18 9 * 1024 और 1024 * 100 हैं।

कोई भी इस समस्या से बाहर निकलने में मेरी मदद कर सकता है?

__global__ void matrixMultiply(float * C, float * A, float * B,
                   int numARows, int numAColumns,
                   int numBRows, int numBColumns,
                   int numCRows, int numCColumns) {
    //@@ Insert code to implement matrix multiplication here
    int Row = blockIdx.y * blockDim.y + threadIdx.y;
    int Col = blockIdx.x * blockDim.x + threadIdx.x;
    if (numAColumns != numBRows) return;
    if ((Row < numARows) && (Col < numBColumns)){
    float Cvalue = 0;
    for (int k = 0; k < numAColumns; ++k)
    Cvalue += A[Row*numAColumns + k] * B[k * numBColumns + Col];
    C[Row*numCColumns + Col] = Cvalue;
  }

}

यह वैश्विक कार्य है जिसका उपयोग कर रहा हूँ और gridsize numCColumns/8 numCRow/8 है     अवरोध है [8 8]

0
मैंने उस पोस्ट को भी चेक किया .... मैटलैब का उपयोग कर कुडा कर्नेल लोड कर रहा हूं .... और मुझे जवाब मिला, आपकी टिप्पणी के लिए धन्यवाद ...
जोड़ा लेखक Anil, स्रोत
आपको मदद करने के लिए आपको एक छोटा, पूर्ण प्रजनन प्रदान करने की आवश्यकता है। आप कहते हैं कि आप लॉन्च करने में सक्षम नहीं हैं। त्रुटि क्या है?
जोड़ा लेखक Sagar Masuti, स्रोत
यह पोस्ट देखें। आपका प्रश्न इसकी एक सटीक प्रति है।
जोड़ा लेखक Farzad, स्रोत