Untitled Document

　　对输出数据进行划分

　　考虑下面的算法框架：
　　　　　　　

　　这个算法有一个输入集，经过处理后，得到一个输出集。如果输出集中的每个元素都是独立计算的，那么，对输出集的任何划分都会有一个对应的并行任务分解方案。这种分解的最大并行度等于输出集的规模。数据分解是一种很有效的发现并行性的方法。

　　下面考虑一个更为实际的例子。x，b是n维向量，A是一个n×n的矩阵，计算矩阵向量积如下：
　　　　　　　　　　　　　　b=Ax

　　显然，b是算法的输出，我们来看b的每个元素是如何得到的。b的每个元素可以用下面的公式的到：
　　　　　　　　　　　　　　
　　如下面的图所示：
　　　　　　　　　

　　由于b的各元素的计算可以独立（并行）进行，我们可以将这个计算按照b的元素进行数据划分：n个处理器，每个处理器完成一个元素的计算。

　　现在考虑矩阵的乘法，描述如下：A，B，C都是n×n的矩阵的矩阵，完成下面的矩阵乘法：
　　　　　　　　　　　　　　C=A×B

　　这个算法通常被实现为下面的三重循环：
　　　　for (i=0; i<n; i++)
　　　　for (j=0; j<n; j++)
　　　　　for (c[i][j]=0.0, k=0； k<n； k++)
　　　　　　c[i][j] += a[i][k]*b[k][j];

　　它的计算示意图如下（C的每个元素的计算）：
　　　　　　　　　

　　在这个算法中，C的每个元素是A的第i个行向量与B的第j个列向量的点积，因此，可以按照C的元素进行数据划分，并把计算每个C的元素的任务作为一个子任务。这种分解的最大并行度为n×n。