我有两个服务器,一个运行一个E3-1220处理器,另一个运行两个E5-2640处理器。
问题是双处理器服务器的执行速度比我的程序慢2倍,请参阅我在堆栈溢出上的问题)
我写了这个简单的程序来比较E3-1220和E5-2640,它没有做任何事情,它只是我在现实世界中做的事情:
using System;
using System.Collections.Generic;
using System.Diagnostics;
using System.Linq;
using System.Text;
namespace TestSpeed
{
class Program
{
目前,我使用默认的64作为seq2seq tensorflow模型的批处理大小。什么是最大批量大小,层大小等我可以去与一个12 GB内存的泰坦X GPU与哈斯韦尔-E至强128 GB内存。将输入数据转换为嵌入。下面是我正在使用的一些有用的参数,单元格输入大小似乎是1024:
encoder_inputs: a list of 2D Tensors [batch_size x cell.input_size].
decoder_inputs: a list of 2D Tensors [batch_size x cell.input_size].
tf.app.flags.DEFINE_in
我运行了以下matlab代码:
rng(1)
matrix_size = 200;
iterations = 100000;
A = rand(matrix_size);
B = rand(matrix_size);
profile on
for i = 1:iterations
A * B;
end
profile off
在我的MacAir (英特尔(R)酷睿(TM)i5-4260UCPU@1.40 this )上,这需要39秒。在具有7个内核(英特尔(R)至强(R) CPU E5-2687W v4 @3.00 62s )的工作站上,这需要62秒。
我没有指定-singleCompT