码报:【j2开奖】谷歌今天又开源了，这次是Sketch(2)_本港台直播_J2开奖直播

　　以下是一些可能需要用于在非常大的数据集上训练模型的选项，并使用HyperLSTM作为RNN单元。对于小于10K的训练样本的小数据集，具有层规范化（包括enc_model和dec_model的layer_norm）的LSTM效果最佳。

　　sketch_rnn_train --log_root=models/big_model --data_dir=datasets/big_dataset --hparams={"data_set"="big_dataset_filename.npz","dec_model":"hyper","dec_rnn_size":2048,"enc_model":"layer_norm","enc_rnn_size":512,"save_every":5000,"grad_clip":1.0,"use_recurrent_dropout":0}

　　对于Python 2.7，atv直播，我们已经在TensorFlow 1.0和1.1上测试了这个模型。

　　数据集

　　由于大小限制，此报告不包含任何数据集。

　　我们已经准备好了许多使用Sketch-RNN开箱即用的数据集。Google QuickDraw数据集（https://quickdraw.withgoogle.com/data）是涵盖345个类别的50M矢量草图的集合。在quickdraw数据集中，有一个名为Sketch-RNNQuickDraw Dataset的部分描述了可用于此项目的预处理数据文件。每个类别类都存储在其自己的文件中，如cat.npz，并包含70000/2500/2500示例的训练/验证/测试集大小。

　　从Google云（https://console.cloud.google.com/storage/quickdraw_dataset/sketchrnn）

　　下载.npz数据集，以供本地使用。我们建议你创建一个名为datasets / quickdraw的子目录，并将这些.npz文件保存在此子目录中。

　　除了QuickDraw数据集之外，我们还在较小的数据集上测试了该模型。在sketch-rnn-datasets（https://github.com/hardmaru/sketch-rnn-datasets）报告中，还有3个数据集：AaronKoblin Sheep Market、Kanji和Omniglot。如果你希望在本地使用它们，我们建议你为每个数据集创建一个子目录，如datasets/ aaron_sheep。如前所述，在小型数据集上训练模型以避免过度拟合时，应使用循环退出和数据增加。

　　创建自己的数据集

　　请创建你自己有趣的数据集并训练这些算法！创建新的数据集是乐趣的一部分。你很可能发现有趣的矢量线图数据集，为什么要用现有的预先打包好的数据集呢？在我们的实验中，由几千个例子组成的数据集大小足以产生一些有意义的结果。在这里，我们描述模型期望看到的数据集文件的格式。

　　数据集中的每个示例都存储为坐标偏移的列表：Δx，Δy用来二进制值表示笔是否从纸张提起。这种格式，我们称之为stroke-3，在论文中有描述（https://arxiv.org/abs/1308.0850）。请注意，论文中描述的数据格式有5个元素（stroke-5格式），atv，此转换在DataLoader内自动完成。以下是使用以下格式的乌龟示例草图：

码报:【j2开奖】谷歌今天又开源了，这次是Sketch

　　图：作为（Δx，Δy，二进制笔状态）序列的示例草图点和渲染形式。在渲染草图中，线条颜色对应于顺序笔画排列。

　　在我们的数据集中，示例列表中的每个示例都用np.int16数据类型表示为np.array。你可以将它们存储为np.int8，你可以将其存储起来以节省存储空间。如果你的数据必须是浮点格式，也可以使用np.float16。np.float32可能会浪费存储空间。在我们的数据中，Δx和Δy偏移通常用像素位置表示，它们大于神经网络模型喜欢看到的数字范围，所以在模型中内置了归一化缩放过程。当我们加载训练数据时，模型将自动转换为np.float并在训练前相应规范化。

　　如果要创建自己的数据集，则必须为训练/验证/测试集创建三个示例列表，以避免过度拟合到训练集。该模型将使用验证集来处理早期停止。对于aaron_sheep数据集，我们使用了7400/300/300的示例，并将每个内容放在python列表中，名为train_data，validation_data和test_data。之后，我们创建了一个名为datasets / aaron_sheep的子目录，我们使用内置的savez_compressed方法将数据集的压缩版本保存在aaron_sheep.npz文件中。在我们的所有实验中，每个数据集的大小是100的确切倍数。

　　我们还通过执行简单的笔画简化来预处理数据，称为Ramer-Douglas-Peucker。在这里应用这个算法有一些易于使用的开源代码（https://github.com/fhirschmann/rdp）。实际上，我们可以将epsilon参数设置为0.2到3.0之间的值，具体取决于我们想要简单的线条。在本文中，我们使用了一个2.0的epsilon参数。我们建议你建立最大序列长度小于250的数据集。

(责任编辑：本港台直播)