data_dir:数据处理的路径,atv,如果没有被设置,那么将会使用合成数据。为了使用 Imagenet 数据,可把这些指示 (https://github.com/tensorflow/tensorflow/blob/master/tensorflow_models/inception#getting-started) 作为起点。 batch_size:每个 GPU 的批量大小。 variable_update:管理变量的方法:parameter_server 、replicated、distributed_replicated、independent。 local_parameter_device:作为参数服务器使用的设备:CPU 或者 GPU。 单个实例 # VGG16 training ImageNet with 8 GPUs using arguments that optimize for # Google Compute Engine. python tf_cnn_benchmarks.py --local_parameter_device=cpu --num_gpus=8 --batch_size=32--model=vgg16 --data_dir=/home/ubuntu/imagenet/train --variable_update=parameter_server --nodistortions # VGG16 training synthetic ImageNet data with 8 GPUs using arguments that # optimize for the NVIDIA DGX-1. python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 --batch_size=64--model=vgg16 --variable_update=replicated --use_nccl=True # VGG16 training ImageNet data with 8 GPUs using arguments that optimize for # Amazon EC2. python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 --batch_size=64--model=vgg16 --variable_update=parameter_server # ResNet-50 training ImageNet data with 8 GPUs using arguments that optimize for # Amazon EC2. python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 --batch_size=64--model=resnet50 --variable_update=replicated --use_nccl=False 分布式命令行参数 1)ps_hosts:在<host>:port 的格式中(比如 10.0.0.2:50000),逗号分隔的主机列表用做参数服务器。 2)worker_hosts:(比如 10.0.0.2:50001),逗号分隔的主机列表用作工作器,在<host>:port 的格式中。 3)task_index:正在启动的 ps_host 或 worker_hosts 列表中的主机索引。 4)job_name:工作的类别,例如 ps 或者 worker。 分布式实例 如下是在两个主机(host_0 (10.0.0.1) 和 host_1 (10.0.0.2))上训练 ResNet-50 的实例,这个例子使用的是合成数据,如果要使用真实数据请传递 data_dir 参数。 # Run the following commands on host_0 (10.0.0.1): python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 --batch_size=64--model=resnet50 --variable_update=distributed_replicated --job_name=worker --ps_hosts=10.0.0.1:50000,10.0.0.2:50000 --worker_hosts=10.0.0.1:50001,10.0.0.2:50001--task_index=0 python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 --batch_size=64--model=resnet50 --variable_update=distributed_replicated --job_name=ps --ps_hosts=10.0.0.1:50000,10.0.0.2:50000 --worker_hosts=10.0.0.1:50001,10.0.0.2:50001--task_index=0 # Run the following commands on host_1 (10.0.0.2): python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 --batch_size=64--model=resnet50 --variable_update=distributed_replicated (责任编辑:本港台直播) |