Kaggle TPU 无法启动多核训练 排雷
当使用xmp.spawn(_mp_fn, nprocs=8, start_method='fork') 这样的方式启动TPU
可能会遇到
RuntimeError: Bad StatusOr access: UNKNOWN: TPU initialization failed: Invalid --2a886c8_slice_builder_worker_addresses specified. Expected 4 worker addresses, got 1.
而且单核训练正常的情况下
import os
os.environ.pop('TPU_PROCESS_ADDRESSES')
这样很有可能就能解决问题
人生苦短,除非为了好玩,少碰TPU