Kaggle TPU 无法启动多核训练 排雷

当使用xmp.spawn(_mp_fn, nprocs=8, start_method='fork') 这样的方式启动TPU

可能会遇到

RuntimeError: Bad StatusOr access: UNKNOWN: TPU initialization failed: Invalid --2a886c8_slice_builder_worker_addresses specified. Expected 4 worker addresses, got 1.

而且单核训练正常的情况下

import os
os.environ.pop('TPU_PROCESS_ADDRESSES')

这样很有可能就能解决问题

人生苦短,除非为了好玩,少碰TPU