四卡训练,已经显式指定了gpu编号 export CUDA_VISIBLE_DEVICES=4,5,6,7,目前就是卡在这里一直不动 [rank0]:[W513 02:56:19.001482657 ProcessGroupNCCL.cpp:4561] [PG ID 0 PG GUID 0 Rank 0] using GPU 0 to perform barrier as devices used by this process are currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect. Specify device_ids in barrier() to force use of a particular device, or call init_process_group() with a device_id. 2 个帖子 - 2 位参与者 阅读完整话题
五一要结束了,却发现五个显式ddl 补药在拖延下去了,甚至今天火车也是发车前10min到的站台 估计模块损坏了就这样 2 个帖子 - 1 位参与者 阅读完整话题
佬友们都是怎么控制科研作图里的字体的, 我没加特别的限制, 字体总是很紧凑, 就像图中这样, 显式制定了一些字体, 但是模型似乎并不理解. 5 个帖子 - 3 位参与者 阅读完整话题
走aff、需要可以开票,并发要高,刚需可以走缓存,最好能支持创建显式缓存。价格没太所谓便宜更好跟官方一个价格也可以,只是官方的limit太低了,谢谢 1 个帖子 - 1 位参与者 阅读完整话题
最近一直在做一个小项目 Einlang ( https://github.com/einlang/einlang ),出发点主要是希望代码本身像数学公式一样直观(但是要够精准无歧义,不需要动脑)。希望下面这几点 张量怎么按索引算 哪里要求和 对谁求导 都直接体现在代码里。比如平时常见写法可能是这样: np.einsum("ik,kj->ij", A, B) jax.grad(loss_fn)(W) 在 Einlang 里可以这样写: let C[i, j] = sum[k](A[i, k] * B[k, j]); let dloss_dW = @loss / @W; 语法上会有一点 Rust 的影子,比如 let 和分号。可以从 Python 调用,也可以直接走命令行。 如果想试一下,可以执行 python3 -m pip install "git+https://github.com/einlang/einlang.git" python3 -m einlang -c "let x = 1 + 1; print(x);" 不知道这种实现在 AI 时代是否还有意义,希望能看到大家的点评和建议。 除了矩阵运算和自动求导,Einlang 语法还支持递推。下面这段代码不需要先在外面写循环,再在循环里求导,而是可以直接把“每一步依赖前一步”的关系写出来: let alpha = 0.25; let x[0] = 8.0; let x[k in 1..6] = { let prev = x[k - 1]; let loss = prev * prev; let g = @loss / @prev; prev - alpha * g };