好的 scc@sc'19 终于没有拿亚军

记个流水账

Benchmarking

好像没啥特别的.

一个新的发现是 HPL 的功耗飘可能是因为 GPU 功耗上升而不是计算 pattern? 回头仔细看看..?

内核的奇怪的锅

导致 idle 状态下 ssh 上一台机器就能跳 200w 的功耗 spike. 通过更新内核版本解决了该问题.

IB 卡烧掉了???

benchmark 本来早晨很早就交了而且数也还行. 然而中午玩着玩着发现 ib 卡没了. 尝试 pci hot reenable 失败之后重启并重新跑了 benchmark. 后来发现是 ib 卡在 gpu 风道里, 而我们给没插卡的节点的 gpu 风扇拔了一半的线, 另一半还是最低速运转的, 于是把 ib 给热傻了…

SST 人脑挖矿 + 无脑跑

SST 第一个部分是给定 cpu 核心数, l1/l2 cache 的不同搭配之类的总共乘起来 5760 种选择, 让用 SST 搞出一种性能最好且不超过5000块钱的配置.

人脑挖矿 vs 暴力. 测算发现暴力应该能跑完所有点, 于是就暴力了一下.

听说别的队有试图人脑的…

另一个 case 就是无脑跑. 唯一需要动一下脑的就是把 partition 打出来看了看网络 topo, 发现是1024个路由器均匀接了16384个 mpi. 路由器用 hyperx / dragonfly 分组连接. 然后发现组娄攵总之是 32 什么的, 于是单机 32 进程跑就完事了. 两个都是稳定的 70/90 分钟一轮迭代, 总共跑 10 轮. 第一天晚上就熬夜在云上跑上了, 所以也没出啥锅就完事了.

Slides

虽然我一直觉得 slides 没用但做一些 fancy 的 slides 还是能让 interview 加分不少的. 受到 Harry 启发用 keynote 做了一个仿 beamer 样子的模板, 看起来效果不错.

树莓派小车

女子 忄曼 口阝可

Summary

感谢赞助商 bitmain, intel, mellanox, nvidia. 感谢组委会. 感谢很给力的老师和队友们.

本人就此退役啦. 祝贵队武运隆昌.