深视科技,陈阳的办公室。
顾书瑶顶著两个大大的黑眼圈,把一份测试报告摔在桌子上:
“这活真没法干了。按照这个速度,等到明年我们也跑不完这60个模型!”
模型训练在有条不絮的进行。但算力,成了卡死模型训练的最后一道枷锁。
“我去跟投资人沟通,让他们儘快同意超算中心的建设。”
次日,收到陈阳通知的投资人纷纷赶来,即使时间来不及,也排了代表。
最终经过激烈的討论后,投资人妥协了。
同意前期投入500万购买显卡以及租用机房,看效果再决定后续是否投入。
对於这个结果陈阳也能接受,反正方向是对的,只是时间问题而已。
於是陈阳叫来顾书瑶。
“买显卡。”
陈阳在支票本上刷刷写下一串数字,“100张英伟达teslak20。”
“k20?”
顾书瑶愣了一下,作为硬体发烧友,她提醒道:“英伟达已经发gtxtitan了,听说显卡核心一样,显存还多1g,价格便宜一半。要不买titan?”
“不等,也不要titan。”
陈阳摇了摇头,“titan虽然便宜显存大,但是它的显存没有ecc(错误检查和纠正)功能。在家里或者小规模玩玩可以,但我们要建设的是超算中心,跑的是商业模型。一旦发生比特翻转(bitflip),导致训练中断或者参数错误,浪费的时间成本,划不来。”
“我们要的是稳定。”陈阳语气坚定的说道。
顾书瑶听完,也不再反驳。
3月中旬,京城某数据中心
陈阳带著顾书瑶和运维团队,站在一排刚刚改造完毕的黑色机柜前。
为了迎接这批伺服器,陈阳额外支付了几十万的改造费。
因为2013年的主流机房都是为cpu伺服器设计的,根本扛不住gpu的高功耗和高发热。
为此,机房专门改造了电源线路,还在机柜后方加装了暴力的工业风扇。
“陈总,这就是你要的效果。”机房负责人指著那一排排亮起的绿灯,
“100张teslak20,全部上线。散热和供电都测过了,满载运行没问题。”
“辛苦了。”陈阳满意地点点头,看向顾书瑶。
“书瑶,试试?”
顾书瑶隨即打开隨身携带的笔记本,连入內网。
屏幕上跳动著一个简洁的控制台界面——这是陈阳基於前面的框架之前花了一个月时间,带著几个人连夜赶出来的简易版超算调度平台。
虽然简陋,但它能將这100张显卡整合成一个整体。
顾书瑶深吸一口气,颤抖著手指,提交了一个训练任务。
屏幕上,100个gpu的使用率瞬间飆升至90%以上。那是一种令人心颤的工业美感。