“陈阳!“
沈清雪从教学楼另一侧跑过来,手里抱著书。
“你怎么在这儿?“陈阳问。
“刚下课啊。“
沈清雪说,“看到你跟姚教授在聊天,就没打扰。聊得怎么样?“
“还不错。“陈阳笑道,“姚教授对我的项目挺感兴趣的。“
“那当然,你做的东西这么厉害。“沈清雪说,“对了,你今晚去工作室吗?我也过去,帮你测试。“
“去。“陈阳说,“周末要把身份证识別做完,你来正好。“
“好!“沈清雪眼睛亮了,“我先回宿舍放书,晚饭后就过去。“
周五晚上七点,华清嘉园工作室。
陈阳坐在电脑前,手指在键盘上飞快地敲击。
屏幕上是密密麻麻的代码,都是他这几天写的身份证识別系统,以及验证数据增强技术。
因为获取不到大量的身份证原件,陈阳只能写了一整套数据增强的脚本来模擬,各种实际情况下出现的场景,比如:
隨机旋转:-30度到30度隨机缩放:0。8倍到1。2倍
隨机裁剪:模擬不同的拍照距离光照变化:模擬不同的光线条件
添加噪点:模擬图像质量差的情况
模糊处理:模擬对焦不清晰的情况
透视变换:模擬不同的拍照角度
用这些方法,他把手里的几张原始身份证图片,扩充到了20000张训练样本。
这种数据增强的技术,用少量真实数据,生成大量多样化的训练样本,让模型见过各种极端情况。
“陈阳,我来了!“
门开了,沈清雪提著一个大袋子走进来。
“买了什么?“陈阳转过头。
“吃的!“
沈清雪把袋子放在桌上,“我估计今晚又要熬夜,所以买了一堆零食。还有红牛,提神的。“
她从袋子里掏出一大堆东西:薯片、巧克力、饼乾、瓜子、红牛、咖啡。
“你这是搬超市了吗?“陈阳笑道。
“嘿嘿,有备无患嘛。“沈清雪拉了把椅子坐在他旁边,“现在进度怎么样了?“
“模型训练刚跑完第一轮。“陈阳指著另一台电脑的屏幕,上面显示著训练过程的曲线图。
“准確率多少?“
“92%。“陈阳说,“还不够,我的目標是99%以上。“
“99%?“沈清雪有些惊讶,“这么高?“
“必须高。“陈阳解释道,“身份证识別用在实名认证的场景,容错率很低。如果准確率只有90%,意味著每100张身份证就有10张识別错误,这在实际应用中是不可接受的。“
“那怎么提高准確率?“
“继续训练,优化参数,增加数据。“陈阳说,“另外,我准备加一个后处理模块,用规则约束来纠正一些明显的错误。比如身份证號必须是18位,出生日期必须是合理的日期格式等等。“
“明白了。“沈清雪点点头,“我能帮什么忙?“
“帮我准备测试数据。“陈阳把一个u盘递给她,“这里面有500张身份证图片,你帮我把每张的正確信息都录入到excel表格里。等模型训练完,我们用这些数据来测试准確率。“