20亿商品“读图”鉴定 揭秘阿里图像识别背后的数据力量
2017-10-12 来源: 新华网
“2016年淘宝新开店铺为1020万家,有成交的就超过300万家,这其中约35%卖家是24岁以下的年轻人,30岁以下的创业者超过60%。”阿里巴巴首席平台治理官郑俊芳(花名“灭绝师太”)表示,“在这个繁荣多样的生态中,我们既要考虑消费者保护,要保证市场活跃,营造健康的创新创业环境,也要为品牌权利人提供服务保障权益。”
阿里巴巴是全球最早一批使用现代OCR的互联网公司,技术能力走在世界前列。”论坛上,阿里巴巴集团资深技术专家贾梦雷首次向公众披露“雷音识字”技术。据其介绍,新广告法实施后海量的商品描述有了违规风险,而平台上90%的商品描述在图片里,比如说“顶级”、“最优质”、“极品”等。“‘雷音识字’技术就是一双智慧之眼,监控全网近20亿商品,并将违规商品揪出来。”贾梦雷说,“目前技术对宝贝详情图平识别均准确率为97.6%,已接近人眼识别能力。”
阿里的图像识别能力到底有多强?平台治理部公布的一组数据可以说明。据统计,2016年全年阿里超强的图片识别技术已累计计算1000亿张图片,每日为20亿在架宝贝的图像安全保驾护航。每日计算商品图片约6亿张,每年计算约图片面积4.26平方公里,相当于 48 个澳门特别行政区的土地面积。每秒扫描图片文字23,546,287个,相当于每秒可扫描识别501本《康熙字典》的汉字量。
目前,该图像识别技术以审核包括身份证、发票、营业执照、专利证书在内的23种资质图。“像专利证书的识别率高达99.3%,这让快速合法合规成为了可能。” 贾梦雷说。
资质图审核被运用在平台治理的各个场景中,依靠科技手段的运用,阿里食品安全管控已经成为行业标杆。为保障“舌尖上的安全”,阿里一直在提高平台食品准入机制,目前图像识别技术的快速覆盖更是让网络食品管控事半功倍,该技术不仅能审核卖家准入经营许可证,还能识别并拦截违规商品图片,大大净化了平台环境,提升社会治理能力。
如今,社会共治已成为打击假冒伪劣的一把“利刃”。近些年来,阿里巴巴通过政企联手联动,充分运用大数据等手段,积极与全国各地执法部门开展平台治理合作,形成从资质审核、线下源头专案打击到质量共治扶优的共治闭环,构建多方参与的共治格局。