利用文字技术帮助选购商品,慧眼“识”物的人都这样做……
摘要:现如今市面上产品越来越多元化,但是作为消费者的我们该如何抉择,怎样查询哪些商品是好是坏呢?随着智能化时代的来临,识别技术已经融入在日常生活中,我们应该怎样利用文字识别技术应用到我们生活当中并帮助我们查询选择商品呢?本次博客将从产品国家标准号的数据收集整理成库,以及在ModelArts上通过建立OCR来完成对于某品牌酸奶产品国家标准号的识别以及相应的查询。
1、爬虫收集数据
本次分享活动案例主要目的在于结合产品的标准号和标准号所包含的具体信息进行查询,所以我们需要对产品的标准号信息数据进行提前条件的收集与整理。然而基于目前标准号数据量十分庞大,本次分享活动只针对国家标准号进行了相应的数据收集和整理,并共收集到9620条国家标准号信息。后续我们也会更进补充包括地方标准号在内的尽可能多的标准信息。当然,如果后续还有任何信息不足,欢迎各位进行补充。
接下来本文将从具体的实际操作部分来讲解本次案例。
首先是在众多标准号公开网站上找到标准号的信息并且对应收集整理成数据库的格式。这里我们选择了一个网站,利用爬虫程序先将国家标准号收集,并整理建立数据库。
某公开标准号数据网站
进入该网站,在该网站上按下F12,就能跳出该网站的源代码。找到并进入elements,就能找到众多标准号对应的信息网址,首先利用爬虫程序将这些标准号的号码和所对应的网址爬取下来,进一步收集该标准号的具体信息。
进入具体的标准号信息网址,我们发现这里包含的具体信息众多。我们选取了该国标号的分类级别、标准号、标准名称、该标准号的状态、该标准号的发布实施日期、颁发部门以及该标准号的具体内容作为单独一个国标号的数据子树。并最终生成了Excel文件的数据库,完成对于标准号程序的爬取和收集。
该数据库的部分截图如下:
对于爬虫程序和生成的数据库我们会放在附件当中,请有需求的程序员朋友进行下载和使用。
2.酸奶产品包装在ModelArts的OCR文字识别
对于OCR的模型和代码本文将不再阐述,请有兴趣的朋友转至此网址博客进行学习:https://bbs.huaweicloud.com/blogs/195963
结合上面爬虫程序的整个流程,我们得到了国家标准号的数据库,接下来我们将从实际操作用OCR识别某酸奶的包装的文字,随后得到我们的标准号,从而得到该标准号的具体信息讲解整个流程经过。
首先我们在ModelArts上新建立notebook,将OCR模型代码上传至我们的notebook:
然后经过OCR的识别,我们将酸奶包装信息上的国家标准号信息识别并提取出来:
并在命令行终端得到我们对于酸奶包装信息识别到的文字信息:
经过ModelArts上的OCR识别我们得到识别出来的酸奶的标准号信息是:GB-19302,对应到我们之前利用爬虫程序建立的数据库当中,找到该标准号的具体信息是对酸奶的产品标注定制:
附件下载: Ocr.zip 4.72MB
相关文章
- 技术分享 | web 控件的交互进阶
- 如何选择最适合你的数据库解决方案:PostgreSQL VS MySQL 技术选型对比
- CCD去噪技术
- 传统企业,如何构建性能测试技术体系
- 软件测试需要学什么?学多久?软件测试技术进阶路线图
- WMI技术介绍和应用——查询硬件信息
- 利用ajax技术实现数据get方式与post方式的实时传输与接收实验
- 《圣殿祭司的ASP.NET4.0专家技术手册》----1-1 ASP.NET平台的三分天下
- 《精通QTP——自动化测试技术领航》—第1章1.8节数据池(Data Table)的应用
- 20+ 个JavaScript技术 -- 善于利用,可提升自己的开发效率(ES7-ES12新特性1w+字汇总,总有你需要的)
- 软件项目技术点(4)——实现点击选中画布上元素
- 智能家居的蓝海征途,唯技术之帆可行
- 《Spark大数据处理:技术、应用与性能优化》——1.2 Spark生态系统BDAS
- 视频监控热成像技术在民用领域的广泛应用
- 利用大数据技术探索“数字公民”创新
- 基于webRTC技术 音频和视频,IM解
- 数字签名和数字证书技术简介(两)
- 攻击者是如何利用“隐写技术”的?
- 成长中的中国云企业 容器技术实现弯道超车
- 肯尼亚Sidian Bank 利用 IBM 云和认知技术加速数字化转型
- 我国5G技术研发试验第二阶段技术规范正式发布
- 向PE文件植入后门代码技术讨论