当前位置: 编码机 >> 编码机介绍 >> HS编码智能归类的思考海关内的应用
一、应用场景
HS编码智能归类的应用场场景归纳为2大类:
1)海关内场景是稽查用,主要针对企业申报的数据进行正确性排查和风险提示。
2)企业的应用场景一般是对具体的商品实物进行归类。
这2个最大的区别是海关内的应用是已经有了“编码、申报要素、商品描述”这三个内容,模型要对这3个输入的内容,反馈一个是否正确的结果,或者是错误的概率大小。而企业的应用是有商品的描述和申报要素,寻找最合适的编码。即:
二、海关应用场景的目标
目标是针对进口商品的报关单,利用模型去自动识别报关编码的准确性,尤其是挑选出有逃税嫌疑的报关单。
海关应用场景和目标三、浅谈实现逻辑
scmfa法分词
s代表非主要关键词,仅用于相似度算法参考。比如品牌等描述
c代表商品名,用于根据商品名归类的章节,比如鸵鸟、绵羊、空调、手机、电视等
m代表材料,用于根据材质归类的章节,比如塑料、钢铁、化纤、涤纶等
f代表功能,用于根据功能和用途归类的章节,比如旅行、洗漱、梭织、机织
a代表零配件,比如零件、附件、配件。
cmfa分词,必须在标准分词库里
分词优先级标注:
9代表优先级最高。比如“鲜、冷鱼,但品目03.04的鱼片及其他鱼肉除外”,则里的鱼片和鱼肉,优先级会提升到9,其余的优先级都是5.
5代表优先级普通
1代表优选级最差
分词来源标注:
1代表G_NAME里出现的
2代表子目注释里出现的
3代表章注、类注的
4代表历史归类库里的
下面是实现该模型的几种方法思考,对比“新通关网”的智能归类:
1)商品名称匹配法
报关商品名称正好和商品编码书的某个商品编码(HSCODE)完全一致或者基本一样,例如:冻牛舌就有专门的编码,冻牛肝是),但作为一个编码库,不可能囊括世界上所有的商品名称,而且,同样的货物各自的叫法还不尽相同,所以“商品名称匹配法”需要尽可能地针对每个编码整理出类似叫法的俗称,并给这些俗称做上关联。即最终要形成尽可能大的商品名称库。
实现步骤:
1.1)整理商品库,并和编码做上关联
1.2)利用分词技术,把商品词语从“报关单上的商品描述”里分离出来,匹配出编码
1.3)根据编码结果和“报关单上的编码”进行比较
1.4)给出风险提示结果
2)商品用途归类法
如果货物的名称并没有明确对应的编码时,就要考虑它的用途和功能,按照这个用途去找对应的归类,例如:格力分体2匹空调,属于机器类的,就到84章去找,然后到空气调节器里面找,然后找到1021.00(制冷量≤4千大卡/时分体式空调)。
实现步骤:
2.1)从97个章节里,挑选出哪几章是属于重点按用途归类的
2.2)根据历史报关数据,整理出尽可能多的商品描述,比如机器类属于84章,我们从历史报关数据里,把84章的数据挑选出来,利用词语挖掘技术,把涉及到的相关商品名称整理出来,依然是形成商品词库。
2.3)后续流程和1.2操作相同。
3)商品材质判断法
如果某个商品描述里有几种成分组成,而且没有一个对应的编码正好和这个成品名称对应,要按照构成这个成品基本特征的材料或部件归类。例如:铁制晒衣架,没有具体对应的编码,从用途上也找不到这种具体的用途,只有从材料上入手,钢铁制品73章,其他钢铁制品,用2090.00(非工业用钢铁丝制品)或者9090.00(其他非工业用钢铁制品)都可以。
实现步骤:
3.1)类似于按用途归类,先找出重点根据成分归类的章节
3.2)通过历史数据,挖掘成分材质相关的词语
3.3)根据分词技术,后续逻辑一样
4)类目、子目注释剔除法
商品归类通过商品名称、商品用途、商品材质等方法,会存在一定的交叉重叠的情况,每个类目、章节、子目都有明确的“不包含项”。比如:第十六类注释一“本类不包含第八十二章或第八十三章的物品;不包含第十七类的商品;”等等。需要归纳出剔除项,进行归类错误的纠正。
实现步骤:
4.1)梳理所有的注释,把“不包含项”整理成数据库表
4.2)结合“商品库、成分材质库”进行非包含逻辑判断
4.3)一旦命中非包含词库,即返回风险提示。
5)编码描述逻辑判断法
在“子目注释”的后面是“8位数本国子目注释”,往往包含了大量的逻辑分类。比如:85.04变压器、静止式变流器(例如,整流器)及电感器:
10—放电灯或放电管用镇流器
—液体介质变压器:
21——额定容量不超过千伏安
22——额定容量超过千伏安,但不超过10兆伏安
23——额定容量超过10兆伏安
—其他变压器:
31——额定容量不超过1千伏安
32——额定容量超过1千伏安,但不超过16千伏安
33——额定容量超过16千伏安,但不超过千伏安
34——额定容量超过千伏安
该类逻辑需要采用人海战术,把1万多个编码进行全面梳理,摘录出逻辑归类,写进模型的算法中。
实现步骤:
5.1)定义逻辑运算符
5.2)定义判断条件
5.3)定义值域
5.4)人工梳理所有编码涉及到的申报要素项目和关联逻辑
5.5)根据客户填写的“申报要素”,和逻辑值进行比对,如果不符合,提示风险。