编码机

HS编码智能归类的思考海关内的应用

发布时间:2023/6/20 22:35:14   

一、应用场景

HS编码智能归类的应用场场景归纳为2大类:

1)海关内场景是稽查用,主要针对企业申报的数据进行正确性排查和风险提示。

2)企业的应用场景一般是对具体的商品实物进行归类。

这2个最大的区别是海关内的应用是已经有了“编码、申报要素、商品描述”这三个内容,模型要对这3个输入的内容,反馈一个是否正确的结果,或者是错误的概率大小。而企业的应用是有商品的描述和申报要素,寻找最合适的编码。即:

二、海关应用场景的目标

目标是针对进口商品的报关单,利用模型去自动识别报关编码的准确性,尤其是挑选出有逃税嫌疑的报关单。

海关应用场景和目标

三、浅谈实现逻辑

scmfa法分词

s代表非主要关键词,仅用于相似度算法参考。比如品牌等描述

c代表商品名,用于根据商品名归类的章节,比如鸵鸟、绵羊、空调、手机、电视等

m代表材料,用于根据材质归类的章节,比如塑料、钢铁、化纤、涤纶等

f代表功能,用于根据功能和用途归类的章节,比如旅行、洗漱、梭织、机织

a代表零配件,比如零件、附件、配件。

cmfa分词,必须在标准分词库里

分词优先级标注:

9代表优先级最高。比如“鲜、冷鱼,但品目03.04的鱼片及其他鱼肉除外”,则里的鱼片和鱼肉,优先级会提升到9,其余的优先级都是5.

5代表优先级普通

1代表优选级最差

分词来源标注:

1代表G_NAME里出现的

2代表子目注释里出现的

3代表章注、类注的

4代表历史归类库里的

下面是实现该模型的几种方法思考,对比“新通关网”的智能归类:

1)商品名称匹配法

报关商品名称正好和商品编码书的某个商品编码(HSCODE)完全一致或者基本一样,例如:冻牛舌就有专门的编码,冻牛肝是),但作为一个编码库,不可能囊括世界上所有的商品名称,而且,同样的货物各自的叫法还不尽相同,所以“商品名称匹配法”需要尽可能地针对每个编码整理出类似叫法的俗称,并给这些俗称做上关联。即最终要形成尽可能大的商品名称库。

实现步骤:

1.1)整理商品库,并和编码做上关联

1.2)利用分词技术,把商品词语从“报关单上的商品描述”里分离出来,匹配出编码

1.3)根据编码结果和“报关单上的编码”进行比较

1.4)给出风险提示结果

2)商品用途归类法

如果货物的名称并没有明确对应的编码时,就要考虑它的用途和功能,按照这个用途去找对应的归类,例如:格力分体2匹空调,属于机器类的,就到84章去找,然后到空气调节器里面找,然后找到1021.00(制冷量≤4千大卡/时分体式空调)。

实现步骤:

2.1)从97个章节里,挑选出哪几章是属于重点按用途归类的

2.2)根据历史报关数据,整理出尽可能多的商品描述,比如机器类属于84章,我们从历史报关数据里,把84章的数据挑选出来,利用词语挖掘技术,把涉及到的相关商品名称整理出来,依然是形成商品词库。

2.3)后续流程和1.2操作相同。

3)商品材质判断法

如果某个商品描述里有几种成分组成,而且没有一个对应的编码正好和这个成品名称对应,要按照构成这个成品基本特征的材料或部件归类。例如:铁制晒衣架,没有具体对应的编码,从用途上也找不到这种具体的用途,只有从材料上入手,钢铁制品73章,其他钢铁制品,用2090.00(非工业用钢铁丝制品)或者9090.00(其他非工业用钢铁制品)都可以。

实现步骤:

3.1)类似于按用途归类,先找出重点根据成分归类的章节

3.2)通过历史数据,挖掘成分材质相关的词语

3.3)根据分词技术,后续逻辑一样

4)类目、子目注释剔除法

商品归类通过商品名称、商品用途、商品材质等方法,会存在一定的交叉重叠的情况,每个类目、章节、子目都有明确的“不包含项”。比如:第十六类注释一“本类不包含第八十二章或第八十三章的物品;不包含第十七类的商品;”等等。需要归纳出剔除项,进行归类错误的纠正。

实现步骤:

4.1)梳理所有的注释,把“不包含项”整理成数据库表

4.2)结合“商品库、成分材质库”进行非包含逻辑判断

4.3)一旦命中非包含词库,即返回风险提示。

5)编码描述逻辑判断法

在“子目注释”的后面是“8位数本国子目注释”,往往包含了大量的逻辑分类。比如:85.04变压器、静止式变流器(例如,整流器)及电感器:

10—放电灯或放电管用镇流器

—液体介质变压器:

21——额定容量不超过千伏安

22——额定容量超过千伏安,但不超过10兆伏安

23——额定容量超过10兆伏安

—其他变压器:

31——额定容量不超过1千伏安

32——额定容量超过1千伏安,但不超过16千伏安

33——额定容量超过16千伏安,但不超过千伏安

34——额定容量超过千伏安

该类逻辑需要采用人海战术,把1万多个编码进行全面梳理,摘录出逻辑归类,写进模型的算法中。

实现步骤:

5.1)定义逻辑运算符

5.2)定义判断条件

5.3)定义值域

5.4)人工梳理所有编码涉及到的申报要素项目和关联逻辑

5.5)根据客户填写的“申报要素”,和逻辑值进行比对,如果不符合,提示风险。



转载请注明:http://www.aideyishus.com/lkyy/4997.html
------分隔线----------------------------