第八章 千里之行,始于足下 3 .(1 / 1)

加入书签

 上说到,我们成功实现了分词。那么现在,我们输入一个句子,ai就可以对句子进行分词,然后实现解释。那么,新的问题又出现了:解释是成功了,不过句子拆成多个词语的连了。那么问题就来了,怎样识出哪个东是实体,哪个是动作或者修饰的词呢?

么意呢?举个子。

“小猫吃大鱼”,就会分词为“小猫”,“吃”,“大鱼”。这样会成么问题呢?就是ai会认为这个句子是三个没有么相互联系的东:“小猫”,“吃”和“大鱼”。而正常人的理解则是“小猫”这个东正在对“大鱼”这个东进行动作“吃”。

可能有些人对于中文母语的惯性维沉溺过久了,无法刻理解这个子,为么ai会认为这个句子是三个没有么相互联系的东呢?明明就是两个东呀!

那么可以有一个简单的子“盗胠箧斛以量之”。那么,我现在跟你说,这个句子分词为“盗”和“胠”和“箧”“斛”“以”“量”“之”。那么现在请问:这个句子中,有几个实体的东?换上生僻字,使人们易脱离了维惯性,认识到维的本质。当然不能排我的读者中有古文比较好的能看懂,但如果古文比较一都不懂意的,就无法分辨哪些是实体,哪些只是动词或者修饰。这句话中,只有盗贼和箧子是实体。这句话的意是“盗贼开了箱子,并用(积单位)斛来度量它。”那么,在无法理解的前提下,无法分辨哪些是实体则是现在我的ai面临的问题。。

那么问题就来了,怎样识出哪个东是实体,哪个是动作或者修饰的词呢?其实,这个问题也有轮子——前面还没有解释的“实体识”。hanlp中就有这个功能的训练模型。用于提一个句子中的实体。于是,我使用它,成功把句子实体分出为“猫”和“鱼”,而自动识动词“吃”则添加为两个实体的节点之间的关系。

“我棒!”我拍了拍自己的小脸蛋,鼓励了一下自己,寸进有寸进的喜悦呀。天的这一章就到这里啦。

↑返回顶部↑

书页/目录