自然语言处理起源马尔科夫和香农的语言建模_编码机优势

当前位置： 编码机 >> 编码机优势 >> 自然语言处理起源马尔科夫和香农的语言建模

自然语言处理起源马尔科夫和香农的语言建模

发布时间:2023/6/14 13:22:27

选自towardsdatascience

作者：RaimiKarim

机器之心编译

参与：王子嘉、GeekAI

语言建模和文本生成是当下自然语言处理领域非常火热的两个研究课题。而早在百年以前，科学巨匠马尔科夫和香农就对此进行了初步的探索......

年，俄国数学家安德烈·安德烈耶维奇·马尔科夫（AndreyAndreyevichMarkov）坐在他圣彼得堡的书房里，手里拿着当时的文学巨著——普希金（AlexanderPushkin）在19世纪创作的诗歌小说《尤金·奥涅金》（EugeneOnegin）。

但是马尔科夫并没有真的在读这篇著名的文章，而是拿起了一支笔和一张草稿纸，去掉了这本书的前2万个字母中所有的标点符号和空格，记成了一长串字母。然后，他又把这些字母放进了个网格中（每个网格有10×10个字符），并对每行每列中元音的数量进行统计，然后将这些结果进行了整理。

对于不知情的旁观者来说，马尔科夫的举止略显诡异。为什么有人会以这种方式解构一部文学天才的作品，而且是解构成这种无法被理解的形式？

事实是，马尔科夫读这本书并不是为了学习与生活和人性有关的知识，他是在寻找文本中更基本的数学结构。

之所以要分离元音和辅音，是因为马尔科夫正在测试他从年就一直在研究的概率论研究（

转载请注明:http://www.aideyishus.com/lkgx/4904.html

------分隔线----------------------------