新闻特征向量的建立

· · 科技·工程

特征向量的建立

为了做这件事,我们要弄清一个现实:

那我们要怎么办呢。。。

计算机只能“算”新闻而没法“读”新闻,所以要先把一篇篇“新闻”量化成计算机看得懂的『数据』,再用我们提到的算法来搞清楚他们的相似度如何。

于是问题的关键变成了怎么用一组数据描述一则新闻。

先看看新闻这种文学体裁有什么特点。

这么来看,不同主题的新闻用词应该不太一样。

比如说,题为『黑神话入选时代杂志最佳游戏』(这事是真的) 的新闻中,出现『GDP』、『民意』、『戒严』、『在野党』是几乎不可能的,而题为『尹锡悦支持率降至13%』(这也是真的2333) 的新闻,出现『中华文化』、『西游记』、『文化输出』、『国产3A』也很不可能。

那就好办了。

一个最朴素的想法是把新闻中每一个“词”的词频统计出来,然后每个词对应一个数,所有数用一个向量打包,就可以算了。

事实上呢?前辈们确实是这么办的。很酷。

怎么统计词频

我们有必要新来一篇文章了。这里