如何统计词频

· · 科技·工程

终于可以开讲新闻分类了

考虑统计一篇新闻中所有词的加权词频,然后按词典表的顺序列一个六万多维的向量。不难想象,和新闻主题相关性高的词,其加权词频会很大,向量的方向也将主要由这些参数决定。

对新闻“向量化”后,计算新闻的相似性也就成了可能。

接下来的算法可分为两种。