代码视界

Hanpeng Chen的个人博客

文本挖掘预处理之TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency)即“词频-反文档频率”,主要由TF和IDF两部分组成。TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术,是一种统计方法,用于评估一...

K-近邻(KNN)算法

K-近邻(KNN,K-Nearest Neighbor)算法是一种基本分类与回归方法,在机器学习分类算法中占有相当大的地位,既是最简单的机器学习算法之一,也是基于实例的学习方法中最基本的,又是最好的文本分类算法之一。 我们本篇文章只讨...