代码视界

Hanpeng Chen的个人博客

中文分词

中文分词(Chinese Word Segmentation):是指将一个汉字序列切分为一个个单独的词。中文分词是中文自然语言处理的一个最基本的环节。中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的...

文本挖掘预处理之TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency)即“词频-反文档频率”,主要由TF和IDF两部分组成。TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术,是一种统计方法,用于评估一...

K-近邻(KNN)算法

K-近邻(KNN,K-Nearest Neighbor)算法是一种基本分类与回归方法,在机器学习分类算法中占有相当大的地位,既是最简单的机器学习算法之一,也是基于实例的学习方法中最基本的,又是最好的文本分类算法之一。 我们本篇文章只讨...