新闻文本聚类

写在前面

聚类的基本方法

密度聚类(Density-based Clustering)假设聚类结构能够通过样本分布的紧密程度来确定。DBSCAN是常用的密度聚类算法,它通过一组邻域参数(ϵϵ,MinPtsMinPts)来描述样本分布的紧密程度。给定数据集DD={x⃗ 1,x⃗ 2,x⃗ 3,...,x⃗ Nx→1,x→2,x→3,...,x→N},数据集属性定义如下。

ϵϵ-邻域:Nϵ(x⃗ i)Nϵ(x→i)={x⃗ j∈D|distance(x⃗ i,x⃗ j)x→j∈D|distance(x→i,x→j)≤ϵ≤ϵ},Nϵ(x⃗ i)Nϵ(x→i)包含了样本集DD中与x⃗ ix→i距离不大于ϵϵ的所有样本。

核心对象core object:若|Nϵ(x⃗ i)Nϵ(x→i)|≥MinPts≥MinPts,则称x⃗ ix→i是一个核心对象。即:若x⃗ ix→i的ϵϵ-邻域中至少包含MinPtsMinPts个样本,则称x⃗ ix→i是一个核心对象。

密度直达directly density-reachable:若x⃗ ix→i是一个核心对象,且x⃗ j∈x→j∈Nϵ(x⃗ i)Nϵ(x→i),则称x⃗ jx→j由x⃗ ix→i密度直达,记作x⃗ ix→i–>x⃗ jx→j。

密度可达density-reachable:对于x⃗ ix→i和x⃗ jx→j,若存在样本序列(p⃗ 0,p⃗ 1,p⃗ 2,...,p⃗ m,p⃗ m+1p→0,p→1,p→2,...,p→m,p→m+1),其中p⃗ 0p→0=x⃗ ix→i,p⃗ m+1p→m+1=x⃗ jx→j,p⃗ s∈D,s=1,2,...,mp→s∈D,s=1,2,...,m。如果p⃗ s+1p→s+1由p⃗ s,s=1,2,...,mp→s,s=1,2,...,m密度直达,则称x⃗ jx→j由x⃗ ix→i密度可达,记作x⃗ ix→i~>x⃗ jx→j。

密度相连density-connected:对于x⃗ ix→i和x⃗ jx→j,若存在x⃗ kx→k,使得x⃗ ix→i和x⃗ jx→j均由x⃗ kx→k密度可达,则称x⃗ jx→j由x⃗ ix→i密度相连,记作x⃗ ix→i~x⃗ jx→j。
  DBSCAN算法的定义:给定邻域参数(ϵϵ,MinPtsMinPts),一个簇C⊆DC⊆D是满足下列性质的非空样本子集:

接性connectivity:若x⃗ i∈C,x⃗ j∈Cx→i∈C,x→j∈C,则x⃗ ix→i~x⃗ jx→j
大性maximality:若x⃗ i∈Cx→i∈C,且→xi→xi~>x⃗ jx→j,则x⃗ j∈Cx→j∈C
即一个簇是由密度可达关系导出的最大的密度相连样本集合。

语义增强

根据CosDistance([苹果]) + CosDistance([香蕉]) + CosDistance([西瓜]) 升幂排序

语义消歧

根据CosDistance([苹果]) + CosDistance([香蕉]) - 2*CosDistance([微软]) 升幂排序

参考文献