两步聚类 发表评论(0) 编辑词条
优势:编辑本段回目录
能同时处理连续变量和分类变量
可以根据指定的判别准则自动选择聚类的个数,也可以自己指定
可以有效的分析大样本数据
原理:编辑本段回目录
1 构建聚类特征树(CFT),开始时,把某个观测量放在树的根节点处,它记录有该观测量的变量信息,然后根据指定的距离测度作为相似性依据,使每个后续观测量根据它与已有节点的相似性,放到最相似的节点中,如果没有找到某个相似性的节点,就为它形成一个新的节点。
2 使用凝聚聚类法对聚类特征树的节点进行分组,它通过比较BIC AIC ,确定最优的聚类个数
构建CFT树时,如果指定了聚类个数等变量,而观测量又很多的话,可能发生CFT树长满不能再生长的情况,那些没有长在树上的观测叫做噪声(noise),可以调整参数重新计算让CFT树可以容纳更多的观测,也可以把它们直接归入某个类或者直接丢弃。被丢弃的观测量生物称为局外者(outlier)。
附件列表
→如果您认为本词条还有待完善,请 编辑词条
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
3
收藏到:
同义词: 暂无同义词
关于本词条的评论 (共0条)发表评论>>