提出一种新的在线数据清洗方法:将确认为干净的参照表中的记录字符串映射成高维空间中的点后进行聚类划分,然后利用B+树对划分中的点进行索引从而将高维空间的查询转换成一维空间的范围查询。输入表中的元组利用索引采用分枝限界策略搜索KNN(K Nearest Neighbors)记录从而完成与其最匹配记录的识别。理论分析和实验表明这是一种解决在线数据清洗的有效途径。
笑话军事旅游美容女性百态母婴家电游戏互联网财经美女干货家饰健康探索资源娱乐学院 数码美食景区养生手机购车首饰美妆装修情感篇厨房科普动物植物编程百科知道汽车珠宝 健康评测品位娱乐居家情感星座服饰美体奢侈品美容达人亲子图库折扣生活美食花嫁风景 | 首页 |
提出一种新的在线数据清洗方法:将确认为干净的参照表中的记录字符串映射成高维空间中的点后进行聚类划分,然后利用B+树对划分中的点进行索引从而将高维空间的查询转换成一维空间的范围查询。输入表中的元组利用索引采用分枝限界策略搜索KNN(K Nearest Neighbors)记录从而完成与其最匹配记录的识别。理论分析和实验表明这是一种解决在线数据清洗的有效途径。