计算机科学与探索 ›› 2012, Vol. 6 ›› Issue (11): 974-984.DOI: 10.3778/j.issn.1673-9418.2012.11.002
杨 丹1,2+,申德荣1,于 戈1,聂铁铮1,寇 月1
YANG Dan1,2+, SHEN Derong1 , YU Ge1, NIE Tiezheng1, KOU Yue1
摘要: 数据空间是一个异构的环境,并且数据及模式具有随时间演化的特性。已有的实体识别技术很少考虑时间信息在识别中所起的作用,并且没有考虑实体随时间演化的特性。针对数据空间中具有时间信息的实体识别,提出了一个四阶段的时间为中心的集合实体识别策略(time-centered collective entity resolution,T-CER)。T-CER在实体识别过程的不同阶段都考虑了时间信息所起的作用,在识别阶段提出了基于时间的聚类算法(time-based clustering,T-Clustering),并使用基于时间的约束对识别结果进行检查,以获得更精确的识别结果。在真实数据集上的大量实验结果表明了T-CER的可行性和有效性。