科研项目

项目名称    跨语言文本复制检测研究(60903123)
项目来源    国家自然科学基金项目
起始时间    2010-1~
项目经费    19万元
项目类别    纵向项目
状态    进行中
项目优势   
技术优势   
可行性   
简介    在网络环境下保护电子文本知识产权,打击非法复制、剽窃论文等不端学术行为,是当前亟待解决的一个热点问题。现有文本复制检测方法不能有效检测从英文翻译到中文这种翻译型的文本剽窃。项目将要研究在网络条件下多语言文本混杂、无结构文本和半结构文本混杂的情况下,如何高效、快速检测各种类型雷同文本。包括:基于双语本体的翻译型无结构自然语言文本复制检测方法,基于小波变换提取结构特征的半结构文本复制检测,面向网络服务的主动式文本复制检测体系模型。研究方案的特色在于:(1)不需要对文本进行机器翻译,而是根据双语本体把中英文字词转变为概念,然后依据概念集序列检测文本复制。(2)提出比较全面、主动、快速的文本复制检测策略和体系模型。本项目的研究对于文本挖掘、文本相似性度量和自然语言处理具有很大理论意义,对于保护电子文本知识产权,打击论文造假,端正学术风气具有重要的应用价值和社会意义。