文章摘要
李峰,吴微.英文科技文档识别中数学公式定位新方法[J].,2009,(1):139-143
英文科技文档识别中数学公式定位新方法
A novel localization method for mathematical formula in English scientific document
  
DOI:10.7511/dllgxb200901026
中文关键词: 英文科技文档  图文混排  数学公式  定位
英文关键词: English scientific document  picture-text mixed document  mathematical formula  localization
基金项目:国家自然科学基金资助项目(1047101710871220).
作者单位
李峰,吴微  
摘要点击次数: 1374
全文下载次数: 1547
中文摘要:
      提出了一种自底向上和自顶向下相结合的定位英文科技文档图像中数学表达式的新方法.首先,利用整幅图像的统计数据计算出用于分类的基准参数,然后利用局部极大成分的水平投影数据进行初步行分割,再利用每行的竖直投影数据将每行的符号分成数个子区域.对每一个子区域依据其性质利用基准参数进行分类,通过对特定类别子区域的适当合并,最终得到文档图像中公式的位置.新方法可以用于处理图文混排的文档图像,能够降低文档中的图片、表格等元素对于公式定位结果的影响.
英文摘要:
      A novel bottom-up and top-down mixed method for the localization of mathematics formulas in English scientific document image is proposed. Firstly, a benchmark parameter is calculated using the statistic data of the whole document image. Secondly, the document image is divided into lines with horizontal project data of local-maximum components in the image and each line is divided into some sub-regions in terms of the vertical projection data. These sub-regions are classified in terms of the benchmark parameter. Finally, the locations of formulas in the document image are obtained by suitably merging certain specific regions. The novel method can be used for picture-text mixed documents and can reduce the effect of the pictures and forms in the document image on mathematical expression localization.
查看全文   查看/发表评论  下载PDF阅读器
关闭