17-大模型(LLMs)RAG 版面分析——表格识别方法篇.pdf

17-大模型(LLMs)RAG 版面分析——表格识别方法篇.pdf_第1页
17-大模型(LLMs)RAG 版面分析——表格识别方法篇.pdf_第2页
17-大模型(LLMs)RAG 版面分析——表格识别方法篇.pdf_第3页
大模型(LLMs)RAG版面分析——表格识别方法篇来自:AiGC面试宝典宁静致远2024年03月19日22:30一、为什么需要识别表格?表格的尺寸、类型和样式展现出多样化的特征,如背景填充的差异性、行列合并方法的多样性以及内容文本类型的不一致性等。同时,现有的文档资料不仅涵盖了现代电子文档,也包括历史的手写扫描文档,这些文档在样式设计、光照条件以及纹理特性等方面存在显著差异。因此,表格识别一直是文档识别领域的重大挑战。下图所示为一个示例:注:左上:有颜色背景的全线表,右上:少线表,左中:无线表,左下:有复杂表格线条样式的表格,右下:拍照得到的手写历史文档。二、介绍一下表格识别任务?•大模型(LLMs)RAG版面分析——表格识别方法篇•一、为什么需要识别表格?•二、介绍一下表格识别任务?•三、有哪些表格识别方法?•3.1传统方法•3.2pdfplumber表格抽取•3.2.1pdfplumber如何进行表格抽取?•3.2.2pdfplumber常见的表格抽取模式?•3.3深度学习方法-语义分割•3.3.1table-ocr/table-detect:票据图片复杂表格框识别(票据单元格切割)•3.3.2腾讯表格图像识别•3.3.3TableNet•3.3.4CascadeTabNet•3.3.5SPLERGE•3.3.6DeepDeSRT•致谢扫码加查看更多表格识别包括表格检测和表格结构识别两个子任务。表格识别过程可细分为两个关键步骤:三、有哪些表格识别方法?3.1传统方法利用规则指导和图像处理技术,执行如下步骤以识别结构:3.2pdfplumber表格抽取参考:https://github.com/jsvine/pdfplumber#extracting-tables3.2.1pdfplumber如何进行表格抽取?•表格定位(TableLocalization):此阶段涉及识别并划定表格的整体边界,采用的技术手段包括但不限于目标检测算法,如YOLO、FasterRCNN或MaskRCNN,甚至有时借助生成对抗网络(GAN)来精确勾勒出表格的外在轮廓。•表格元素解析与结构重建(TableElementParsingandStructureReconstruction):•表格单元格划分(CellDetection):这一子任务着重于识别和区分表格内部的各个单元格,不论它们是由连续线条完全包围还是部分包围,抑或是无明显线条分隔。•表格结构理解(TableStructureUnderstanding):在此环节中,系统深入分析表格区域以提取其中的数据内容及其内在逻辑关系,明确行与列的分布规律以及单元格之间的层次关联,最终实现对表格原始结构的高度准确复原。1.应用腐蚀与膨胀算法来细化和增强目标区域边界特征。2.通过分析像素连通性,确定并标记图像中的各个显著区域。3.实施线段检测和直线拟合技术,精确描绘出图像内的线性结构元素。4.计算这些线性结构之间的交点,以此构建可能的边框或连接关系网络。5.合并初步检测到的边界框(猜测框),运用智能合并策略减少冗余并提高精度。6.根据尺寸筛选优化,剔除不符合预期大小条件的候选区域,从而获得更为准确的目标识别结果。1.因为表格及单元格都是存在边界的(由可见或不可见的线表示),所以第一步,pdfplumber是找到可见的或猜测出不可见的候选表格线。2.因为表格以及单元格基本上都是定义在一块矩形区域内,所以第二步,pdfplumber是根据候选的表格线确定它们的交点。根据得到的交点,找到它们围成的最小的单元格。把连通的单元格3.2.2pdfplumber常见的表格抽取模式?3.3深度学习方法-语义分割3.3.1table-ocr/table-detect:票据图片复杂表格框识别(票据单元格切割)https://github.com/chineseocr/table-ocrhttps://github.com/chineseocr/table-detect3.3.2腾讯表格图像识别github:https://github.com/tommyMessi/tableImageParser_tx3.3.3TableNet整合到一起,生成一个检测出的表格对象。•lattice抽取线框类的表格1.把pdf页面转换成图像2.通过图像处理的方式,从页面中检测出水平方向和竖直方向可能用于构成表格的直线。3.根据检测出的直线,生成可能表格的boundingbox4.确定表格各行、列的区域5.根据各行、列的区域,水平、竖直方向的表格线以及页面文本内容,解析出表格结构,填充单元格内容,最终形成表格对象。•stream抽取非线框类的表格6.通过pdfminer获取连续字符串(串行)7.通过文本对齐的方式确定可能表格的boundingbox(文...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

发表评论取消回复

参与评论可获取积分奖励  
微风舍
实名认证
内容提供者

微风舍,风起于青萍之末,浪成于微澜之间,舍是漏舍,唯吾德馨。

确认删除?
回到顶部