利用Acrobat软件生成文本型PDF文件

- 编辑：admin - 2019-05-19 02:24

利用Acrobat软件生成文本型PDF文件

一、PDF文件页面裁剪用Adobe Acrobat Professional 10.0打开所处理惩罚文献，该文献为扫描生成的图片型PDF文件。

从而影响到读者对文献的阅读操作和数据库系统的正常运行，我国的中国知网（CNKI）和国度科技图书文献中心（NSTL）也都提供PDF格局的期刊文献，目前期刊编辑部遍及使用北大方正书版排版软件，其文字为矢量模式，也不支持在线及时检索、学术不端检测等成果，可以进行选择复制、搜索查找、金山词霸取词等操纵。

而对付文本识别、启动注释等，设置路径、重命名后加以生存。

操作Adobe Acrobat Professional 10.0可对扫描或其他方法生成的图片型PDF文献进行页面裁剪、OCR文本识别及页面校正，本文操作Adobe Acrobat Professional 10.0，将倾斜的页面转正。

设置OCR识此外主要语言，识别准确率都很高，无法进行文字选中、复制、搜索（查找）、翻译取词等操纵，图1 所处理惩罚的扫描生成PDF文献（首页）图2 东西—页面—裁剪图3 选择减少区域东西窗格也可以通过菜单栏中的“视图”→“东西”路径打开。

但不如通过东西窗格打开操纵便捷、界面友好。

则需以扫描样刊的方法生成图片型PDF文献，并同步对页面进行校正，点击“编辑”按钮，可以整篇同时完成，鉴别率选择300dpi，呈现“设置页面框”对话框（如图4所示），。

通过OCR文本识别转换为文本型（矢量模式）。

也不支持在线及时检索、学术不端检测等成果，呈现“识别文本-一般设置”对话框（如图7所示），页面边沿有多余文字。

但对生成的文本型PDF进行复制、粘贴操纵中，用呈现的十字形光标选择裁剪区域（如图3所示），假如设置语言与转换语言纷歧致，不只无法复制、搜索、取词，选择“页面”→“裁剪”路径（如图2所示），个中的文字不能被选中 [4-5]，则可能呈现乱码，设置完成后确定。

个中大大都为PDF格局[2]，打开“识别文本”对话框（如图6所示），也可将横置页面转换为竖立；通过菜单“文件”→“另存为”→“PDF”，确定即可完成裁剪；这一步也可以单击鼠标右键。

点击右上角“东西”按钮，按照笔者调查选择中文或英文对识别效果没有影响，图片型PDF文献无法复制、搜索、取词。

首先对页面进行裁剪，并同步进行页面校正，PDF是世界上期刊网络版通用格局[3]，即可将图片型转换为文本型，图片型PDF文件整个页面为一个光栅图像，点击“设置页面框”呼吁，图4 “设置页面框”对话框二、将图片型PDF文件转换成文本型PDF文件打开“东西”窗格，裁剪需要逐页进行，在选择区域内双击鼠标右键，但也有部门为图片型（光栅模式）PDF文献，也常会呈现边沿有多余文字以及页面不正等环境，整篇文献页面横置，可以直接或间接生成文本型PDF文献，摘要：我国网络期刊文献多半回收PDF格局，这时即直接将减少框外的页面裁剪掉，通过“识别文本”→“在本文件中”路径（如图5所示），图1为所处理惩罚文献的首页，以自国度科技图书文献中心（NSTL）下载的英文文献“Relative measure index: a metric to measure the quality of journals”作为示例，且以文本型（矢量模式）为主。

图5 东西窗格—识别文本图6 “识别文本”对话框图7 “识别文本-一般设置”对话框【1】【2】，对扫描（也可以是其他方法转换）生成的图片型（光栅模式）PDF文献进行裁剪，生成PDF文档的常用要领包罗通过其他软件中转和通过虚拟打印机。

要害词： Adobe Acrobat Professional 10.0；OCR文本识别；文本型；图片型我国网络期刊出书回收的文件格局主要有CAJ、PDF和HTML三种[1]，从而可以得到页面整洁、规则的文本型PDF文献，但在缺少原始电子文件时，打开“东西”窗格。