如何从 PDF 中提取突出显示的文本作为文本文件?

突出显示PDF文档中的文本可以方便地标记您以后可以快速访问的重要区域。您可以使用Microsoft Edge 突出显示 PDF(Microsoft Edge to highlight PDF) 或任何其他带有PDF突出显示功能的软件。有时,您可能还觉得只需要突出显示的文本,这样您就可以获得包含所有基本文本的PDF概要。(PDF)如果您正在寻找一些方法来仅将PDF中突出显示的文本保存为TXT文件,那么这篇文章可能会有所帮助。

从 PDF 中提取突出显示的文本

有一些免费软件和服务可以从PDF文件中提取突出显示的文本并将其保存为文本文件:

  • PDF 高光提取器
  • 福昕阅读器
  • Sumnotes.net
  • DyAnnotationExtractor。

让我们一一检查这些PDF Highlight Extractor软件。(PDF Highlight Extractor)

1] PDF高亮提取器

PDF Highlight Extractor 软件

PDF Highlight Extractor是从PDF文件中提取突出显示文本的最简单的选项之一。这个开源的(open-source) PDF 文本高亮提取器(PDF text highlight extractor)有两个引人注目的功能。您可以在软件界面上预览高亮显示(preview highlighted text)的 PDF 文本。

第二个功能是您可以设置开始或结束页面或页面范围来提取文本(set start or end page or page range to extract the text)。因此,您可以定义页码来获取突出显示的文本,而不是扫描整个PDF 。

另一个不错的功能是您可以选择将文本保存为纯文本(save text as plain text)Excel 文件(Excel file)

在其界面上,使用给定选项添加您的PDF文件,然后按提取(Extract)按钮。如果要设置页面范围或保持原样,请取消选中所有页面选项。(All Pages)获取文本后,您可以预览它。最后,按文本(Text)Excel按钮保存突出显示的文本。

你可以从这里(here)下载这个软件。使用这个软件也需要Java 。因此,安装Java(如果尚未安装)并执行此软件以供使用。

2]福昕阅读器

从 PDF 中提取突出显示的文本

Foxit Reader 是最好的免费 PDF 阅读器之一。您可以在单独的选项卡中打开多个PDF文件、突出显示PDF、添加注释、导出评论(export comments)添加签名(add signatures)等。在巨大的功能列表中,从PDF中提取突出显示的文本也在那里。此功能的最佳部分是它还可以将页码与提取的文本一起保存(saves page numbers along with the extracted text)

要从PDF中获取突出显示的文本,请在其界面上打开PDF文件,然后访问“评论(Comment)”选项卡。在该选项卡中,单击“管理评论(Manage Comments)”部分中的“导出(Export)”选项。您将看到突出显示的文本(Highlighted Text)选项。使用该选项,然后您可以将所有突出显示的文本保存为文本文件。

(Here)是该软件的下载链接。在安装过程中,您应该选择自定义安装(custom installation)以仅包含此软件所需的组件。

3] Sumnotes.net

总结

Sumnotes.net是一项免费服务,可让您注释PDF以及提取突出显示的文本。所有突出显示的文本都在左侧边栏中单独可见。使用该侧边栏,您还可以删除不需要的突出显示文本,(remove highlighted text that you don’t need)然后下载其余突出显示的文本。

在下载高亮文本之前,您还可以包含页码并排除(exclude)特定颜色(highlighted text of specific color)的高亮文本。

您还可以选择将PDF 中突出显示的文本另存为 Excel(save highlighted text from PDF as Excel)Word文件。所以,功能还是不错的。您可以注册一个免费计划,然后每次下载(per download)提取 50 个亮点(extract 50 highlights)或注释,这在大多数情况下就足够了。

(Here)是其主页的链接。要从PDF中提取突出显示的文本,请从 PC 或Google Drive添加PDF上传PDF(PDF)后,左侧可以看到注释和突出显示的文本。使用下载注释(Download Annotations)选项,然后您可以将突出显示的文本保存为TXTXLSXDOC格式文件。

4] DyAnnotationExtractor

DyAnnotationExtractor 命令行软件

DyAnnotationExtractor软件可以帮助您从 PDF 文档中提取突出显示的文本和注释。(comments)它是一个命令行(command-line)软件,但使用起来非常简单。只需一个命令即可获取输入PDF文件中突出显示的文本。

您可以使用此链接(this link)获取此软件。下载(Download)ZIP文件,然后解压缩。为了更容易运行命令,您还应该将PDF放在您提取此软件的同一文件夹中。之后,在该文件夹中打开命令提示符(Command Prompt)窗口。您可以通过在该文件夹的地址框中键入cmd然后按Enter键来执行此操作。

打开CMD(CMD)窗口后,添加本软件的BAT文件、输入命令,包括输入PDF的路径、输出命令、输出文件的名称以及 '.txt' 扩展名。完整的命令将是 -

DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt

执行命令。等待(Wait)几秒钟,纯文本文件将准备就绪,其中包含从该PDF中提取的所有突出显示的文本和注释。输出文件保存在同一输入文件夹中。

因此,您可以使用这些选项从PDF中提取突出显示的文本,然后将输出保存为文本文件。希望(Hope)这些帮助。



About the author

我是一名全职软件工程师,在使用 Windows 和 Mac 软件方面拥有超过 10 年的经验。我知道如何在两个平台上设计、测试和部署应用程序。我也有安全和系统管理方面的经验。我的技能和知识可以帮助您构建更好、更高效的计算机系统。



Related posts