如何在Linux中使用命令行将PDF文件转换为可编辑的文本

00_lead_image_pdf_to_text

有多种原因可能需要将PDF文件转换为可编辑的文本。 也许你需要修改一个旧的文档,你所有的是它的PDF版本。 在Windows中转换PDF文件很容易 ,但是如果你使用Linux?

别担心。 我们将向您展示如何使用名为pdftotext的命令行工具将PDF文件转换为可编辑的文本,这是“poppler-utils”包的一部分。 此工具可能已安装。 要检查系统上是否安装了pdftotext,请按“Ctrl + Alt + T”打开终端窗口。 在提示符处键入以下命令,然后按“Enter”。

dpkg -s poppler-utils

注意:当我们在本文中输入内容并且文本中有引号时,除非我们另有规定,否则不要键入引号。

01_checking_for_poppler_utils

如果未安装pdftotext,请在提示符处键入以下命令,然后按“Enter”。

sudo apt-get install poppler-utils

在提示时键入密码,然后按“Enter”。

02_installing_poppler_utils

poppler-utils包中有几个工具可用于将PDF转换为不同格式,处理PDF文件和从文件中提取信息。

03_utilities_in_poppler_utils

以下是将PDF文件转换为可编辑文本文件的基本命令。 按“Ctrl + Alt + T”打开终端窗口,在提示符下键入命令,然后按“Enter”。

pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

更改每个文件的路径以对应于原始PDF文件的位置和名称,以及要保存生成的文本文件的位置。 此外,更改文件名以对应于文件的名称。

04_running_pdftotext

文本文件已创建,可以像在Linux中打开任何其他文本文件一样打开。

05_text_file_created

转换的文本在您不想要的地方可能有换行符。 换行符插入PDF文件中每行文本后面。

06_converted_text_file_in_editor

您可以使用“-layout”标志从转换的文本文件中的原始PDF文件保留文档的布局(页眉,页脚,分页等)。

pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

06a_converting_using_layout

如果只想转换PDF文件中的一系列页面,请使用“-f”和“-l”(小写“L”)标志来指定要转换的范围中的第一页和最后一页。

pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

07_converting_page_range

要转换使用所有者密码保护和加密的PDF文件,请使用“-opw”标志(标志中的第一个字符是小写字母“O”,而不是零)。

pdftotext -opwpassword/home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

将“密码”更改为用于保护正在转换的原始PDF文件的密码。 确保在“密码”周围有单引号,而不是双引号。

08_converting_pdf_with_password

如果PDF文件受保护并使用用户密码加密,请使用“-upw”标志而不是“-opw”标志。 其余的命令是一样的。

09_converting_pdf_with_user_password

您还可以指定应用于转换文本的行尾字符的类型。 如果您计划在不同的操作系统(如Windows或Mac)上访问该文件,这将尤其有用。 为此,使用“-eol”标志(标志中的中间字符是小写字母“O”,而不是零),后跟一个空格和要使用的行尾字符类型(“ unix“,”dos“或”mac“)。

10_converting_pdf_with_eol_format

注意:如果不为文本文件指定文件名,pdftotext将自动使用PDF文件名的基础,并添加“.txt”扩展名。 例如,“file.pdf”将被转换为“file.txt”。 如果文本文件指定为“ - ”,则转换的文本将发送到stdout,这意味着文本显示在终端窗口中,而不保存到文件。

要关闭“终端”窗口,请单击左上角的“X”按钮。

有关pdftotext命令的更多信息,请在终端窗口中的提示处键入“man page pdftotext”。

赞 (1)
分享到:更多 ()