วิธีแปลงไฟล์ PDF เป็นข้อความที่แก้ไขได้โดยใช้บรรทัดคำสั่งใน Linux
มีสาเหตุหลายประการที่คุณอาจต้องการแปลงไฟล์ PDF เป็นข้อความที่แก้ไขได้ บางทีคุณอาจต้องการแก้ไขเอกสารเก่าและสิ่งที่คุณมีก็คือเวอร์ชัน PDF การแปลงไฟล์ PDF ใน Windows นั้นง่าย แต่ถ้าคุณใช้ Linux?
ไม่ต้องห่วง. เราจะแสดงวิธีแปลงไฟล์ PDF ให้เป็นข้อความที่แก้ไขได้อย่างง่ายดายโดยใช้เครื่องมือบรรทัดคำสั่งชื่อ pdftotext ซึ่งเป็นส่วนหนึ่งของแพ็คเกจ "poppler-utils" เครื่องมือนี้อาจได้รับการติดตั้งแล้ว ในการตรวจสอบว่ามีการติดตั้ง pdftotext บนระบบของคุณหรือไม่ให้กด“ Ctrl + Alt + T” เพื่อเปิดหน้าต่างเทอร์มินัล พิมพ์คำสั่งต่อไปนี้ที่พรอมต์และกด "Enter".
dpkg -s poppler-utils
หมายเหตุ: เมื่อเราพูดเพื่อพิมพ์บางอย่างในบทความนี้และมีเครื่องหมายคำพูดล้อมรอบข้อความห้ามพิมพ์เครื่องหมายคำพูดเว้นแต่ว่าเราจะระบุเป็นอย่างอื่น.
หากไม่ได้ติดตั้ง pdftotext ให้พิมพ์คำสั่งต่อไปนี้ที่พร้อมท์แล้วกด“ Enter”.
sudo apt-get install poppler-utils
พิมพ์รหัสผ่านของคุณเมื่อได้รับแจ้งและกด“ Enter”.
มีเครื่องมือหลายอย่างในแพ็คเกจ poppler-utils สำหรับการแปลง PDF เป็นรูปแบบต่าง ๆ จัดการไฟล์ PDF และดึงข้อมูลจากไฟล์.
ต่อไปนี้เป็นคำสั่งพื้นฐานสำหรับการแปลงไฟล์ PDF เป็นไฟล์ข้อความที่แก้ไขได้ กด“ Ctrl + Alt + T” เพื่อเปิดหน้าต่างเทอร์มินัลพิมพ์คำสั่งที่พร้อมท์แล้วกด“ Enter”.
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
เปลี่ยนพา ธ ไปยังแต่ละไฟล์เพื่อให้สอดคล้องกับตำแหน่งและชื่อของไฟล์ PDF ต้นฉบับของคุณและตำแหน่งที่คุณต้องการบันทึกไฟล์ข้อความผลลัพธ์ นอกจากนี้ให้เปลี่ยนชื่อไฟล์เพื่อให้สอดคล้องกับชื่อไฟล์ของคุณ.
ไฟล์ข้อความถูกสร้างขึ้นและสามารถเปิดได้เช่นเดียวกับที่คุณเปิดไฟล์ข้อความอื่น ๆ ใน Linux.
ข้อความที่แปลงแล้วอาจมีตัวแบ่งบรรทัดในสถานที่ที่คุณไม่ต้องการ ตัวแบ่งบรรทัดจะถูกแทรกหลังข้อความทุกบรรทัดในไฟล์ PDF.
คุณสามารถรักษาเค้าโครงของเอกสารของคุณ (ส่วนหัวท้ายกระดาษหน้า ฯลฯ ) จากไฟล์ PDF ต้นฉบับในไฟล์ข้อความที่แปลงแล้วโดยใช้แฟล็ก“ -layout”.
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
หากคุณต้องการแปลงช่วงของหน้าในไฟล์ PDF ให้ใช้แฟล็ก“ -f” และ“ -l” (ตัวพิมพ์เล็ก“ L”) เพื่อระบุหน้าแรกและหน้าสุดท้ายในช่วงที่คุณต้องการแปลง.
pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
ในการแปลงไฟล์ PDF ที่ได้รับการป้องกันและเข้ารหัสด้วยรหัสผ่านของเจ้าของให้ใช้แฟล็ก“ -opw” (อักขระตัวแรกในแฟล็กคือตัวอักษรตัวเล็ก“ O” ไม่ใช่ศูนย์).
pdftotext -opw 'รหัสผ่าน' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
เปลี่ยน“ รหัสผ่าน” เป็นรหัสที่ใช้เพื่อป้องกันไฟล์ PDF ต้นฉบับที่ถูกแปลง ตรวจสอบให้แน่ใจว่ามีเครื่องหมายคำพูดเดี่ยว ๆ ไม่ใช่สองเท่าอยู่รอบ“ รหัสผ่าน”.
หากไฟล์ PDF ได้รับการป้องกันและเข้ารหัสด้วยรหัสผ่านผู้ใช้ให้ใช้แฟล็ก“ -upw” แทนการตั้งค่าสถานะ“ -opw” ส่วนที่เหลือของคำสั่งเหมือนกัน.
นอกจากนี้คุณยังสามารถระบุประเภทของอักขระสิ้นสุดบรรทัดที่ใช้กับข้อความที่แปลงแล้ว สิ่งนี้มีประโยชน์อย่างยิ่งหากคุณวางแผนที่จะเข้าถึงไฟล์บนระบบปฏิบัติการอื่นเช่น Windows หรือ Mac หากต้องการทำสิ่งนี้ให้ใช้แฟล็ก“ -eol” (อักขระกลางในแฟล็กคือตัวอักษรตัวพิมพ์เล็ก“ O” ไม่ใช่ศูนย์) ตามด้วยช่องว่างและประเภทของอักขระสิ้นสุดบรรทัดที่คุณต้องการใช้ (“ unix”,“ dos” หรือ“ mac”).
หมายเหตุ: หากคุณไม่ได้ระบุชื่อไฟล์สำหรับไฟล์ข้อความ pdftotext จะใช้ฐานของชื่อไฟล์ PDF โดยอัตโนมัติและเพิ่มส่วนขยาย“ .txt” ตัวอย่างเช่น“ file.pdf” จะถูกแปลงเป็น“ file.txt” หากไฟล์ข้อความถูกระบุว่าเป็น“ -” ข้อความที่ถูกแปลงจะถูกส่งไปยัง stdout ซึ่งหมายความว่าข้อความจะปรากฏในหน้าต่าง Terminal และไม่ได้บันทึกลงในไฟล์.
วิธีปิดหน้าต่างเทอร์มินัลคลิกปุ่ม“ X” ที่มุมบนซ้าย.
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับคำสั่ง pdftotext ให้พิมพ์“ man page pdftotext” ที่พรอมต์ในหน้าต่าง Terminal.