วิธีการแยกและบันทึกภาพจากไฟล์ PDF ใน Linux
คุณสามารถแปลงไฟล์ PDF เป็นข้อความที่แก้ไขได้ใน Linux โดยใช้เครื่องมือบรรทัดคำสั่ง“ pdftotext” อย่างไรก็ตามหากมีภาพในไฟล์ PDF ดั้งเดิมภาพเหล่านั้นจะไม่ถูกแยกออกมา ในการดึงภาพจากไฟล์ PDF คุณสามารถใช้เครื่องมือบรรทัดคำสั่งอื่นที่เรียกว่า "pdfimages".
หมายเหตุ: เมื่อเราพูดเพื่อพิมพ์บางอย่างในบทความนี้และมีเครื่องหมายคำพูดล้อมรอบข้อความห้ามพิมพ์เครื่องหมายคำพูดเว้นแต่ว่าเราจะระบุเป็นอย่างอื่น.
เครื่องมือ“ pdfimages” เป็นส่วนหนึ่งของแพ็คเกจ poppler-utils คุณสามารถตรวจสอบเพื่อดูว่ามีการติดตั้งในระบบของคุณและติดตั้งหากจำเป็นโดยใช้ขั้นตอนที่อธิบายไว้ในบทความนี้.
ในการดึงภาพจากไฟล์ PDF โดยใช้ pdfimages ให้กด“ Ctrl + Alt + T” เพื่อเปิดหน้าต่างเทอร์มินัล พิมพ์คำสั่งต่อไปนี้ที่พรอมต์.
pdfimages /home/lori/Documents/SampleWithImages.pdf / home / lori / เอกสาร / ExtractedImages / รูปภาพ
หมายเหตุ: สำหรับคำสั่งทั้งหมดที่แสดงในบทความนี้ให้เปลี่ยนเส้นทางแรกในคำสั่งและชื่อไฟล์ PDF เป็นเส้นทางและชื่อไฟล์สำหรับไฟล์ PDF ต้นฉบับของคุณ พา ธ ที่สองควรเป็นพา ธ ไปยังโฟลเดอร์รูทที่คุณต้องการบันทึกอิมเมจที่แยกออกมา คำว่า "ภาพ" ที่ท้ายเส้นทางที่สองแสดงถึงสิ่งที่คุณต้องการนำหน้าชื่อไฟล์ของคุณ ชื่อไฟล์ของภาพจะถูกกำหนดหมายเลขโดยอัตโนมัติ (000, 001, 002, 003 ฯลฯ ) หากคุณต้องการเพิ่มข้อความไปยังจุดเริ่มต้นของแต่ละภาพให้ป้อนข้อความนั้นในตอนท้ายของเส้นทางที่สอง ในตัวอย่างของเราชื่อไฟล์แต่ละภาพจะเริ่มต้นด้วย“ image” เช่น image-001.ppm, image-002.ppm เป็นต้นเส้นประจะถูกเพิ่มระหว่างข้อความที่คุณระบุและหมายเลข.
รูปแบบภาพเริ่มต้นคือ PPM (แบบพกพา pixmap) สำหรับภาพที่ไม่ใช่ขาวดำหรือ PBM (บิตแมปแบบพกพา) สำหรับภาพขาวดำ รูปแบบเหล่านี้ได้รับการออกแบบให้สามารถแลกเปลี่ยนระหว่างแพลตฟอร์มได้ง่าย.
หมายเหตุ: คุณอาจได้รับไฟล์ภาพสองไฟล์สำหรับแต่ละภาพในไฟล์ PDF ของคุณ ภาพที่สองสำหรับแต่ละภาพว่างเปล่าดังนั้นคุณจะสามารถบอกได้ว่าภาพใดที่มีภาพจากไฟล์ด้วยภาพขนาดย่อของไฟล์ในตัวจัดการไฟล์.
ในการสร้างไฟล์ภาพ. jpg ให้เพิ่มตัวเลือก“ -j” ในคำสั่งดังที่แสดงด้านล่าง.
pdfimages -j /home/lori/Documents/SampleWithImages.pdf / home / lori / เอกสาร / ExtractedImages / รูปภาพ
หมายเหตุ: คุณยังสามารถเปลี่ยนเอาต์พุตเริ่มต้นเป็น PNG โดยใช้ตัวเลือก“ -png” หรือ TIFF โดยใช้ตัวเลือก“ -tiff”.
ไฟล์ภาพหลักสำหรับแต่ละภาพจะถูกบันทึกเป็นไฟล์. jpg รูปภาพเปล่าที่สองยังคงเป็นไฟล์. ppm หรือ. pbm.
หากคุณต้องการแปลงภาพในและหลังหน้าบางหน้าให้ใช้ตัวเลือก“ -f” พร้อมตัวเลขเพื่อระบุหน้าแรกของการแปลงดังที่แสดงในคำสั่งตัวอย่างด้านล่าง.
pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / เอกสาร / ExtractedImages / รูปภาพ
หมายเหตุ: เรารวมตัวเลือก“ -j” กับตัวเลือก“ -f” เพื่อให้ได้ภาพ. jpg และทำเช่นเดียวกันกับตัวเลือก“ -l” ที่กล่าวถึงด้านล่างเช่นกัน.
ในการแปลงภาพทั้งหมดก่อนและในหน้าใดหน้าหนึ่งให้ใช้ตัวเลือก“ -l” (ตัวพิมพ์เล็ก“ L” ไม่ใช่ตัวเลือกหมายเลข“ 1”) พร้อมตัวเลขเพื่อระบุหน้าสุดท้ายของการแปลงดังนี้.
pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / เอกสาร / ExtractedImages / รูปภาพ
หมายเหตุ: คุณสามารถใช้ตัวเลือก“ -f” และ“ -l” ร่วมกันเพื่อแปลงภาพในช่วงหน้าเฉพาะในช่วงกลางของเอกสารของคุณ.
หากมีรหัสผ่านของเจ้าของในไฟล์ PDF ให้ใช้ตัวเลือก“ -opw” และรหัสผ่านในเครื่องหมายคำพูดเดี่ยวดังที่แสดงด้านล่าง หากรหัสผ่านในไฟล์ PDF เป็นรหัสผ่านผู้ใช้ให้ใช้ตัวเลือก“ -upw” แทนด้วยรหัสผ่าน.
หมายเหตุ: ตรวจสอบให้แน่ใจว่ามีอัญประกาศเดี่ยวล้อมรอบรหัสผ่านของคุณในคำสั่ง.
pdfimages -opw 'รหัสผ่าน' -j /home/lori/Documents/SampleWithImages.pdf / home / lori / เอกสาร / ExtractedImages / รูปภาพ
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้คำสั่ง pdfimages ให้พิมพ์ "pdfimages" ที่พรอมต์ในหน้าต่าง Terminal และกด "Enter" การใช้คำสั่งแสดงขึ้นพร้อมกับรายการตัวเลือกที่มีให้ใช้งานในคำสั่ง.