PDF 파일 변환을 위한 오픈소스 Python 라이브러리
무료 Python API를 사용하면 개발자가 PDF 파일을 내보내기, 회전, 병합 및 연결하고 PDF에서 데이터 및 요소를 추출할 수 있습니다.
pdfrw는 소프트웨어 개발자가 외부 특수 소프트웨어를 설치하지 않고도 PDF 파일을 읽고 쓸 수 있는 오픈 소스 순수 Python 라이브러리입니다. pdfrw 프로그래밍 라이브러리는 사용이 매우 간단하고 소스 코드가 잘 문서화되어 있고 매우 간단하며 이해하기 쉽습니다. 라이브러리에는 가장 빠른 순수 Python PDF 파서뿐만 아니라 PDF의 텍스트 문자열에 대한 적절한 유니코드 지원이 포함되어 있습니다.
pdfrw 라이브러리에는 PDF 병합, 메타데이터 수정, 여러 PDF 함께 연결, 이미지 추출, PDF 인쇄, PDF 페이지 회전, 새 PDF 생성, 워터마크 PDF 이미지 추가 등과 같은 여러 중요한 PDF 작업에 대한 지원이 포함되어 있습니다.
.
pdfrw 시작하기
pdfrw에는 Python 2.6, 2.7, 3.3, 3.4, 3.5 및 3.6이 필요합니다. pip를 사용하여 pdfrw를 설치할 수 있습니다. 다음 명령을 사용하여 설치하십시오.
pip를 통해 pdfrw 설치
python -m pip install pdfrw
Python 라이브러리를 통해 PDF 문서 만들기
pdfrw 라이브러리는 소프트웨어 개발자에게 몇 줄의 코드로 자신의 Python 응용 프로그램 내에서 PDF 문서 생성 기능을 제공합니다. 라이브러리는 또한 기존 PDF 파일에 대한 액세스 및 수정을 지원합니다. 기존 PDF에 새 페이지와 그래픽 구성 요소 또는 텍스트 요소를 쉽게 삽입할 수 있습니다. pdfrw 라이브러리는 읽은 PDF 파일에서 페이지를 찾고 새 PDF 파일에 페이지 세트를 다시 쓸 수 있도록 지원합니다.
Python을 통해 PDF 문서 생성 및 변경
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Python을 통해 PDF 파일 읽기
pdfrw 라이브러리는 소프트웨어 개발자가 Python 응용 프로그램 내에서 PDF 문서의 다른 부분에 쉽게 액세스하고 읽을 수 있도록 합니다. 전체 PDF 문서에 쉽게 액세스할 수 있습니다. 라이브러리는 파일 정보, 크기 등의 검색을 지원합니다. 이것은 사용자가 PDF 문서의 모든 페이지를 나열할 수 있도록 하는 페이지라는 특수 속성을 생성합니다. 작성자, 제목 등과 같은 정보를 추출하는 데 사용할 수 있는 문서 정보 개체를 추출할 수 있습니다.
Python을 통해 PDF 파일 액세스 및 읽기
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
메타데이터 추가 또는 수정
pdfrw를 사용하면 소프트웨어 개발자가 자체 Python 응용 프로그램 내에서 PDF 파일의 메타데이터를 추가하거나 수정할 수 있습니다. PDF에서 단일 메타데이터 항목을 변경하고 결과를 새 PDF에 기록할 수 있을 뿐만 아니라 여러 파일을 포함하고 출력 PDF 파일에 무의미한 메타데이터를 추가한 후 이들을 연결할 수 있습니다.
Python을 통해 PDF 메타데이터 수정
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
PDF 문서 분할
pdfrw를 사용하면 소프트웨어 개발자가 응용 프로그램 내에서 프로그래밍 방식으로 PDF 문서 문서를 분할할 수 있습니다. 사용자는 PDF 책의 특정 부분을 추출하거나 하나의 파일에 저장하는 대신 여러 PDF로 나누어야 할 수 있습니다. pdfrw 라이브러리를 사용하면 매우 쉽습니다. 입력 PDF 파일 경로, 추출하려는 페이지 수 및 출력 경로만 제공하면 됩니다.
Python을 통해 PDF 파일을 여러 PDF로 분할
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')