PageRange is not working #2545

dtm00777 · 2024-03-25T15:36:32Z

dtm00777
Mar 25, 2024

Replace this: I was trying to split pdf's into chunks. I have 23 page pdf and I tried to split into 16 pages each.

Environment

Which environment were you using when you encountered the problem? Google Cloud

$ python -m platform

Linux-5.10.0-28-cloud-amd64-x86_64-with-glibc2.31

$ python -c "import pypdf;print(pypdf._debug_versions)"

pypdf==4.1.0, crypt_provider=('cryptography', '41.0.5'), PIL=10.0.1

Code + PDF

This is a minimal, complete example that shows the issue:

import base64
import pypdf #import PdfFileReader,PdfReader
from io import BytesIO



pdf_content = download_gcs_file_pdf(bucket_name, pdf_blob_name)

def split_pdf_to_pages(pdf_content, num_pages=16):
    """
    Splits a PDF content into specified number of pages and returns base64-encoded strings for each page.
    
    Args:
        pdf_content (bytes): Binary content of the PDF file.
        num_pages (int): Number of pages to split the PDF into (default is 16).
    
    Returns:
        list: List of base64-encoded strings representing each page.
    """
    print("entered in func 1")
    try:
        pdf1_reader = pdf_content
        
        total_pages = len(pdf1_reader.pages)
        print("total_pages:{}".format(total_pages))
       

        pages_per_chunk = total_pages // num_pages

        base64_pages = []
        for i in range(num_pages):
            print("Page number is {}".format(i))
            start_page = i * pages_per_chunk
            end_page = (i + 1) * pages_per_chunk
            
            pdf_chunk = pdf1_reader.PageRange(start_page, end_page)
            #PyPDF2.pagerange.PageRange
            print("entered in func 2")
            base64_encoded = base64.b64encode(pdf_chunk).decode("utf-8")
            base64_pages.append(base64_encoded)

        return base64_pages
    except Exception as e:
        print(f"Error splitting PDF to pages: {e}")
        return None

# Example usage
#print (download_gcs_file_pdf(bucket_name, pdf_blob_name))
pdf_file_path = download_gcs_file_pdf(bucket_name, pdf_blob_name)

#with open(pdf_file_path, "rb") as pdf_file:
 #   pdf_content = pdf_file.read()
    

bytes_stream = BytesIO(pdf_file_path)

# Read from bytes_stream
reader = PdfReader(bytes_stream)


base64_pages = split_pdf_to_pages(reader)

if base64_pages:
    for i, page in enumerate(base64_pages):
        print(f"Page {i+1} (base64-encoded):\n{page}")
else:
    print("Failed to split PDF into pages.")

Share here the PDF file(s) that cause the issue. The smaller they are, the
better. Let us know if we may add them to our tests!

Sorry - It's confidential file so can't share.

Traceback

This is the complete traceback I see:

entered in func 1
total_pages:23
Page number is 0
Error splitting PDF to pages: 'PdfReader' object has no attribute 'PageRange'
Failed to split PDF into pages.

# TODO: Your traceback goes here (if applicable)

Answered by stefan6419846

Mar 26, 2024

I do not know when or how your code has ever worked, but your PageRange usage is wrong as well. You should really have a look at our docs before trying to implement something as you imagine it could work.

Some possible solution might look like this:

import base64
from pypdf import PageRange, PdfReader, PdfWriter
from io import BytesIO



def split_pdf(reader, num_pages=16):
    try:      
        total_pages = len(reader.pages)
        print("total_pages:", total_pages)

        pages_per_chunk = total_pages // num_pages

        for i in range(num_pages):
            print("Page number is", i)
            start_page = i * pages_per_chunk
            end_page = (i + 1) * pages_per_chunk

…

View full answer

dtm00777 · 2024-03-25T15:37:45Z

dtm00777
Mar 25, 2024
Author

Error : entered in func 1
total_pages:23
Page number is 0
Error splitting PDF to pages: 'PdfReader' object has no attribute 'PageRange'
Failed to split PDF into pages.

0 replies

stefan6419846 · 2024-03-25T15:40:11Z

stefan6419846
Mar 25, 2024
Maintainer

PyPDF2 is not maintained any more. Please migrate to pypdf. And pypdf.PageRange is the correct import path.

0 replies

dtm00777 · 2024-03-25T16:05:46Z

dtm00777
Mar 25, 2024
Author

PyPDF2 is not maintained any more. Please migrate to pypdf. And pypdf.PageRange is the correct import path.

@stefan6419846 I get the same error when I changed to pypdf . Thanks for the quick response

"Error splitting PDF to pages: 'PdfReader' object has no attribute 'PageRange'"

0 replies

stefan6419846 · 2024-03-25T16:07:18Z

stefan6419846
Mar 25, 2024
Maintainer

As already mentioned: PageRange is not part of PdfReader.

0 replies

pubpub-zz · 2024-03-25T18:12:52Z

pubpub-zz
Mar 25, 2024
Maintainer

@dtm00777
you should look at the help
https://pypdf.readthedocs.io/en/stable/user/merging-pdfs.html?highlight=append

0 replies

stefan6419846 · 2024-03-26T13:54:50Z

stefan6419846
Mar 26, 2024
Maintainer

I do not know when or how your code has ever worked, but your PageRange usage is wrong as well. You should really have a look at our docs before trying to implement something as you imagine it could work.

Some possible solution might look like this:

import base64
from pypdf import PageRange, PdfReader, PdfWriter
from io import BytesIO



def split_pdf(reader, num_pages=16):
    try:      
        total_pages = len(reader.pages)
        print("total_pages:", total_pages)

        pages_per_chunk = total_pages // num_pages

        for i in range(num_pages):
            print("Page number is", i)
            start_page = i * pages_per_chunk
            end_page = (i + 1) * pages_per_chunk

            writer = PdfWriter()
            writer.append(reader, pages=PageRange(f"{start_page}:{end_page}"))
            pdf_chunk = BytesIO()
            writer.write(pdf_chunk)
            base64_encoded = base64.b64encode(pdf_chunk.getvalue()).decode("utf-8")
            yield base64_encoded
    except Exception as e:
        print(f"Error splitting PDF to pages: {e}")


pdf_file_path = "file.pdf"
with open(pdf_file_path, "rb") as pdf_file:
    pdf_content = pdf_file.read()
    
bytes_stream = BytesIO(pdf_content)
reader = PdfReader(bytes_stream)

base64_pages = list(split_pdf(reader, num_pages=3))

if base64_pages:
    for i, page in enumerate(base64_pages, start=1):
        print(f"Page {i} (base64-encoded):\n{page}")
else:
    print("Failed to split PDF into pages.")

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PageRange is not working #2545

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 6 comments

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

PageRange is not working #2545

dtm00777 Mar 25, 2024

Environment

Code + PDF

Traceback

Replies: 6 comments

dtm00777 Mar 25, 2024 Author

stefan6419846 Mar 25, 2024 Maintainer

dtm00777 Mar 25, 2024 Author

stefan6419846 Mar 25, 2024 Maintainer

pubpub-zz Mar 25, 2024 Maintainer

stefan6419846 Mar 26, 2024 Maintainer

dtm00777
Mar 25, 2024

dtm00777
Mar 25, 2024
Author

stefan6419846
Mar 25, 2024
Maintainer

dtm00777
Mar 25, 2024
Author

stefan6419846
Mar 25, 2024
Maintainer

pubpub-zz
Mar 25, 2024
Maintainer

stefan6419846
Mar 26, 2024
Maintainer