Salah satu data yang dikumpulkan adalah berupa berkas-berkas PDF yang perlu untuk dijadikan berkas text agar lebih mudal diolah. Salah satu paket yang bisa digunakan bila menggunakan bahasa pemrograman Python adalah PyMuPDF.
import pymupdf
doc = pymupdf.open(“sample.pdf”) # open a document
out = open(“sample.txt”, “wb”) # create a text outputfor page in doc: # iterate the document pages
text = page.get_text().encode(“utf8”) # get plain text (is in UTF-8)
out.write(text) # write text of page
out.write(bytes((12,))) # write page delimiter (form feed 0x0C)out.close()
Masih banyak yang perlu disesuaikan dengan kebutuhan tiap proyek dan berkas inputan, misalkan dengan adanya gambar dalam PDF atau PDF yang berupa gambar. Silakan eksplorasi dan sesuaikan.