matobaの備忘録

育児しながら働くあるエンジニアの記録

PythonでPDFを扱うときに参考になりそうなライブラリ

手元のメモをインターネットに流す。PythonでPDFを扱うときに参考になりそうなのでメモしていた。これは、ライブラリのコードを読んでるときに見つけたもので、一つ一つ検証してません。使う人は検証してください。そして、実際にどんな感じだったかわかれば、私に教えてください。

大抵は、LLM関係のライブラリのコードを読んでいた時に見つけました。

PDFからテキストを抽出する

pypi.org

PDFを画像に変換する

pypi.org

PDFやWordのファイルをjsonに変換する

pypi.org

動かしてないですが、pdf2imageやnumpyが入ってるので、一回画像に変換してから、読み込んでるんですかね?日本語もいけるか未検証。