手元のメモをインターネットに流す。PythonでPDFを扱うときに参考になりそうなのでメモしていた。これは、ライブラリのコードを読んでるときに見つけたもので、一つ一つ検証してません。使う人は検証してください。そして、実際にどんな感じだったかわかれば、私に教えてください。
大抵は、LLM関係のライブラリのコードを読んでいた時に見つけました。
PDFからテキストを抽出する
PDFを画像に変換する
PDFやWordのファイルをjsonに変換する
動かしてないですが、pdf2imageやnumpyが入ってるので、一回画像に変換してから、読み込んでるんですかね?日本語もいけるか未検証。