PDFテキスト抽出はどのように機能しますか？

このツールはpdf.jsを使用してPDFファイルを解析し、各ページからテキスト内容を抽出します。PDFに埋め込まれたテキスト層を読み取り、読み順を保持します。抽出されたテキストはプレーンテキストまたはMarkdownファイルとしてコピーまたはダウンロードできます。

テキストが欠落したり文字化けするのはなぜですか？

一部のPDFは非標準エンコーディングのカスタムフォントを使用していたり、テキストが画像として含まれています（スキャン文書）。テキスト抽出はテキストベースのPDFのみ機能します。スキャンPDFにはOCRが必要ですが、このツールではサポートしていません。

はい、すべての処理はブラウザ内で完結します。PDFファイルはサーバーにアップロードされず、JavaScriptライブラリでローカルにテキスト抽出が行われます。

はい、全ページから抽出するか、ページ範囲（例：1-3, 5, 7-10）を指定できます。プレーンテキストまたはMarkdown出力形式の選択、出力内のページ番号表示の切り替えも可能です。

プレーンテキストは書式なしの抽出テキストを出力します。Markdown出力は見出し、リスト、改行などの基本構造をMarkdown構文で保持し、ドキュメントやノートでの再利用が容易です。

いいえ、スキャンPDFは実際のテキスト文字ではなくテキスト画像を含んでいます。このツールはテキスト層を持つデジタルPDFからのみテキストを抽出します。スキャン文書にはOCRツールが必要です。

ブラウザで処理するため、制限はお使いのデバイスのメモリに依存します。数百ページの大型PDFは処理に時間がかかる場合があります。最適な結果のため、超大きなファイルは小さい部分に分割することをお勧めします。

PDFにオープンパスワードがある場合は、先に解除する必要があります。権限パスワードのみの場合、テキスト抽出が機能する場合があります。このツールはPDFパスワードを削除しません。

改行や段落間隔などの基本的な書式は保持されます。ただし、複雑なレイアウト、テーブル、多段テキストは完全に保持されない場合があります。Markdown出力オプションは構造要素の保持に役立ちます。

ページが読み込まれた後、すべての処理がブラウザで行われるため、コアのテキスト抽出機能はオフラインで動作します。ただし、ツールの初期読み込みにはインターネット接続が必要です。

PDFファイルからテキストをオンラインで抽出。TXTまたはMarkdownとしてコピーまたはダウンロード。無料、プライベート、ブラウザで動作。

