REST API · PDF-Parsing · 100 kostenlose Seiten/Monat

PDF-Parsing-API

Parsen Sie jedes PDF mit einem einzigen API-Aufruf in strukturierte Daten. Sie definieren das Schema, die API liest das Dokument und liefert typisiertes JSON zurück - Lieferant, Summen, Positionen, was immer Sie deklarieren. Gescannte PDFs sind per OCR inbegriffen. Kein Regex, kein Anpassen von Vorlagen.

Kostenlosen API-Schlüssel holen Dokumentation lesen

Schema rein, JSON raus

Das Schema ist Ihr Vertrag. Die API garantiert, dass die Antwort dazu passt - jeder Typ, jedes verschachtelte Objekt, jedes Array. Umwandlungen sind explizit und werden ausgewiesen.

request.sh

curl -X POST \
  https://api-parse.conversiontools.io/v1/extract \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "file=@statement.pdf" \
  -F 'schema={
    "account_holder": "string",
    "account_number": "string",
    "statement_period": {
      "start": "date",
      "end": "date"
    },
    "transactions": [{
      "date": "date",
      "description": "string",
      "amount": "number",
      "balance": "number"
    }],
    "ending_balance": "number"
  }'

response.json

{
  "status": "completed",
  "pages": 4,
  "data": {
    "account_holder": "Jane Doe",
    "account_number": "****6739",
    "statement_period": {
      "start": "2026-03-01",
      "end": "2026-03-31"
    },
    "transactions": [
      {
        "date": "2026-03-04",
        "description": "Whole Foods",
        "amount": -84.52,
        "balance": 4215.48
      }
    ],
    "ending_balance": 3127.04
  }
}

Warum JSON-First die Textextraktion schlägt

Den Parser überspringen

PDF-zu-Text liefert Ihnen einen String und ein Regex-Problem. PDF-zu-JSON liefert Ihnen data.total als Zahl, die Sie direkt in eine Datenbankzeile schreiben können.

Typisierte Umwandlung

"1,234.50" kommt als Zahl 1234.5 zurück. "April 26, 2026" kommt als ISO-String "2026-04-26" zurück. Umwandlungen sind explizit und werden in der Antwort ausgewiesen.

Integrierte Validierung

Jede Antwort enthält einen validation-Block: passed / partial / failed, dazu Warnungen für fehlende Pflichtfelder. Sie kennen die Datenqualität, bevor Sie sie speichern.

So funktioniert die PDF-zu-JSON-Umwandlung

In drei Schritten vom rohen PDF zu typisiertem JSON. Funktioniert mit jedem PDF - digital, gescannt, einseitig oder mehrseitig.

PDF hochladen

Senden Sie ein beliebiges PDF an den API-Endpunkt - Rechnungen, Verträge, Kontoauszüge, Berichte oder gescannte Dokumente. Mehrseitige PDFs werden automatisch verarbeitet.

KI liest jede Seite

Die API liest alle Seiten, wendet OCR auf gescannte Inhalte an, versteht das Layout und ordnet die Werte den Feldern in Ihrem Schema zu.

Typisiertes JSON erhalten

Erhalten Sie sauberes, typisiertes JSON, das Ihrem Schema entspricht. Bereit zum Speichern in einer Datenbank, zum Einspeisen in eine Pipeline oder zur Übergabe an eine andere API.

Warum Entwickler Parse für PDF-zu-JSON wählen

Entwickelt für Entwickler, die eine zuverlässige PDF-zu-JSON-Umwandlung brauchen, ohne die Komplexität klassischer OCR- und PDF-Parsing-Bibliotheken.

OCR für gescannte PDFs

Erkennt gescannte PDFs und bildbasierte Seiten automatisch und wendet OCR darauf an. Funktioniert sowohl mit digitalen als auch mit aus Papier stammenden PDFs ohne jede Konfiguration.

Einfache REST API

Ein Endpunkt, ein API-Aufruf. Senden Sie ein PDF, erhalten Sie JSON zurück. Keine SDKs nötig - funktioniert mit curl, Python, Node.js oder jedem HTTP-Client.

Unterstützung mehrerer Seiten

Verarbeitet alle Seiten eines PDF-Dokuments. Extrahiert Daten, die sich über Seiten erstrecken - Positionen, Tabellen und Abschnitte, die auf den Folgeseiten weitergehen.

Eigene Schemata

Definieren Sie mit JSON-Schemata genau, welche Felder extrahiert werden sollen. Unterstützung für Strings, Zahlen, Daten, Arrays und verschachtelte Objekte. Ein Schema funktioniert über verschiedene PDF-Layouts hinweg.

Datenschutz & Sicherheit

PDF-Dateien werden verarbeitet und automatisch gelöscht. Nach der Extraktion werden keine Dokumentdaten gespeichert. In der EU gehostete Infrastruktur mit verschlüsselten Verbindungen.

Schnelle Antwortzeiten

Die meisten einseitigen PDFs werden in Sekunden verarbeitet. Je nach Dokumentgröße und Seitenzahl stehen synchrone und asynchrone Modi zur Verfügung.

Weitere Anwendungsfälle für die Dokumentenextraktion

Dieselbe schemagesteuerte API funktioniert für jeden Dokumenttyp. Definieren Sie ein Schema einmal und extrahieren Sie aus Tausenden von Dateien.

Datenextraktions-API

Strukturiertes JSON aus jedem Dokument mit eigenen Schemas extrahieren.

Rechnungsextraktion

Lieferant, Positionen, Summen, Steuern und Daten aus Rechnungen.

Belegerkennung

Geschäft, Artikel, Summen und Zahlungsmethode aus Belegen.

Bestellungsextraktion

Bestellnummer, Lieferant, Käufer und Positionen auf SKU-Ebene.

Kontoauszug zu JSON

Transaktionen, laufende Salden und Daten für den Abgleich.

Steuerformular-Extraktion

Daten auf Feldebene aus W-2, 1099 und anderen Steuerformularen.

Vertragsdatenextraktion

Parteien, Daten, geltendes Recht und wichtige Klauseln.

Frachtbrief-Extraktion

Spediteur, Parteien, Häfen, Container und Fracht.

Häufig gestellte Fragen

Was bedeutet es, ein PDF in JSON umzuwandeln?

Die meisten PDFs sind visuelle Dokumente - Text auf einer Seite positioniert, ohne maschinenlesbare Struktur. Ein PDF in JSON umzuwandeln bedeutet, das Dokument zu lesen, zu erkennen, welcher Text zu welchem Feld gehört (Lieferantenname, Summe, Positionsbeschreibung), und ein typisiertes JSON-Objekt zurückzugeben, das Sie in eine Datenbank schreiben oder an eine andere API übergeben können.

Wie entscheidet die API, welche Felder zu extrahieren sind?

Sie definieren ein Schema - eine Liste von Feldern mit Namen und Typen. Die API nutzt dieses Schema, um die Extraktion zu steuern. Gleiches PDF + anderes Schema = anderes JSON. Sie können ein Schema auch automatisch aus einem Beispieldokument im Dashboard erzeugen und es dann über die API wiederverwenden.

Kann ich verschachtelte Objekte und Arrays aus PDFs extrahieren?

Ja. Schemata unterstützen verschachtelte Objekte (eine billing_address mit den Unterfeldern street/city/zip) und Arrays von Objekten (line_items als Array, bei dem jedes Element ein Objekt mit description/quantity/price ist). Die API liefert genau die verschachtelte Struktur zurück, die Sie deklariert haben.

Wie unterscheidet sich PDF zu JSON von PDF zu Text?

PDF zu Text liefert einen großen String in Lesereihenfolge - Sie müssen weiterhin Parsing-Logik schreiben, um bestimmte Werte zu finden. PDF zu JSON liefert die Werte direkt, typisiert und benannt. Das Schema ist der Vertrag; Sie sparen sich den Parser.

Funktioniert es bei gescannten PDFs?

Ja. Die API führt bei gescannten PDFs (bildbasierten PDFs) automatisch OCR aus. Die schemagesteuerte JSON-Ausgabe ist dieselbe, egal ob die Quelle ein digital erzeugtes PDF oder ein Scan ist.

Ist das dasselbe wie eine PDF-zu-JSON-Umwandlung?

Es macht aus PDFs zwar JSON, aber es ist Parsing, keine flache Umwandlung. Sie definieren ein Schema und erhalten genau diese Felder als typisierte Werte zurück - Zahlen als Zahlen, Daten als ISO-Strings - keinen rohen Textabzug. Gescannte und digitale PDFs werden beide verarbeitet, wobei OCR automatisch angewandt wird.

Probieren Sie es mit Ihrem PDF aus

Melden Sie sich kostenlos an und führen Sie Ihre erste Umwandlung in unter zwei Minuten durch.

Kostenlos loslegen API-Referenz