Parsen Sie jedes PDF mit einem einzigen API-Aufruf in strukturierte Daten. Sie definieren das Schema, die API liest das Dokument und liefert typisiertes JSON zurück - Lieferant, Summen, Positionen, was immer Sie deklarieren. Gescannte PDFs sind per OCR inbegriffen. Kein Regex, kein Anpassen von Vorlagen.
Das Schema ist Ihr Vertrag. Die API garantiert, dass die Antwort dazu passt - jeder Typ, jedes verschachtelte Objekt, jedes Array. Umwandlungen sind explizit und werden ausgewiesen.
curl -X POST \
https://api-parse.conversiontools.io/v1/extract \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@statement.pdf" \
-F 'schema={
"account_holder": "string",
"account_number": "string",
"statement_period": {
"start": "date",
"end": "date"
},
"transactions": [{
"date": "date",
"description": "string",
"amount": "number",
"balance": "number"
}],
"ending_balance": "number"
}'{
"status": "completed",
"pages": 4,
"data": {
"account_holder": "Jane Doe",
"account_number": "****6739",
"statement_period": {
"start": "2026-03-01",
"end": "2026-03-31"
},
"transactions": [
{
"date": "2026-03-04",
"description": "Whole Foods",
"amount": -84.52,
"balance": 4215.48
}
],
"ending_balance": 3127.04
}
}PDF-zu-Text liefert Ihnen einen String und ein Regex-Problem. PDF-zu-JSON liefert Ihnen data.total als Zahl, die Sie direkt in eine Datenbankzeile schreiben können.
"1,234.50" kommt als Zahl 1234.5 zurück. "April 26, 2026" kommt als ISO-String "2026-04-26" zurück. Umwandlungen sind explizit und werden in der Antwort ausgewiesen.
Jede Antwort enthält einen validation-Block: passed / partial / failed, dazu Warnungen für fehlende Pflichtfelder. Sie kennen die Datenqualität, bevor Sie sie speichern.
In drei Schritten vom rohen PDF zu typisiertem JSON. Funktioniert mit jedem PDF - digital, gescannt, einseitig oder mehrseitig.
Senden Sie ein beliebiges PDF an den API-Endpunkt - Rechnungen, Verträge, Kontoauszüge, Berichte oder gescannte Dokumente. Mehrseitige PDFs werden automatisch verarbeitet.
Die API liest alle Seiten, wendet OCR auf gescannte Inhalte an, versteht das Layout und ordnet die Werte den Feldern in Ihrem Schema zu.
Erhalten Sie sauberes, typisiertes JSON, das Ihrem Schema entspricht. Bereit zum Speichern in einer Datenbank, zum Einspeisen in eine Pipeline oder zur Übergabe an eine andere API.
Entwickelt für Entwickler, die eine zuverlässige PDF-zu-JSON-Umwandlung brauchen, ohne die Komplexität klassischer OCR- und PDF-Parsing-Bibliotheken.
Erkennt gescannte PDFs und bildbasierte Seiten automatisch und wendet OCR darauf an. Funktioniert sowohl mit digitalen als auch mit aus Papier stammenden PDFs ohne jede Konfiguration.
Ein Endpunkt, ein API-Aufruf. Senden Sie ein PDF, erhalten Sie JSON zurück. Keine SDKs nötig - funktioniert mit curl, Python, Node.js oder jedem HTTP-Client.
Verarbeitet alle Seiten eines PDF-Dokuments. Extrahiert Daten, die sich über Seiten erstrecken - Positionen, Tabellen und Abschnitte, die auf den Folgeseiten weitergehen.
Definieren Sie mit JSON-Schemata genau, welche Felder extrahiert werden sollen. Unterstützung für Strings, Zahlen, Daten, Arrays und verschachtelte Objekte. Ein Schema funktioniert über verschiedene PDF-Layouts hinweg.
PDF-Dateien werden verarbeitet und automatisch gelöscht. Nach der Extraktion werden keine Dokumentdaten gespeichert. In der EU gehostete Infrastruktur mit verschlüsselten Verbindungen.
Die meisten einseitigen PDFs werden in Sekunden verarbeitet. Je nach Dokumentgröße und Seitenzahl stehen synchrone und asynchrone Modi zur Verfügung.
Dieselbe schemagesteuerte API funktioniert für jeden Dokumenttyp. Definieren Sie ein Schema einmal und extrahieren Sie aus Tausenden von Dateien.
Strukturiertes JSON aus jedem Dokument mit eigenen Schemas extrahieren.
Lieferant, Positionen, Summen, Steuern und Daten aus Rechnungen.
Geschäft, Artikel, Summen und Zahlungsmethode aus Belegen.
Bestellnummer, Lieferant, Käufer und Positionen auf SKU-Ebene.
Transaktionen, laufende Salden und Daten für den Abgleich.
Daten auf Feldebene aus W-2, 1099 und anderen Steuerformularen.
Parteien, Daten, geltendes Recht und wichtige Klauseln.
Spediteur, Parteien, Häfen, Container und Fracht.
Die meisten PDFs sind visuelle Dokumente - Text auf einer Seite positioniert, ohne maschinenlesbare Struktur. Ein PDF in JSON umzuwandeln bedeutet, das Dokument zu lesen, zu erkennen, welcher Text zu welchem Feld gehört (Lieferantenname, Summe, Positionsbeschreibung), und ein typisiertes JSON-Objekt zurückzugeben, das Sie in eine Datenbank schreiben oder an eine andere API übergeben können.
Sie definieren ein Schema - eine Liste von Feldern mit Namen und Typen. Die API nutzt dieses Schema, um die Extraktion zu steuern. Gleiches PDF + anderes Schema = anderes JSON. Sie können ein Schema auch automatisch aus einem Beispieldokument im Dashboard erzeugen und es dann über die API wiederverwenden.
Ja. Schemata unterstützen verschachtelte Objekte (eine billing_address mit den Unterfeldern street/city/zip) und Arrays von Objekten (line_items als Array, bei dem jedes Element ein Objekt mit description/quantity/price ist). Die API liefert genau die verschachtelte Struktur zurück, die Sie deklariert haben.
PDF zu Text liefert einen großen String in Lesereihenfolge - Sie müssen weiterhin Parsing-Logik schreiben, um bestimmte Werte zu finden. PDF zu JSON liefert die Werte direkt, typisiert und benannt. Das Schema ist der Vertrag; Sie sparen sich den Parser.
Ja. Die API führt bei gescannten PDFs (bildbasierten PDFs) automatisch OCR aus. Die schemagesteuerte JSON-Ausgabe ist dieselbe, egal ob die Quelle ein digital erzeugtes PDF oder ein Scan ist.
Es macht aus PDFs zwar JSON, aber es ist Parsing, keine flache Umwandlung. Sie definieren ein Schema und erhalten genau diese Felder als typisierte Werte zurück - Zahlen als Zahlen, Daten als ISO-Strings - keinen rohen Textabzug. Gescannte und digitale PDFs werden beide verarbeitet, wobei OCR automatisch angewandt wird.
Melden Sie sich kostenlos an und führen Sie Ihre erste Umwandlung in unter zwei Minuten durch.