Analysez n’importe quel PDF en données structurées avec un seul appel API. Vous définissez le schéma, l’API lit le document et renvoie du JSON typé - fournisseur, totaux, lignes de détail, tout ce que vous déclarez. Les PDFs scannés sont inclus grâce à l’OCR. Aucun regex, aucun réglage de modèle.
Le schéma est votre contrat. L’API garantit que la réponse y correspond - chaque type, chaque objet imbriqué, chaque tableau. Les conversions sont explicites et signalées.
curl -X POST \
https://api-parse.conversiontools.io/v1/extract \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@statement.pdf" \
-F 'schema={
"account_holder": "string",
"account_number": "string",
"statement_period": {
"start": "date",
"end": "date"
},
"transactions": [{
"date": "date",
"description": "string",
"amount": "number",
"balance": "number"
}],
"ending_balance": "number"
}'{
"status": "completed",
"pages": 4,
"data": {
"account_holder": "Jane Doe",
"account_number": "****6739",
"statement_period": {
"start": "2026-03-01",
"end": "2026-03-31"
},
"transactions": [
{
"date": "2026-03-04",
"description": "Whole Foods",
"amount": -84.52,
"balance": 4215.48
}
],
"ending_balance": 3127.04
}
}Le PDF vers texte vous donne une chaîne et un problème de regex. Le PDF vers JSON vous donne data.total sous forme de nombre que vous pouvez insérer directement dans une ligne de base de données.
"1,234.50" revient sous forme du nombre 1234.5. "April 26, 2026" revient sous forme de la chaîne ISO "2026-04-26". Les conversions sont explicites et signalées dans la réponse.
Chaque réponse comprend un bloc validation : passed / partial / failed, ainsi que des avertissements pour les champs obligatoires manquants. Vous connaissez la qualité des données avant de les enregistrer.
Trois étapes pour passer d’un PDF brut à du JSON typé. Fonctionne avec n’importe quel PDF - numérique, scanné, d’une seule page ou de plusieurs pages.
Envoyez n’importe quel PDF au endpoint de l’API - factures, contrats, relevés, rapports ou documents scannés. Les PDFs de plusieurs pages sont traités automatiquement.
L’API lit toutes les pages, applique l’OCR au contenu scanné, comprend la mise en page et associe les valeurs aux champs de votre schéma.
Recevez un JSON propre et typé qui correspond à votre schéma. Prêt à être stocké dans une base de données, intégré à un pipeline ou transmis à une autre API.
Conçu pour les développeurs qui ont besoin d’une conversion fiable de PDF vers JSON, sans la complexité des bibliothèques classiques d’OCR et d’analyse de PDF.
Détecte et applique automatiquement l’OCR aux PDFs scannés et aux pages basées sur des images. Fonctionne aussi bien avec les PDFs numériques qu’avec ceux d’origine papier, sans aucune configuration.
Un endpoint, un appel API. Envoyez un PDF, recevez du JSON. Aucun SDK requis - fonctionne avec curl, Python, Node.js ou tout client HTTP.
Traite toutes les pages d’un document PDF. Extrait les données réparties sur plusieurs pages - lignes de détail, tableaux et sections qui se poursuivent sur les pages suivantes.
Définissez précisément quels champs extraire grâce aux schémas JSON. Prise en charge des chaînes, nombres, dates, tableaux et objets imbriqués. Un même schéma fonctionne sur différentes mises en page de PDF.
Les fichiers PDF sont traités et supprimés automatiquement. Aucune donnée du document n’est conservée après l’extraction. Infrastructure hébergée dans l’UE avec des connexions chiffrées.
La plupart des PDFs d’une page sont traités en quelques secondes. Des modes synchrone et asynchrone sont disponibles selon la taille du document et le nombre de pages.
La même API pilotée par schéma fonctionne pour tout type de document. Définissez un schéma une fois et extrayez des données de milliers de fichiers.
Extrayez du JSON structuré de n’importe quel document avec des schémas personnalisés.
Fournisseur, lignes de détail, totaux, taxes et dates des factures.
Magasin, articles, totaux et mode de paiement des reçus.
Numéro de commande, fournisseur, acheteur et lignes de détail au niveau SKU.
Transactions, soldes courants et dates pour le rapprochement.
Données au niveau des cases des formulaires W-2, 1099 et autres formulaires fiscaux.
Parties, dates, droit applicable et clauses clés.
Transporteur, parties, ports, conteneurs y carga.
La plupart des PDFs sont des documents visuels - du texte positionné sur une page, sans structure lisible par une machine. Convertir un PDF en JSON consiste à lire le document, à identifier quel texte appartient à quel champ (nom du fournisseur, total, description de la ligne de détail) et à renvoyer un objet JSON typé que vous pouvez insérer dans une base de données ou transmettre à une autre API.
Vous définissez un schéma - une liste de champs avec des noms et des types. L’API utilise ce schéma pour guider l’extraction. Même PDF + schéma différent = JSON différent. Vous pouvez aussi générer un schéma automatiquement à partir d’un document exemple dans le tableau de bord, puis le réutiliser via l’API.
Oui. Les schémas prennent en charge les objets imbriqués (une billing_address avec les sous-champs street/city/zip) et les tableaux d’objets (line_items sous forme de tableau où chaque élément est un objet avec description/quantity/price). L’API renvoie la même structure imbriquée que celle que vous avez déclarée.
Le PDF vers texte renvoie une seule grande chaîne dans l’ordre de lecture - vous devez encore écrire une logique d’analyse pour trouver des valeurs précises. Le PDF vers JSON renvoie les valeurs directement, typées et nommées. Le schéma est le contrat ; vous vous passez du parser.
Oui. L’API exécute automatiquement l’OCR sur les PDFs scannés (PDFs basés sur des images). La sortie JSON pilotée par schéma est la même, que la source soit un PDF généré numériquement ou un scan.
Cela transforme bien les PDFs en JSON, mais il s’agit d’analyse, pas d’une conversion plate. Vous définissez un schéma et récupérez exactement ces champs sous forme de valeurs typées - des nombres comme nombres, des dates comme chaînes ISO - et non un vidage de texte brut. Les PDFs scannés et numériques sont tous deux pris en charge, avec l’OCR appliqué automatiquement.
Inscrivez-vous gratuitement et lancez votre première conversion en moins de deux minutes.