Analice cualquier PDF y conviértalo en datos estructurados con una sola llamada a la API. Usted define el esquema, la API lee el documento y devuelve JSON tipado - proveedor, totales, líneas de detalle, lo que usted declare. Los PDFs escaneados se incluyen mediante OCR. Sin regex, sin ajuste de plantillas.
El esquema es su contrato. La API garantiza que la respuesta coincida con él - cada tipo, cada objeto anidado, cada array. Las conversiones son explícitas y se informan.
curl -X POST \
https://api-parse.conversiontools.io/v1/extract \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@statement.pdf" \
-F 'schema={
"account_holder": "string",
"account_number": "string",
"statement_period": {
"start": "date",
"end": "date"
},
"transactions": [{
"date": "date",
"description": "string",
"amount": "number",
"balance": "number"
}],
"ending_balance": "number"
}'{
"status": "completed",
"pages": 4,
"data": {
"account_holder": "Jane Doe",
"account_number": "****6739",
"statement_period": {
"start": "2026-03-01",
"end": "2026-03-31"
},
"transactions": [
{
"date": "2026-03-04",
"description": "Whole Foods",
"amount": -84.52,
"balance": 4215.48
}
],
"ending_balance": 3127.04
}
}PDF a texto le da una cadena y un problema de regex. PDF a JSON le da data.total como un número que puede insertar directamente en una fila de la base de datos.
"1,234.50" vuelve como el número 1234.5. "April 26, 2026" vuelve como la cadena ISO "2026-04-26". Las conversiones son explícitas y se informan en la respuesta.
Cada respuesta incluye un bloque validation: passed / partial / failed, además de avisos por campos obligatorios que falten. Conoce la calidad de los datos antes de guardarlos.
Tres pasos para pasar de un PDF sin procesar a JSON tipado. Funciona con cualquier PDF - digital, escaneado, de una página o de varias páginas.
Envíe cualquier PDF al endpoint de la API - facturas, contratos, extractos, informes o documentos escaneados. Los PDFs de varias páginas se procesan de forma automática.
La API lee todas las páginas, aplica OCR al contenido escaneado, entiende el diseño y asigna los valores a los campos de su esquema.
Reciba un JSON limpio y tipado que coincide con su esquema. Listo para guardar en una base de datos, alimentar una canalización o pasar a otra API.
Diseñado para desarrolladores que necesitan una conversión fiable de PDF a JSON sin la complejidad de las bibliotecas tradicionales de OCR y de análisis de PDF.
Detecta y aplica OCR de forma automática a los PDFs escaneados y a las páginas basadas en imágenes. Funciona tanto con PDFs digitales como con los de origen en papel, sin ninguna configuración.
Un endpoint, una llamada a la API. Envíe un PDF, reciba JSON. No se necesitan SDKs - funciona con curl, Python, Node.js o cualquier cliente HTTP.
Procesa todas las páginas de un documento PDF. Extrae datos que se reparten entre páginas - líneas de detalle, tablas y secciones que continúan en las páginas siguientes.
Defina con esquemas JSON exactamente qué campos extraer. Compatibilidad con cadenas, números, fechas, arrays y objetos anidados. Un mismo esquema funciona con distintos diseños de PDF.
Los archivos PDF se procesan y se eliminan de forma automática. No se almacena ningún dato del documento tras la extracción. Infraestructura alojada en la UE con conexiones cifradas.
La mayoría de los PDFs de una página se procesan en segundos. Hay modos síncrono y asíncrono disponibles según el tamaño del documento y el número de páginas.
La misma API basada en esquemas funciona con cualquier tipo de documento. Defina un esquema una vez y extraiga datos de miles de archivos.
Extraiga JSON estructurado de cualquier documento con esquemas personalizados.
Proveedor, líneas de detalle, totales, impuestos y fechas de las facturas.
Comercio, artículos, totales y método de pago de los recibos.
Número de pedido, proveedor, comprador y líneas de detalle a nivel de SKU.
Transacciones, saldos acumulados y fechas para la conciliación.
Datos a nivel de casilla de los formularios W-2, 1099 y otros formularios fiscales.
Partes, fechas, ley aplicable y cláusulas clave.
Transportista, partes, puertos, contenedores y carga.
La mayoría de los PDFs son documentos visuales - texto colocado en una página, sin estructura legible por máquina. Convertir un PDF a JSON significa leer el documento, identificar qué texto pertenece a cada campo (nombre del proveedor, total, descripción de la línea de detalle) y devolver un objeto JSON tipado que puede insertar en una base de datos o pasar a otra API.
Usted define un esquema - una lista de campos con nombres y tipos. La API usa ese esquema para guiar la extracción. Mismo PDF + esquema diferente = JSON diferente. También puede generar un esquema de forma automática a partir de un documento de muestra en el panel y luego reutilizarlo a través de la API.
Sí. Los esquemas admiten objetos anidados (una billing_address con subcampos street/city/zip) y arrays de objetos (line_items como un array en el que cada elemento es un objeto con description/quantity/price). La API devuelve la misma estructura anidada que usted declaró.
PDF a texto devuelve una única cadena grande en orden de lectura - aún tiene que escribir lógica de análisis para encontrar valores concretos. PDF a JSON devuelve los valores directamente, tipados y con nombre. El esquema es el contrato; se ahorra el parser.
Sí. La API ejecuta OCR de forma automática en los PDFs escaneados (PDFs basados en imágenes). La salida JSON basada en esquemas es la misma tanto si el origen es un PDF generado digitalmente como si es un escaneo.
Sí convierte los PDFs en JSON, pero es análisis, no una conversión plana. Usted define un esquema y recibe exactamente esos campos como valores tipados - números como números, fechas como cadenas ISO - no un volcado de texto sin procesar. Se gestionan tanto los PDFs escaneados como los digitales, con OCR aplicado de forma automática.
Regístrese gratis y ejecute su primera conversión en menos de dos minutos.