Adobe 推出 Document Services API 助開發者提取 PDF 元素分析內容

Adobe 最近宣布推出 Document Services API，提供兩款便利 PDF 處理的 API，能分析來自掃描和原生 PDF 的結構，提取文字、表格數據、圖像等所有 PDF 元素，助開發者分析、製作索引、儲存，以及建立機器學習模型，和使用機械人流程自動化和自然語言處理等技術將下游流程自動化。

其中一款為 Adobe PDF Extract API，以雲端為基礎，建基於去年推出的 Liquid Mode，可分析來自掃描和原生 PDF 的結構，提取文字、表格數據、圖像等所有 PDF 元素，同時了解相對位置、跨欄和分頁的閱讀順序。

Adobe 稱，相對於許多 API 僅限提取某一種類型的元素，PDF Extract API 的優勢在於可提取所有 PDF 元素。此外，許多供應商都有指定的平台，而 Adobe PDF Extract API 則賦予用戶高度靈活性，讓他們可使用任何現代編程語言或平台。

據 Adobe 介紹，該 API 能快速準確地提取數據以用於機器學習模型、分析、製作索引或儲存，使用機械人流程自動化 (Robotic Process Automation, RPA) 和自然語言處理 (Natural Language Processing, NLP) 等技術將下游流程自動化，以及重新發布適用於多個媒體的 PDF 內容。

另外，Adobe 亦推出 Document Generation API，開發人員可以快速設計自訂的 Microsoft Word 範本，以及生成具動態數據的 Word 和 PDF 檔案。Document Generation API 還包括與 Adobe Sign 整合、開箱即用的工具，以便用戶隨時可在檔案中使用電子簽名。

該兩款 API 均屬於 Adobe Document Services API，現可於 AWS Marketplace 下載，唯目前只接受美國用戶訂閱。

《よしのん的網站教室》是一個以「教學為主、新聞為輔」的網誌，旨在為大家提供各種各樣的 IT 資訊和心得，其中特別聚焦於網站制作、SEO、社交媒體等議題。隨著時間發展，本網亦開始分享旅遊資訊，帶來更多元化的內容。

Adobe