आर का उपयोग कर पीडीएफ स्क्रैपिंग

मैं HTML टेबल निकालने के लिए सफलतापूर्वक xml पैकेज का उपयोग कर रहा हूं लेकिन पीडीएफ में विस्तार करना चाहता हूं। पिछले प्रश्नों से ऐसा नहीं लगता है कि एक साधारण आर समाधान है लेकिन आश्चर्य हुआ कि क्या हालिया घटनाएं हुई हैं

यह विफल होने के लिए, पाइथन में कुछ तरीका है (जिसमें मैं एक पूर्ण नौसिखिया हूं) प्राप्त करने के लिए और पीडीएफ में हेरफेर करें ताकि मैं आर एक्सएमएल पैकेज के साथ नौकरी खत्म कर सकूं

10

4 उत्तर

पीडीएफ से पाठ निकालना मुश्किल है, और लगभग हमेशा बहुत सारी देखभाल की आवश्यकता होती है।

मैं कमांड लाइन टूल्स जैसे पीडीएफटीओटीएक्स से शुरू करूंगा और देख सकता हूं कि वे क्या थूकते हैं। समस्या यह है कि पीडीएफ किसी भी क्रम में पाठ को स्टोर कर सकता है, अजीब फ़ॉन्ट एन्कोडिंग का उपयोग कर सकता है, और आपको फेंकने के लिए लिगरेचर अक्षरों (जुड़ा हुआ 'एफएफ' और 'आईजे' जो आप उचित टाइपसेट में देखते हैं) जैसे चीजें कर सकते हैं।

किसी भी लिनक्स सिस्टम पर pdftotext स्थापित करने योग्य है ...

10
जोड़ा
खैर pdftotext एक स्वच्छ टेक्स्ट पेज बनाने में ठीक काम करता है लेकिन यह किसी भी प्रकार के रूप में आसानी से बनाने के लिए नहीं है जो मैं चाहता हूं। फिर भी धन्यवाद
जोड़ा लेखक pssguy, स्रोत
जोड़ा लेखक pssguy, स्रोत
Seconded। आर में ऐसा करना किसी के भी विकास और रखरखाव के प्रयास के लायक नहीं है, जब आर के बाहर कहीं बेहतर विकल्प बनाए जाते हैं। यदि आपको बहुत सारी फाइलें करने की ज़रूरत है, तो find यूनिक्स (या विंडोज़ के लिए जीएनयू संग्रह में) में उपयोगिता, या कोई आर को कमांड को भेज सकता है, फाइलनामों पर लूपिंग कर सकता है ... यहां तक ​​कि एडोब के पास लंबे समय तक एक भयानक पाठ निकालने वाला था (यकीन नहीं है कि यह अब बेहतर है) , जबकि जेरोक्स एक अच्छा था।
जोड़ा लेखक Iterator, स्रोत
क्या आप हमें एक प्रतिनिधि पीडीएफ फ़ाइल में इंगित कर सकते हैं?
जोड़ा लेखक Spacedman, स्रोत
पीडीएफटीटेक्स्ट चलाना उस पृष्ठ पर शानदार नहीं है, लेकिन पीडी पर पहले पीएस में परिवर्तित हो रहा है या सिर्फ पीएस 2txt चल रहा है, इसे हटाने के लिए कुछ पेज हेड/पैर के साथ लगभग सही टेबल तैयार करता है।
जोड़ा लेखक Spacedman, स्रोत
मुझे विंडोज़ पर पीडीएफटीएक्सएक्स के साथ भी शुभकामनाएं मिली हैं
जोड़ा लेखक pguardiario, स्रोत

हो सकता है कि आप टेक्स्ट खनन पैकेज tm </कोड>। मुझे याद है कि उन्होंने तथाकथित पाठकों को लागू किया, और पीडीएफ के लिए भी एक था।

5
जोड़ा
धन्यवाद। मैंने दस्तावेज़ों की जांच की। किसी भी तरह pdftotext का उपयोग करता है
जोड़ा लेखक pssguy, स्रोत

AFAIK डेटा विश्लेषण के लिए उपयोगी कुछ में पीडीएफ टेबल को बदलने का एक आसान तरीका नहीं है। आप डेटा साइंस टूलकिट की फ़ाइल को टेक्स्ट उपयोगिता ( RDSTK पैकेज), फिर परिणामी पाठ को पार्स करें। चेतावनी दी जानी चाहिए: पार्सिंग अक्सर गैर-तुच्छ होती है।


संपादित करें: पीडीएफ को एक्सएमएल में परिवर्तित करने की एक उपयोगी चर्चा है understand.com पर । संक्षिप्त जवाब यह है कि आपको शायद एक वाणिज्यिक उपकरण खरीदने की आवश्यकता होगी।

4
जोड़ा
+1 इसके लिए धन्यवाद। मैंने चर्चा की जांच की और परीक्षण पर ABBYY उत्पाद डाउनलोड करने का प्रयास किया लेकिन यह proprrly सेट अप नहीं होगा। मुझे लगता है कि मैं बर्बाद हो गया हूँ
जोड़ा लेखक pssguy, स्रोत

tabula एप्लिकेशन का दिल जो पीडीएफ दस्तावेज़ों से तालिकाओं को निकालने में सक्षम है, एक सरल कमांड लाइन जावा एप्लिकेशन के रूप में उपलब्ध है, tabula-extractor

यह जावा ऐप tabulizer पैकेज द्वारा आर में लपेटा गया है। इसे पीडीएफ फाइल के लिए पास करें और यह आपके लिए डेटा टेबल निकालने का प्रयास करेगा और उन्हें डेटा के रूप में वापस कर देगा।

उदाहरण के लिए, जब दस्तावेज़ डेटाबेस बन जाते हैं - टैबला पीडीएफ टेबल एक्सट्रैक्टर के लिए टैबलाइज़र आर रैपर

1
जोड़ा