यदि आप एक छात्र हैं या आपके काम में बहुत सारी छवियों और PDF के साथ काम करना शामिल है, तो आपको कभी न कभी किसी छवि या दस्तावेज़ से टेक्स्ट निकालने की आवश्यकता महसूस होगी।

सौभाग्य से, पाठ निष्कर्षण इसे संभव बनाता है। और ऐसे कई उपकरण हैं जिनका उपयोग आप ऐसा करने के लिए कर सकते हैं। gImageReader कई टूल में से एक है। यह उपयोग करने के लिए स्वतंत्र है और छवि फ़ाइलों और पीडीएफ दस्तावेजों दोनों के साथ काम करता है।

आइए gImageReader को विस्तार से देखने के लिए गोता लगाएँ और देखें कि आप छवियों और PDF से टेक्स्ट निकालने के लिए इसका उपयोग कैसे कर सकते हैं।

जीइमेज रीडर क्या है?

gImageReader एक ऐसा ऐप है जो आपको Linux पर छवियों और PDF से टेक्स्ट निकालने देता है। यह अनिवार्य रूप से एक GUI या फ्रंट-एंड है टेसेरैक्ट ओसीआर इंजन, एक खुला स्त्रोत हेवलेट-पैकार्ड द्वारा विकसित इंजन जिसे उपलब्ध सर्वोत्तम ओसीआर इंजनों में से एक माना जाता है।

gImageReader के साथ, आप कुछ साधारण क्लिकों के साथ छवियों या PDF दस्तावेज़ों से टेक्स्ट को आसानी से और काफी सटीक रूप से निकाल सकते हैं। फिर आप निकाले गए टेक्स्ट को आगे के उपयोग के लिए टेक्स्ट या पीडीएफ फाइल में निर्यात कर सकते हैं।

जीइमेज रीडर की विशेषताएं

gImageReader निम्नलिखित सुविधाओं को पैक करता है:

  • विभिन्न स्रोतों से पीडीएफ दस्तावेज़ और चित्र आयात करें (डिस्क, स्कैनिंग डिवाइस, क्लिपबोर्ड और स्क्रीनशॉट)
  • बैच प्रक्रिया छवियों या दस्तावेज़ों, यानी, एक साथ कई छवियों या दस्तावेज़ों से टेक्स्ट निकालें
  • टेक्स्ट स्निपेट्स को सादे टेक्स्ट या hOCR दस्तावेज़ों के रूप में पहचानें
  • बिल्ट-इन स्पेल चेकर
  • स्वचालित पाठ क्षेत्र का पता लगाना
  • मूल छवि/दस्तावेज़ संपादन
  • आउटपुट को टेक्स्ट फ़ाइल के रूप में सहेजें

लिनक्स पर gImageReader कैसे स्थापित करें

gImageReader पर उपलब्ध है सबसे प्रमुख लिनक्स डिस्ट्रोस. लेकिन इससे पहले कि आप इसकी स्थापना के साथ आगे बढ़ें, आपको अपने सिस्टम पर Tesseract OCR इंजन को स्थापित करने की आवश्यकता है।

ऐसा करने के लिए, खोलें सॉफ्टवेयर मैनेजर अपने सिस्टम पर और खोजें टेसेरैक्ट. जब यह परिणामों की सूची लौटाता है, तो इसे स्थापित करें Tesseract-ओसीआर तथा tesseract-ocr-eng पैकेज। यदि आप टर्मिनल के साथ अधिक सहज हैं तो आप पैकेज को स्थापित करने के लिए कमांड-लाइन पैकेज मैनेजर का भी उपयोग कर सकते हैं।

इसके बाद, अपने कंप्यूटर पर gImageReader स्थापित करने के लिए निम्नलिखित अनुभागों में स्थापना निर्देश देखें।

यदि आप डेबियन या उबंटू पर हैं, तो टर्मिनल खोलें और gImageReader स्थापित करने के लिए निम्न कमांड चलाएँ:

सुडो ऐड-एपीटी-रिपॉजिटरी पीपीए: सैंड्रोमनी/जीमेजरीडर
सुडो उपयुक्त-प्राप्त अपडेट करें
सुडो उपयुक्त इंस्टॉल गीमेजरीडर

Fedora, CentOS, या Red Hat Enterprise Linux (RHEL) पर:

सुडो डीएनएफ इंस्टॉल gimagereader-qt 

पर आर्क लिनक्स या मंज़रो:

सुडो पॅकमैन -एस गिमेजरीडर

openSUSE उपयोगकर्ता gImageReader का उपयोग करके स्थापित कर सकते हैं:

सूडो ज़िपर इंस्टॉल गीमेजरीडर

यदि आप किसी अन्य लिनक्स डिस्ट्रो का उपयोग कर रहे हैं, तो आप नीचे दिए गए निर्देशों का पालन करके स्रोत से gImageReader बना सकते हैं gImageReader's GitHub.

लिनक्स पर gImageReader का उपयोग कैसे करें

gImageReader का उपयोग करना बहुत आसान है और सभी प्रकार की छवि फ़ाइलों के साथ-साथ PDF दस्तावेज़ों के साथ भी काम करता है। Linux पर इमेज या PDF से टेक्स्ट निकालने के लिए नीचे दिए गए निर्देशों का पालन करें.

एप्लिकेशन मेनू खोलें, खोजें जी इमेजरीडर, और ऐप लॉन्च करें। मारो अधिकतम इसे पूर्ण-स्क्रीन दृश्य में खोलने के लिए gImageReader विंडो में बटन।

अब, क्लिक करें छवियां जोड़ें टूलबार के नीचे बाएँ फलक पर बटन और छवि (ओं) या पीडीएफ (ओं) का चयन करने के लिए फ़ाइल ब्राउज़र का उपयोग करें जिससे आप पाठ निकालना चाहते हैं।

क्लिक ठीक छवि (ओं) या PDF को gImageReader में आयात करने के लिए। या, यदि आप स्क्रीन पर प्रदर्शित होने वाले पाठ से पाठ निकालना चाहते हैं, तो इसके बगल में स्थित ड्रॉपडाउन पर क्लिक करें छवियां जोड़ें बटन और चुनें स्क्रीनशॉट लीजिए. gImageReader स्क्रीन की सामग्री का स्क्रीनशॉट लेगा।

छवि को gImageReader में जोड़ने के बाद, क्लिक करें आउटपुट फलक टॉगल करें बटन (एक नोटपैड आइकन के साथ) आउटपुट फलक लाने के लिए। यह वह जगह है जहाँ आप छवियों या PDF से जो पाठ निकालते हैं वह प्रकट होता है।

आप कैसे आगे बढ़ना चाहते हैं, इस पर निर्भर करते हुए, अब आपके पास छवि या पीडीएफ में टेक्स्ट को स्वचालित रूप से या मैन्युअल रूप से पहचानने का विकल्प है। इसे स्वचालित रूप से करने के लिए, पर क्लिक करें स्वतः पता लगाने वाला लेआउट बटन, और यह चयनित छवि या पीडीएफ दस्तावेज़ में सभी टेक्स्ट ब्लॉक को हाइलाइट करेगा।

इसके बाद पर टैप करें चयन को पहचानें > वर्तमान पृष्ठ पाठ निष्कर्षण प्रक्रिया शुरू करने के लिए।

वैकल्पिक रूप से, टेक्स्ट को मैन्युअल रूप से चुनने के लिए, उस टेक्स्ट पर होवर करें जिसे आप निकालना चाहते हैं, और क्रॉस-हेयर का उपयोग करके उस क्षेत्र के चारों ओर एक बॉक्स बनाएं जहां से आप टेक्स्ट निकालना चाहते हैं। फिर, हिट करें चयन को पहचानें आगे बढ़ने के लिए बटन।

यदि यह एक पीडीएफ दस्तावेज़ है, और आप विभिन्न पृष्ठों से टेक्स्ट निकालना चाहते हैं, तो पर टैप करें प्लस (+) पृष्ठों को पलटने के लिए बटन।

वापस जाने के लिए, हिट करें ऋण (-) बटन। और फिर, उस टेक्स्ट का चयन करें जिसे आप निकालना चाहते हैं और हिट करें चयन को पहचानें इसे निकालने के लिए बटन।

हालांकि दुर्लभ, ऐसे समय हो सकते हैं जब gImageReader निकाले गए पाठ को अंग्रेजी के अलावा किसी अन्य भाषा में लौटाएगा। जब ऐसा होता है, तो बस बगल में स्थित ड्रॉपडाउन बटन पर टैप करें चयन को पहचानें बटन और अंग्रेजी विकल्पों में से एक का चयन करें।

अंत में, निकाले गए टेक्स्ट को सेव करने के लिए, पर क्लिक करें आउटपुट सहेजें बटन। यह सेव विंडो लाएगा। यहां, फ़ाइल को एक नाम दें और हिट करें ठीक.

आप gImageReader के साथ और क्या कर सकते हैं?

जैसा कि पहले उल्लेख किया गया है, gImageReader आपको आयातित छवियों या दस्तावेज़ों के कुछ पहलुओं को संशोधित करने का विकल्प भी देता है, जैसे उनकी चमक, कंट्रास्ट और रिज़ॉल्यूशन। इसके अतिरिक्त, यदि आवश्यक हो, तो आप रंगों को उल्टा भी कर सकते हैं या छवियों या दस्तावेज़ों को घुमा सकते हैं।

इनमें से अधिकांश विकल्प तब उपयोगी साबित हो सकते हैं जब किसी छवि या दस्तावेज़ का टेक्स्ट gImageReader के लिए सुपाठ्य न हो, और इसलिए, टूल को टेक्स्ट को पहचानने से रोक रहा हो।

इनमें से किसी भी संपादन विकल्प तक पहुंचने के लिए, क्लिक करें छवि नियंत्रण बटन, और यह मुख्य टूलबार के नीचे एक मिनी टूलबार दिखाएगा। यहां से, छवि या दस्तावेज़ पर अपना वांछित संपादन कार्य करने के लिए उपयुक्त बटनों का चयन करें।

लिनक्स पर टेक्स्ट एक्सट्रैक्शन gImageReader के साथ आसान हो गया

टेक्स्ट एक्सट्रैक्शन के लिए अक्सर सही टूल की आवश्यकता होती है: वह जो एक विश्वसनीय और सटीक ओसीआर इंजन को नियोजित करता है इसे किसी छवि या दस्तावेज़ में टेक्स्ट को प्रभावी ढंग से पहचानने में सक्षम बनाता है, ताकि आप इसे बिना किसी के कुशलता से निकाल सकें परेशानी।

gImageReader इसे अच्छी तरह से पूरा करता है, Tesseract OCR इंजन के लिए धन्यवाद जो यह पृष्ठभूमि में उपयोग करता है। इसके उपयोग में आसानी को ध्यान में रखते हुए, gImageReader निस्संदेह लिनक्स के लिए उपलब्ध सर्वोत्तम टेक्स्ट निष्कर्षण टूल में से एक है।

वैकल्पिक रूप से, यदि आप एक सरल समाधान की तलाश में हैं, तो आप TextSnatcher देख सकते हैं, जो तेज़ और उपयोग में बहुत आसान है।