CARA EKSTRAK TEKS DARI PDF dan GAMBAR

March 31st, 2015

gImageReader adalah antarmuka grafis GTK Tesseract-ocr, sebuah mesin software gratis optical character recognition (OCR).


Tesseract is a raw OCR engine, with no document layout analysis, no output formatting and no graphical user interface (GUI).

 
gImageReader memproses file gambar atau PDF yang kemudian dijadikan sebuah teks. Mendukung pemilihan kolom dan bagian dari dokumen, dapat membuka file PDF multipage atau gambar, mendukung semua format, dapat mengirimkan area yang dipilih ke Tesseract untuk recognition dan spell check output.
 

Optional: Install Tesseract OCR 3.0 SVN

Tesseract OCR 3.0 masih dalam pengembangan, tetapi dalam sebuah tes, bekerja jauh lebih baik pada versi stabil saat ini. Selanjutnya, PPA berikut dilengkapi dengan banyak tambahan file bahasa Tessaract jadi saya sarankan menginstal versi terbaru Tesseract OCR 3.0 SVN. Namun ini adalah sebuah opsional!

lihat selengkapnya disini

 

Aris Supriyanto, Saya adalah pengguna linux yang masih pemula (newbie), yang berusaha membagikan ilmu bagi sesama newbie (master boleh baca), saya kuliah di UTY (Universitas Teknologi Yogyakarta). dan silakan kunjungi website resmi saya http://www.aris-source.com

0 Komentar »

Beri Komentar

Nama

Alamat Email

Alamat Website

Komentar