Feedback

C# - OCR / Google´s Tesseract / Captcha cracking u.v.m.

Veröffentlicht von am 31.03.2017
(1 Bewertungen)
OCR - Optical Character Recognition

Mit diesem Snippet könnt ihr einfache Captcha Bilder lösen. Und nicht nur das, bei Filter könnt ihr z.B. noch Zahlen hinzufügen wenn ihr versuchen wollt Auto Kennzeichen aus Bildern zu lesen oder was auch immer ...

Die Sprache lässt sich auch einstellen, aber wie Tesseract an sich funktioniert könnt ihr ja googeln ;-)

Usings:
- using Tesseract;
- using System.Drawing;

Ich verwende:
- Tesseract 3.04
https://github.com/charlesw/tesseract

Benötigt:
- Visual C++ Redistributable für Visual Studio 2015
https://www.microsoft.com/de-DE/download/details.aspx?id=48145
        /// <summary>
        /// Bildtext lesen / Read Image Text
        /// </summary>
        /// <param name="ImgPath"></param>
        /// <returns>Bildtext / Image Text</returns>
        string OcrDoYourThing(Bitmap ImgPath)
        {
            var imgsource = new Bitmap(ImgPath);
            var tessdata = Application.StartupPath + "\\tessdata";
            var filter = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";

            var ocrtext = string.Empty;
            using (var engine = new TesseractEngine(tessdata, "deu", EngineMode.Default))
            {
                engine.SetVariable("tessedit_char_whitelist", filter);
                using (var img = PixConverter.ToPix(imgsource))
                {
                    using (var page = engine.Process(img))
                    {
                        ocrtext = page.GetText();
                    }
                }
            }
            return ocrtext;
        }

Kommentare zum Snippet

 

Logge dich ein, um hier zu kommentieren!

Ähnliche Snippets