SearARep

Programm zum
Suchen und Ersetzen in Dateien
mit eigener Scriptsprache

Wps RegEx

Kostenloses Programm zum lokalen Testen und Verwalten von Regulären Ausdrücken

Schriftzug Werner Perplies

Home

SearARep

Wps RegEx

Corel Ventura Informationen und Skripte

Anwenderforum zur CA Visual Objects Programmierung

OCR

OCR, Standardprogramm

OCR, Automatische Textaufbereitung (Kurzfassung)

OCR, Automatische Textaufbereitung (ausführlich)

automatische Textaufbereitung

Datenkonvertierung

Crossmedia Publishing

Database-Publishing

zur Person

Werner Perplies
Gramanstr. 56
84518 Garching a. d. Alz
Telefon: 0049-8634-329102
Telefax: 0049-12120-212988

E-Mail:
werner.perplies@weepee.de

Umsatzsteuer-
Identifikationsnummer
gemäß § 27 a Umsatzsteuergesetz:
DE 173599862

Haftungshinweis:
Trotz sorgfältiger inhaltlicher Kontrolle übernehme ich keine Haftung für die Inhalte externer Links.

Für den Inhalt der verlinkten Seiten sind ausschließlich deren Betreiber verantwortlich.

Alle Warenbezeichnungen dienen lediglich der Beschreibung meiner Dienstleistung.

Sie werden ohne Gewährleistung der freien Verwendbarkeit benutzt und sind möglicherweise eingetragene Warenzeichen.

© 2002-2008 Werner Perplies, Garching


Stand:
Garching a. d. Alz, den 04.11.2008 09:39 Uhr

[Sitemap]

Texteinlesen mit einem OCR-Standardprogramm

Der typische Arbeitsablauf besteht aus den Schritten:

  1. Einscannen einer oder mehrerer Testseiten. Dabei sollten Helligkeit und Kontrast so angepasst werden, dass der Text auf dem eingescannten Bild gut lesbar ist.

  2. Starten Sie dann den Erkennungsvorgang für diese Seiten.
    Prüfen Sie die Anzahl der Fehler.

    Versuchen Sie das Ergebnis durch Veränderung von Helligkeit, Kontrast und dem Einsatz eines eventuell vorhandenen Verschmutzungskorrekturwerkzeuges zu verbessern.

    Achten Sie besonders auf die richtige Erkennung von Satzzeichen, Akzenten und Umlauten.

  3. Sollte das Ergebnis auch jetzt noch nicht akzeptabel sein, können Sie bei einigen Programmen den Erkennungsvorgang trainieren.

  4. Scannen Sie jetzt alle Seiten ein. Je nach Scanner, Programm und Vorlage sind hierfür unterschiedliche Verarbeitungsschritte notwendig.

  5. Prüfen Sie nach, ob alle Seiten vollständig und in der richtigen Reihenfolge eingescannt wurden.

  6. Markieren Sie jetzt die Erkennungsbereiche und löschen Sie nicht benötigte Bereiche (z. B. Kopf−, Fuß− und Randbereiche).

    Oder überlassen Sie diesen Vorgang dem OCR−Programm. Prüfen Sie in diesem Fall, ob die automatische Erkennung korrekt ist. Lassen Sie jetzt den Erkennungsvorgang ablaufen.

  7. Das OCR-Prgramm wird Ihnen einen Text liefern, der nach meiner Erfahrung verschiedene Markierungen enthält:
    • nicht erkannte Buchstaben und Buchstabenkombinationen
    • unsicher erkannte Buchstaben und Buchstabenkombinationen
    • unbekannte Wörter

  8. Wenn möglich, sollten Sie den Text vor Beginn der Korrektur sichern.

  9. Prüfen Sie den erhaltenen Text und korrigrieren Sie die Fehler. Denken Sie dabei daran, Trennungen durch Trennvorschläge zu ersetzen oder sie zu löschen, wenn Sie den Text später in einem anderen Format wieder ausgeben wollen.
    • Achten Sie besonders auf Satzzeichen, Akzente, Umlaute, Gedankenstriche, Klammern und Anführungszeichen.
    • Prüfen Sie den erhaltenen Text auf Vollständigkeit.
    • Setzen Sie eventuell vorhandene Suchen- und Ersetzenfunktionen vorsichtig ein. Eine fehlerhafte, nicht sofort erkannte automatische Ersetzung ist oft nur durch mühsame manuelle Arbeit wieder rückgängig zu machen.
    • Sie können diesen Korrekturvorgang auch mit Ihrem Textverarbeitungsprogramm erledigen, verzichten dabei aber in der Regel auf die synchrone Darstellung der Bilddaten.

  10. Legen Sie den fertig korrigierten Text in dem gewünschten Ausgabeformat ab.
  11. Lesen Sie die erhaltene Datei in Ihrem Zielprogramm ein, gestalten und strukturieren Sie sie.
  12. Anschließend sollten Sie das erhaltene Produkt unbedingt noch einmal Korrektur lesen lassen.

Sie werden bei der Nachbearbeitung in vielen Fällen feststellen, dass

Viele Anwender kommen deshalb zum Ergebnis, dass der Gesamtaufwand für die Datenerfassung mit OCR-Programmen so aufwändig ist, dass die Neuerfassung dem OCR-Vorgang vorzuziehen ist.

Ich dagegen bin der Meinung, dass eine intelligentere Nachbearbeitung der Daten den Aufwand so verringert, dass die OCR-Verarbeitung absolut konkurrenzfähig ist.

Es geht also darum:

Lesen Sie hierzu bitte auch:

OCR mit automatischer Textaufbereitung:

Kurzfassung

Ausführliche Beschreibung


Anzeigen
InDesign Bücher (Auswahl):

Isolde Kommer (Autor), Tilly Mersin (Autor): Adobe InDesign CS3: Professionelles Publishing für Print und Web (Broschiert) Isolde Kommer (Autor), Tilly Mersin (Autor): Adobe InDesign CS3: Professionelles Publishing für Print und Web (Broschiert)

Christoph Grüder: Adobe InDesign CS3 mit DVD-ROM: Das Praxisbuch zum Lernen und Nachschlagen. Mit Referenzkarte und Video-Lektionen (Gebundene Ausgabe) Christoph Grüder: Adobe InDesign CS3 mit DVD-ROM: Das Praxisbuch zum Lernen und Nachschlagen. Mit Referenzkarte und Video-Lektionen (Gebundene Ausgabe)

Winfried Seimert: Das Einsteigerseminar Adobe InDesign CS3: Lernen - Üben - Anwenden (Broschiert) Winfried Seimert: Das Einsteigerseminar Adobe InDesign CS3: Lernen - Üben - Anwenden (Broschiert)

Gerald Singelmann: Adobe InDesign CS3 - Das Nachschlagewerk für Fortgeschrittene: FAQ: Antworten auf Ihre häufigsten Probleme (Gebundene Ausgabe) Gerald Singelmann: Adobe InDesign CS3 - Das Nachschlagewerk für Fortgeschrittene: FAQ: Antworten auf Ihre häufigsten Probleme (Gebundene Ausgabe)

Adobe Creative Team: Adobe Photoshop CS3/Adobe InDesign CS3 - Bundle: Classroom in a Book. Die offiziellen Trainingsbücher von Adobe System (Gebundene Ausgabe) Adobe Creative Team: Adobe Photoshop CS3/Adobe InDesign CS3 - Bundle: Classroom in a Book. Die offiziellen Trainingsbücher von Adobe System (Gebundene Ausgabe)

Sabine Hamann: InDesign CS2 in der Praxis (Broschiert) Sabine Hamann: InDesign CS2 in der Praxis (Broschiert)