Der Begriff Texterkennung ist inhaltlich eine optische Zeichenerkennung und stammt aus der Informationstechnik. Dabei geht es um die automatisierte Texterkennung von Bildern. Eine OCR Software wandelt Text aus Bildern oder PDFs in ein Dokument für Textprogramme. Fotografierte Texte können nach einer OCR Software Anwendung editiert werden. Des Weiteren lassen sich Dokumente in Bildformat in PDF Dateien umwandeln oder in eine Textdatei.
Das Programm muss für eine Texterkennung eine Vielzahl von Schrifttypen erkennen, die noch dazu in verschiedenen Größen dargestellt werden. Das Programm erkennt eine Vielzahl gleichartiger Pixel, die auf dem Bild abgebildet sind. Ein PDF-OCR Test liest den Text aus einem Dokument, da PDF-Dateien nicht immer kopierbar sind.
Ein OCR Software Test zeigt grundsätzlich allgemein 3 Funktionen:
Mit der Software lassen sich PDF-Dokumente in Textdokumente umwandeln. Das ist oft eine Zugabe der OCR Software.
Vom Scanner oder vom vorhandenen Bildelement wird ein Textinhalt von der Software gescannt.
Optische Texterkennung erfolgt in mehreren Schritten und ist ein komplexer Prozess. Vor der eigentlichen Texterkennung findet ein Preprocessing statt. Dabei wird das Ausgangsmaterial optimiert. Nach der Zeichenerkennung wird zur Fehlerreduzierung ein Postprocessing nachgezogen. Das Preprocessing führt folgende Aufgaben durch:
Nach dem Preprocessing wird die eigentliche Texterkennung durchgeführt. Dafür stehen 2 Arten zur Verfügung. Bei der Mustererkennung oder Matrix-Matching werden die Zeichen Pixel für Pixel verglichen mit einer entsprechenden Vorlage. Mit unbekannten Schriftarten funktioniert dieses Verfahren allerdings schlecht. Ein moderneres und komplexeres Verfahren ist die Feature-Extraction. Dieses Verfahren analysiert Eigenschaften von Buchstaben wie Kreuzungen von Winkel und Linien, Linien und vergleicht das Ergebnis mit abstrahierten Buchstabenmodellen.
Fast jedes OCR-Programm verwendet dieses Verfahren. Um die Erkennungsgenauigkeit zu verbessern, wird ein Postprocessing ausgeführt. Dabei geht es vor allem um sprachliche Analyse. Die einzelnen Wörter werden mit erlaubten Wörtern beispielsweise aus einem Lexikon abgeglichen. Die Sinnhaftigkeit wird mit linguistischen Methoden geprüft. Die modernsten OCR Programme können das Layout des ursprünglichen Materials zum großen Teil erhalten.
OCR Software wird für eine Reihe von Anwendungen benötigt. Die Software ist für spezifische Aufgaben notwendig. Typisch ist die OCR Software für ein Büro- oder Heimanwenderszenario. Beispielsweise wird eine Buchseite oder eine Rechnung gescannt und digital weiter verarbeitet. Das Dokument wird in durchsuchbarer Form archiviert. Weitere Anwendungsbeispiele für die Texterkennung sind:
Versicherungen: Schlüsselinformationen werden aus Versicherungsdokumenten automatisch ausgelesen.
Digitale Adressdatenbank: Übernahme von Daten von einer Visitenkarte,
Schnelle Digitalisierung: großer Mengen von gedrucktem Text zum Beispielbeim Projekt Gutenberg,
Volltextsuche in gedruckten Büchern: Google Books als Suchmaschine von Google, Anwender können im Web und in Büchern nach Schlüsselwörtern und Textstellen suchen.
Computer mit Stifteingabe: Umwandlung von Handschrift in Echtzeit, Hilfstechnologien für Sehbehinderte und Blinde.
Die Vor- und Nachteile beim Test einer OCR-Software zunächst allgemein zusammengefasst:
Vorteile
Nachteile
Zur proprietären OCR Software gehören zum Beispiel:
Als Nebenfunktionen in proprietärer Software gibt es die Module:
Cloudbasiert:
Als freie Software gibt es beispielsweise:
Am Beispiel von Abbyy FineReader werden einige Leistungen hervorgehoben. Die OCR Software ist PDF/A und PDF/UA kompatibel und unterstützt Dokumenttypen wie DOCX und XLSX. Das Programm verfügt außerdem über eine schnelle Stapelverarbeitung. Mit dem praktischen Schwärzungsmodus werden bestimmte Text- und Bildpassagen unkenntlich gemacht. Für die Speicherung können die Daten vorher komprimiert werden. Im Überblick enthalten die besten OCR Software Programme folgende Features, die vor einem Kauf im Test überprüft werden sollten:
Die OCR Software ist eine Texterkennung. Der Test zeigt, sie enthält in der Regel kein Buchführungsprogramm, keine Debitorenbuchhaltung und keine Rechnungsprogramme oder Faktura-Software. Sie dient nur zur Digitalisierung und Aufbereitung von Dokumenten für deren digitale Weiterverarbeitung.
Es gibt viele Anbieter, die entgeltlich Dokumente digitalisieren und aufbereiten. Die Leistungen sind teilweise unterschiedlich. Viele Unternehmen haben enormen Platzbedarf von Papierdokumenten, lange Zugriffszeiten, unvollständige Dokumente, falsche oder doppelte Ablage. Ein Dienstleister bietet Digitalisierungslösungen für Geschäftsprozesse an und führt Unternehmen und bestimmte Abteilungen schrittweise an das papierlose Büro heran. Folgende Dienstleistungen können enthalten sein, die der Käufer prüfen sollte entsprechend seines Bedarfs:
Die Vorteile aus dieser Dienstleistung sind:
Effizienzsteigerung und Prozessoptimierung, Fehlervermeidung durch Schnittstellen-Abbau, keine Ressourcenbindung durch externe Dienstleistungen, Vermeidung von Medienabbrüchen, die Ablage ist 100 % digital, Teamwork-Nutzung mit standortunabhängigen Mehrfachzugriff, schnelle Suche, geringe Zugriffszeiten, besserer Kundenservice mit verminderter Reaktionszeit, geringes Verlustrisiko von Dokumenten, erhöhte Beweisfähigkeit, Kosteneinsparungen, Reduzierung von Lagerflächen, keine Zustellung von Hauspost. Das Beleggut können Verträge, Eingangsrechnungen, Spesenbelege, Formular-Rückläufer, Frachtbriefe, Lieferscheine u. v. m. sein.
Das erspart den Mitarbeitern Zeit für wichtigere Aufgaben. Es werden nicht nur Farbscans und die Kategorisierung vorgenommen, sondern auch die Trennung und Erfassung aller Dokumente. Die Vorteile dieser digitalen Personalakte sind u. a.:
Effizienzsteigerung, bessere Zugriffsmöglichkeiten, schnelles Auffinden nach Stichwort, digitale Dokumenten-Workflows, übersichtliche Versionierung, revisionssichere Archivierung, Ausschluss von Medieneinbrüchen, Kosteneinsparungen, geringer Archivfläche, individuelle Rollen- und Rechteverteilung. elektronische Gehaltsabrechnung
Mit einer enthaltenen digitalen Gehaltsabrechnung reduzieren sich die Kosten um bis 70 %. Es fallen sämtliche Druckkosten weg, ebenso Kuvertierung, Postversand oder Postaushändigung.
Jedes Unternehmen muss sich mit Bearbeitung von Rechnungen beschäftigen. Dabei bleiben Optimierungspotenziale größtenteils ungenutzt. Der Test einer OCR Software beinhaltet das Einscannen der Belege, die Erfassung notwendiger Positionen und die pünktliche Datenlieferung. Die Papierrechnungen brauchen nicht mehr physisch archiviert werden. Alle Daten werden in digitaler Form zur Verfügung gestellt. Die Vorteile des digitalen Rechnungseingangs sind beispielsweise:
Die Vergleiche bei OCR Software Webseiten gestalten sich nach unterschiedlichen Gesichtspunkten. Meist wird eine Abbildung gezeigt und das Modell benannt. Die Bewertung und Auszeichnung erfolgt größtenteils nach ISO 9001 TÜV. Da viele Produkte über Amazon verkauft werden, werden nachfolgend die Amazonbewertungen ausgewertet und in Sternenangaben hinterlegt, wobei 5 Sterne die beste Bewertung ist. Anschließend erfolgt eine Kompatibilitätsprüfung, ob das Produkt mit Apple oder Windows u. a. verträglich ist. Beim Test der OCR Software Texterkennung erfolgt bei den Vergleichsseiten oft die Bewertung in kleinen Balken. 10 Balken bedeutet dann die höchste Bewertung.
Die Vergleichssieger besitzen 10 oder nicht viel weniger dieser Balken. Die Funktionen wie PDF erstellen, PDF konvertieren, PDF bearbeiten oder PDF-Formulare ausfüllen werden nach Vorhandensein gekennzeichnet. Die Sprachanalyse ergab beim Test, wie viele Erkennungssprachen die OCR Software anbietet. Es schließt sich die Auflistung der Vorteile der jeweiligen OCR Software an. Einige davon sind beispielsweise folgende:
Ein anderer Vergleich bei Mysoftware schlüsselt die OCR Software auf nach OCR, PDF erstellen, PDF konvertieren, PDF bearbeiten, Formulare auslesen, digitale Signaturen anfügen, ePUB anzeigen, Stapelverarbeitung, Bates-Nummern, PDF zu PDF/A und Passwortschutz. Als Testsieger ging Abbyy FineReader hervor. Die Software unterstützt mehr als 100 Sprachen und besitzt ein übersichtliches Nutzermenü. Leider gibt es keinen telefonischen Support.
Der Menüaufbau orientiert sich am Layout bekannter Textverarbeitungsprogramme. Die OCR Software ist ein exzellentes Texterkennungsprogramm zum schnellen Konvertieren. Damit kann leicht gearbeitet und ausgedruckt werden. Allerdings besteht der Support nur aus E-Mail-Kontakt. Ein Telefonsupport gibt es nur im Abonnement. Auf Platz 3 im Test gesellt sich Omnipage Ultimate hinzu.
Es verfügt über eine hohe Genauigkeit bei der Texterkennung und ist ideal geeignet, automatisch eine große Anzahl von Dokumenten zu verarbeiten. Im Vergleich der OCR Software wird offensichtlich, dass sie eine gute Text-in-Sprache-Ausgabe mit vielen Schnittstellen zu Cloud-Diensten wie Evernote, Google Drive oder Dropbox besitzt. Die Benutzeroberfläche könnte etwas besser gestaltet werden und regelmäßige Updates sind hier wünschenswert.
Der Kauf, Abschluss oder ein Abo zahlt sich besonders dann in einem Unternehmen aus, wenn im eigenen Betrieb kaum Ressourcen zur Digitalisierung vorhanden sind, große Mengen Papierpost eingehen, mehrere Mitarbeiter Zugriff benötigen, wenn Hosting und Indexierung einen hohen Aufwand erfordern, schnelle Verarbeitungsprozesse erforderlich sein müssen.
Durch eine digitale Personalakte im Unternehmen reduzieren sich:
Im Test zeigt sich, die OCR Software kann nur so gut arbeiten, wie die Qualität der Bilder es zulässt. Hier unterscheiden sich die einzelnen Programme. Gute Programme besitzen eine weitaus bessere Erkennung als weniger gute Programmen. Orientieren kann man sich an den Vergleichssiegern. Ein Vergleichssieger bietet oft eine ausreichend gute Leistung an Texterkennung. Eine gute Software sollte einen Großteil aller textlichen Inhalte bewältigen können. Eine Software ist so gut wie die Qualität der Bilder. Eine Texterkennung darf nicht erfolgen, wenn damit das Urheberrecht gefährdet ist. Ein OCR Software Test zeigt die Leistungen der Programme auf und deren Features. Der Schutz von Dokumenten ist trotzdem gesichert.
Sicherungen darf die Software nicht umgehen. Das betrifft den Kopierschutz oder eine spezielle Sicherung einer Datei. Ein Erschließen von Textinhalten ist nicht mit Abschriften notwendig. Vergleiche ergaben, dass viele OCR Software Programme in zahlreichen Sprachen Alternativen der Texterkennung besitzen. Akzente und Sonderzeichen müssen entsprechend richtig gesetzt werden.
Ein Test von OCR Software zeigt anhand der Features, welche Leistungen in der OCR Software angeboten werden. Man erkennt aus den Features, wie viele Sprachen angeboten werden oder ob Anglizismen erkannt werden. Wenn wenig Speicher vorhanden ist, kann ein zu bezahlendes Online-Tools eine gute Alternative sein. Oft stehen Testphasen zur Verfügung, um das Tool eine gewisse Zeit zu testen, bevor überhaupt ein Kauf erfolgt. Beispielsweise ist die OCR Software für Akademiker geeignet, die Mitschriften von Vorlesungen in einer saubere Textform übertragen wollen.
Abbyy ist ein Unternehmen für digitale Intelligenz. Die digitale Intelligenz mit Zugriff auf Echtzeitdarten wirkt sich besonders auf Sichtbarkeit und Compliance, Wettbewerbsvorteil und Kundenerfahrung aus. Zur Steigerung der digitalen IQ von Unternehmen müssen diese auf eine Fülle von wichtigen Daten zugreifen können. Das Unternehmen leistet seinen Beitrag, indem es Technologien und Fachwissen mit der Gesellschaft teilt und mithilfe von speziellen Lösungen Informationen in wertvolles Wissen umwandelt. Es wurde sowohl im kommerziellen als auch sozialen Bereich eine Reihe von Projekten für lokale, nationale und internationale Regierungen abgeschlossen. Dazu gehört die Digitalisierung der Gutenberg-Bibliothek genauso wie das Theaterarchiv in Bolschoi. Diese Projekte unterlagen alle einer wichtigen sozialen Funktion. Abby bietet Lösungen für
Geschäftsabläufe: digitale Intelligenz, Content Intelligence, Prozessintelligenz, Automatisierung von Roboterprozessen, Automatisierung der Kreditorenbuchhaltung, Unternehmensautomatisierung, Mailroom-Automatisierung, mobile Erfassung, Kundenerfahrung, Archivierung digitaler Dokumente, Formularverarbeitung, Dokumentenklassifizierung.
Branchen: Finanzdienstleistungen, Versicherung, Regierung, Gesundheitswesen, Legal, Transport und Logisitik, Bildung, Business Process Outsourcing, Shared Service Center.
integrierte Lösungen: UiPath, Blaues Prisma, SAFT, Laserfiche, SharePoint u. a.
Über Iris mit Hauptsitz in Belgien werden spezielle Softwareangebote im Internet vermarktet, unter anderem ein OCR Software Programm von HP. Das Unternehmen bietet PDF- und OCR Lösungen an. Dazu gehören beispielsweise Readiris für Windows, Readiris für Mac, PDF Konverter, IrisSmart file, IriSmart Invoice, IriSPowerscan für Rechnungen, Formulare oder Server. Des Weiteren vertreibt Iris mobils Scanner wie zum Beispiel Buchscanner, Mausscanner, kabellose Scanner, Digitalmarker, digitale Smart Pen, mobile USB-Scanner, Scanner mit Mehrblatteinzug oder Visitenkartenscanner. Die Produkte werden registriert und die Software kann heruntergeladen werden. Bei der Software Readiris 17 handelt es sich um eine OCR Software für PDF- und OCR-Erstellung. Man kann mit dem Programm PDF-Dateien zusammenführen und trennen, Papierdokumente konvertieren, bearbeiten und in verschiedene digitale Formate überführen.
Die konvertierten Dokumente können unterschrieben und geschützt verschickt werden. Im Programm werden 138 Sprachen erkannt. Aber nicht nur PDF-Produkte, Dokumentensoftware, mobile Scanner werden vorgestellt, sondern auch Unternehmenslösungen für die Branchen Bildung, Recht, Immobilien, Gesundheit, Logistik, Notarwesen und Öffentlichkeit. Dabei geht es unter anderem auch um Rechnungsverwaltung, Verwalten von Ausweisen etc., Verwalten von Patientenakten oder Verwaltung von Liefer- und Versanddokumenten.
Das Unternehmen Avantquest hat seinen Sitz in Frankreich und betreibt internationale Webseiten ind englischer, französischer, deutscher, italienischer und spanischer Sprache. Avantquest gehört zu den 10 weltweit größten Unternehmen im Bereich Vertrieb und Entwicklung von Software-Anwendungen für PCs, Smartphones, Tablets, TV und soziale Netzwerke. Es wurde 1984 gegründet und verfügt über Teams in Europa, Asien und Nordamerika. Avantquest ist einer der 10 führenden Hersteller von Software für einen großen Anwenderbereich. Dazu gehören PC-Optimierungssoftware, Grafikprogramme, Lernprogramme, Spiele und Hardware-Produkte. 10 Millionen Kunden vertrauen dem Unternehmen. Pro Jahr werden mehr als 650.000 Programme verkauft. Über diese Webseiten kann mit Vertrauen eingekauft werden. Sowohl der Schutz der Privatsphäre, Geld-zurück-Garantie, Versandinformationen, Liefermöglichkeiten, Widerrufsrecht, Registrierung u. v. m sind erläutert und lassen kaum Fragen offen. Das Unternehmen vertreibt auch Expert PDF. Der Test zeigt deutlich, diese OCR Software verwandelt jedes PDF-Bild in eine bearbeitbare Datei mittels der im Programm enthaltenen OCR-Funktion. Die Features dieser OCR Software im Vergleich zu anderen sind:
Franzis ist der Name für High-End-Fotosoftware in Deutschland. Das Unternehmen bietet schnelle und kompetente Lösungen für Profis und Hobbyisten mit Büchern, Baukästen, Webinaren und Software. Es stehen über 100 Studienpakete, Baukästen oder Experimentierboxen zur Verfügung, wodurch neue Technologien sowie Grund- und Expertenwissen für jeden zugänglich gemacht wird. Das Unternehmen verfügt über mehr als 15 Jahre Erfahrung in der Herausgabe von Fotografie-Software. Franzis und Software Publisher sind die ältesten technischen Fachverlage in Deutschland. 1920 wurde das Unternehmen von Franzschen Printers gegründet, das seit 1828 in München seinen Sitz hatte.
In den 30er-Jahren wurden erstmalig Bücher veröffentlicht. Seit 1948 ist Franzis als Fachbuch- und Zeitschriftenverlag etabliert. Das Unternehmen Franzis wurde von WEKA Media übernommen und fusionierte auch mit früheren PC-Magazinen. Heute hat der Verlag seinen Sitz in Haar bei München. Die Erfahrung von Franzis insgesamt basiert auf 25 Jahre Erfahrung mit Software, 10 Jahre Erfahrung mit Einblicke und Strategie, 8 Jahre Erfahrung mit Medienforschung und 7 Jahre Erfahrung mit Marketingdaten. Mit den Produkten von Franzis kann der Anwender experimentieren, fotografieren und programmieren. Franzis verbindet Unterhaltung mit Lernen.
Für Unternehmen sind Online-Strategien attraktiv. Man kann als Unternehmer überregional auf sich aufmerksam machen. Werbung kann personalisiert und zielgruppengerecht geschaltet werden. Der Erfolg ist anhand von Klickzahlen und Conversion-Rates messbar. Werbung online kann jederzeit dem aktuellen Trend angepasst werden. Für die Unternehmen bietet sich eine Vielzahl möglicher
Marketingmaßnahmen:
Als Käufer hat man den Vorteil, verschiedene Angebote zu vergleichen und zu testen. Man spart sich den Kauf im Shop, spart Zeit und schont die Nerven. Denn nicht immer wird man im Geschäft optimal beraten, es fehlen schlichtweg die Vergleiche zu einem breiten Spektrum von Angeboten. Ein Verkäufer eines Shops ist nur auf seine Produkte orientiert und kann nicht das beste Angebot heraussuchen.
Die Texterkennung hat ihren Ursprung bereits im 20. Jahrhundert. Bereits 1900 wurde eine Texterkennungsmaschine als Blindenlesehilfe konstruiert. 1912 wurde ein Optophone als funktionsfähige Lesemaschine konstruiert. Es wurden Buchstaben in Töne umgewandelt, die von Blinden interpretiert werden konnten. Die Lesegeschwindigkeiten waren mit einem Wort pro Minute sehr langsam. Später steigerte sich das Ergebnis auf 60 Wörter pro Minute. 1931 wurde eine Statistikmaschine entwickelt, die Zeichen erkennen und in Morsecode umwandeln konnte. 1951 kam eine Maschine hinzu, die in der Lage war, Morsecode und geschriebenen Text Buchstabe für Buchstabe vorzulesen. 1954 gab es die erste tragbare Lesemaschine, die in etwa die Größe eines Kassettenrekorders hatte. Auf dem Gerät sind fühlbare Metallstäbe, die ein fühlbares Bild des Buchstabens erzeugen.
Das Optacon ermöglichte das Lesen von gedrucktem Text. Bis dahin funktionierten diese Geräte noch ohne Digitaltechnik und Computer. 1974 machte die optische Zeichenerkennung den Sprung in das digitale Zeitalter. Es wurde die erste OCR-Software entwickelt von der Firma Kurzweil. Dazu waren weitere Technologien wie Flachbettscanner und Text-to-Speed-Engine notwendig. In Kombination aller dieser Techniken wurde 1976 das fertige Gerät vorgestellt. 2 Jahre später kamen entsprechende Systeme auf den Markt. Diese Geräte waren nicht nur als Lesehilfe nützlich. Damit wurden auch Gesetzestexte und Zeitungsmeldungen digitalisiert.
Adobe steigert seine Umsatz seit Jahren, beispielsweise sind es etwa 1,4 Mrd. US-Dollar allein im Geschäftsquartal. Die Anwender können zwar kostenlos die PDF-Dateien verwenden, doch Adobe stellt noch viele andere Programme zur Nutzung bereit. Dazu gehören beispielsweise:
Photoshop, Lightroom, Illustrator, InDesign, Acrobat Pro DC, Experience Design, Premiere Pro, After Effects, Animate, Dreamweaver, Muse, Fuse, Audition, Bridge, Flash Builder, InCopy, Prelude, Media Encoder, Spark, Scout, SpeesGrade, Story Plus, PhoneGap Build, Prelude Live Logger, Creative Cloud, Gaming SDK, Extension Manager, ExtremdScript, Toolkit.
Viele der Konvertierungsprogramme sind in der Menüführung in Deutsch und einfach selbsterklärend ausführbar. In der Regel sind allgemein folgende Schritte vorzunehmen.
Datei auswählen: Schaltfläche Dateien hinzufügen, um PDF-Dateien zu importieren. Die Dateien werden dann in der Vorschauliste aufgezeigt und können vom Reader seitenweise einzeln betrachtet werden. Format bestimmen: Im Dropdown kann das Format ausgewählt werden. Die OCR Software Tools bieten eine Vielzahl von Formaten für Bilder, Tabellen, Texte, Präsentationen, Internet und E-Book Reader. Eventuell können die exakten Seitenbereiche ausgewählt werden. In weiteren Einstellungen sind noch Angaben möglich zur Feinjustierung und OCR-Spracherkennung.
PDF konvertieren: Es wird nur noch der Start Button gedrückt und die Datei konvertiert. Die bearbeiteten Dateien sind im Ausgabeordner zur Weiterverarbeitung gespeichert.
Zur Verbesserung der Ergebnisse sollten die Dokumente vor der Bearbeitung überprüft werden.
Durchscheinende Zeichen unterdrücken
Bei beidseitig bedruckten Vorlagen können Zeichen durchscheinen. Eine gute Hilfe ist ein Stück schwarze Pappe, die bei Flachbettscanner zwischen Scannerdeckel und Vorlage gelegt wird.
Medien ausrichten
Bei der Texterfassung eines Bildes sollte von Optionen wie Drehen etc. Abstand genommen werden. Die OCR-Vorlagen sind exakt waagerecht auszulegen, da schräge Vorlagen die durch Software gedrehten Vorlagen die OCR-Erkennungsrate extrem verschlechtern.
Wellige Vorlagen glätten
Nach einer längeren Lagerung haben Vorlagen mitunter qualitativ erhebliche Einbußen zu verzeichnen, was sich in einer starken Welligkeit ausdrückt. Dadurch verschlechtert sich die Texterfassung. Das Papier sollte nach Möglichkeit geglättet werden, indem ein par schwere Bücher auf den Scannerdeckel gelegt werden.
OneNote einsetzen
Wer OneNote ab Version 7 aus Microsoft Office zur Verfügung hat, kann sich den Umweg über eine OCR Software oft sparen. Der Scanner kann dann direkt angesprochen und der erkannte Text eingefügt werden. Über das Register Einfügen und Scannerausdruck wird das Gerät ausgewählt und die Auflösung festgelegt. Nach dem Scan wird das Bild direkt in die OneNote-Seite eingefügt.
Suchen und Ersetzen
Bei OCR besteht eine Fehlerquote von 1 Promille, das heißt, 99,9 % werden richtig erkannt. Aller 150 deutscher Wörter passiert evtl. ein Fehler. Mit einer Rechtschreibkorrektur kommt man den Fehlern auf die Spur. Einfach mit Suchen und Ersetzen kann man das schnell ausbügeln.
Vorsicht bei Tabellen
Beim OCR-Software-Verfahren sind Tabellen oder Zahlenlisten problematisch. Bei Ziffern schleichen sich schneller Fehler ein, während Texte sich nach syntaktischen und semantischen Strukturen richten. Das Scanergebnis sollte durch unterschiedliche Einstellungen optimiert und die Ergebnisse miteinander genau verglichen werden.
Kostenlose OCR Software
Leistungsfähige OCR Software Angebote gibt es fast nur bei kommerzieller
Software. Das Angebot kostenloser OCR Software ist eher dünn. Wer nur wenige
Seiten erfassen möchte, ist mit der kostenlosen Software von FreeOCR, Cognitive
OpenOCR oder FreeOCR für Windows gut bedient.
PSD, PSB, BMP, GIF, DCM, EPS, DCS, IFF, JPG, MPO, PCX, PDF, RAW, PXR, PNG, PBM, SCT, TGA, TIF
Nicht nur Stiftung Warentest, sondern auch andere Webseiten führen Vergleiche und Tests von OCR Software durch. Bei Netzsieger.de werden die besten OCR Programme unter die Lupe genommen. Für die Tests und Vergleiche der Software werden bestimmte Kriterien zugrunde gelegt. Das kann beispielsweise als Orientierungshilfe bei einer Kaufentscheidung dienen. Die Kriterien von
Netzsieger sind:
Das Ziel ist die Bereitstellung von Texten zur Weiterverarbeitung als grundlegende Funktion. Wichtig ist, dass der Text als Ganzes ohne Lücken erfasst werden kann. Ebenso spielt die Vielseitigkeit bei der Anwendung eine Rolle. Das Programm sollte nicht nur PDF-Dateien bearbeiten können. Die Software sollte unbedingt Microsoft Word und Microsoft Office unterstützen. Ausländische Schriften sollten genauso gut wie deutsche Vorlagen entziffert werden können. Je mehr Erkennungssprachen vorhanden sind, desto einfacher ist die Verarbeitung von Texten. Funktionen wie Vergrößern, Verkleinern, Verschieben etc. sollten vorhanden sind.
Die Programme decken ein großes Funktionsspektrum ab, da Ansprüche und Vorstellungen oft verschieden sind. Die Versionen liegen auf CD vor oder können direkt per Download aus dem Internet heruntergeladen werden. Der Preis ist vom Leistungsumfang abhängig. Es gibt auch kostenlose Varianten, die aber oft erst mit der Vollversion voll funktionsfähig sind. Die Lieferzeiten sind möglichst zeitnah vorzunehmen. Es besteht auch die Möglichkeit für einen Erwerb in Computershops, Fachhandel oder in Elektronikfachmärkten. Am schnellsten funktioniert aber der Download per Internetkauf.
Die Anwendung einer solchen Software ist in der Regel nicht schwierig. Sie funktioniert immer nach demselben Prinzip. Vorhanden sein sollten benutzerfreundliche und übersichtliche Menüs. Das Ablesen des Vorlagetextes sollte mit wenigen Klicks möglich sein. Alle Funktionen müssen leicht verständlich und gut ersichtlich aufgezeigt werden.
Oft gibt es Fragen und Probleme, die trotz der Übersichtlichkeit auftreten bzw. die nur von einem Fachmann geklärt werden können. Ein Support sollte per E-Mail, Live-Chat oder per Telefon möglich sein. Ebenso nützlich ist ein umfangreicher FAQ-Bereich, der die wichtigsten Fragen vorab schon mal klärt. Adressen, Tutorials oder Handbücher sind besonders für Anfänger unumgänglich.
Unsere Empfehlungen sind nach dem Test die Software OMNIPAGE Ultimate von Nuance. Sie unterstützt 120 Sprachen, das Einlesen von Tabellen und Inhalten geschieht nahezu problemlos. Eine Alternative dazu ist ABBYY FineReader. Dieses Programm kennt die meisten Eingabeformate und alle relevanten Dateiformate für die Ausgabe.
Bei Stiftung Warentest gibt es einen Schnelltest aus dem Jahr 2009 mit Texterkennung für Blinde, oder Handy liest vor. Die Texterkennungssoftware knfb-Reader macht das Handy zum Vorlesegerät. Das ist für Blinde und Sehbehinderte geeignet, wobei Texte fotografiert und abgehört werden können.
Die schriftstücke zu fotografieren ist im Moment für Sehbehinderte oder Blinde ein Problem. Der Reader selbst kann über die Tastatur bedient werden. Alle Grundfunktionen können mit nur einer Taste ausgelöst werden. Zur Sprachausgabe stehen synthetische Stimmen zur Verfügung.
Es gibt viele kostenlose OCR-Programme. Folgende Hersteller stellen sehr gute Markenprodukte her:
Zunächst wird ein Bild von einer Textseite erstellt. Das Bild kann mithilfe eines Scanners oder einer Digitalkamera erstellt werden. Als Bilddatei wird dann mit dem Texterkennungsprogramm gescannt. Daraus entsteht dann eine PDF-Datei, die für die elektronische Datenverarbeitung weiter verwendet werden kann. Der Text kann auch über einen PDF-Editor und einem Textverarbeitungsprogramm bearbeitet werden. Die erstellte Datei kann auf dem PC oder auf
Bei der Stiftung Warentest wurde kein expliziter Test bis auf den Test 2009 für die Blindenselbsthilfe für das Handy durchgeführt.
Das ist mit einem guten PDF-Editor lassen sich gewisse Bearbeitungen an PDF-Dateien vornehmen. Folgende Elemente können eingefügt werden: Wasserzeichen, Verknüpfungen, Hintergründe, Text-, Audio- und Videokommentare.
Mitunter ist eine Software mit zu vielen Features nicht nötig. Die Software sollte bei Online-Anwendung nicht zu viel an Speicher beanspruchen. Es reicht nicht, dass es nur Funktionen wie Microsoft Office besitzt, anbietet. Es kommt also darauf an, eine Software mit nicht zu vielen unnötigen Features preisgünstig zu erwerben.
Bei Amazon gibt es viele günstige Angebote an OCR-Software. Zum Vergleich kann sich der Kunde den notwendigen Überblick verschaffen. Der Anwender braucht nicht auf den Herstellerseiten lange zu suchen. Die Händlerinformationen sind auf der Amazon-Seite bereits gut beschrieben. Einen gute Orientierung verschaffen die bei Amazon aufgeführten Kundenbewertungen für eine erste Einschätzung und als Kaufhilfe.
Es gibt einige Programme bei Windows, die Dateien von optischen Eingabegeräten in Text umwandeln können. Es werden 3 Programme vorgestellt. FreeOCR, Abbyy FineReader Pro, Free OCR to Word.
Der Test zeigt, das Programm erkennt Texte aus Bildern und PDF-Dateien. Anschließend kann der Text in ein Word-Dokument exportiert werden oder in das RTF von Microsoft. Nach dem Start wird im linken Teil das Bild oder die PDF angezeigt und rechts der erkannte Text. Das Programm kann auch den Scanner ansprechen. Oben rechts kann für die Texterkennung die Sprache festgelegt werden. Die Benutzeroberfläche steht nur englisch zur Verfügung. Es ist ein kostenloses Programm.
Für 30 Tage kann das Programm kostenlos getestet werden. Nach Kauf steht der volle Funktionsumfang zur Verfügung. Der Unterschied zum FreeOCR besteht auch in der deutschen Benutzeroberfläche.
Der Test des Programms zeigt auf, wie die Texte bestimmter Dateien werden durch das Programm in Word exportiert werden. Es werden keine PDF-Formate unterstützt, nur Bild-Formate. Das Programm steht kostenlos zur Verfügung und besitzt nur eine englische Benutzeroberfläche. Bei der Installation ist auf Zusatzprogramme zu achten.