Forum

Scannen von Dokumenten
Dezember 14, 2009, 11:54:33
Allgemeine Frage:

Wenn Dokumente gescannt werden, ergibt das ein pdf.
Dann lasse ich Texterkennung z.B. in Devonthink drüber laufen, wird dann pdf+Text.

Falls die Texterkennung z.B. bei Zahlen statt  einer 5 eine 6 erkennt, könnte das in meinem Geschäft fatal sein.
Möglichkeit wäre ja IMMER das pdf mit abzuspeichern um im Zweifelfall da nachzuschauen.

Oder kann man im erkannten Dokument auch noch auf das Original zuigreifen ?

Jochen
_______
Wenn Du es eilig hast, gehe langsam.

Florian

  • Zurück in der Zukunft
Re:Scannen von Dokumenten
Antwort #1: Dezember 14, 2009, 18:36:20
Allgemeine Frage:

Wenn Dokumente gescannt werden, ergibt das ein pdf.

Nicht unbedingt, aber wenn Du es so einstellst schon. :)

Zitat
Dann lasse ich Texterkennung z.B. in Devonthink drüber laufen, wird dann pdf+Text.

Ich habe DevonThink Office nicht, aber ich denke doch, man kann aus dem Programm heraus direkt scannen und durchsuchbare PDFs erzeugen. Dann erhielte man nur eine Datei, aus der man aber den Text rauskopieren können müsste.

Zitat
Falls die Texterkennung z.B. bei Zahlen statt  einer 5 eine 6 erkennt, könnte das in meinem Geschäft fatal sein.
Möglichkeit wäre ja IMMER das pdf mit abzuspeichern um im Zweifelfall da nachzuschauen.

Oder kann man im erkannten Dokument auch noch auf das Original zuigreifen ?
Jochen

Willst Du das Papier-Original entsorgen?

Wie auch immer, dass ist doch der falsche Weg. Wenn Du erst nachschaust, wenn was auffällt, ist es womöglich zu spät!
Also geht kein Weg um eine extrem penible Prüfung des Scanergebnisses herum!


Aber um Deine Frage zu benantworten: Scannst Du zunächst mit einem anderen Programm ein, dann würde ich nicht als PDF einscannen, sondern als TIFFs, das ist der einzig sichere Weg, denn dann findet keine Komprimierung und keine Umwandlung in Vektoren oder was auch immer statt. Es ist wie eine Photokopie. Wobei man auch hier kontrollieren muss, wie am Kopierer, ob nicht ein Haar oder Krümel aus einer 5 eine 6 machte.
Diese Grafikdateien kann man dann an sich einem OCR-Programm übergeben, ob DT das kann, weiß ich nicht, an sich ist es für Programm aber technisch nichts anderes. Und dann muss man noch mal prüfen.
 
_______
"If music be the food of love, play on!”
                         William Shakespeare
Re:Scannen von Dokumenten
Antwort #2: Dezember 14, 2009, 22:04:35
Allgemeine Frage:

Wenn Dokumente gescannt werden, ergibt das ein pdf.

Nicht unbedingt, aber wenn Du es so einstellst schon. :)
An dem Scanner wo ich das mache ist es halt als pdf eingestellt.


Zitat
Dann lasse ich Texterkennung z.B. in Devonthink drüber laufen, wird dann pdf+Text.

Ich habe DevonThink Office nicht, aber ich denke doch, man kann aus dem Programm heraus direkt scannen und durchsuchbare PDFs erzeugen. Dann erhielte man nur eine Datei, aus der man aber den Text rauskopieren können müsste.

Zitat
Falls die Texterkennung z.B. bei Zahlen statt  einer 5 eine 6 erkennt, könnte das in meinem Geschäft fatal sein.
Möglichkeit wäre ja IMMER das pdf mit abzuspeichern um im Zweifelfall da nachzuschauen.

Oder kann man im erkannten Dokument auch noch auf das Original zuigreifen ?
Jochen

Willst Du das Papier-Original entsorgen?
Nein, möchte kein Papier Original entsorgen. Momentan geht es nur so.
1) Einscannen als pdf
2) pdf kommt via email an meinen PC
3) pdf auf USB stick.
4) USB stick an Mac
5) Import mit Texterkennung in Devonthink

Die Punkte 3) und 4) könnte ich auch mit email realisieren

Wie auch immer, dass ist doch der falsche Weg. Wenn Du erst nachschaust, wenn was auffällt, ist es womöglich zu spät!
Also geht kein Weg um eine extrem penible Prüfung des Scanergebnisses herum!

Dann muss einer dokumentiert Korrektur lesen

Jochen
_______
Wenn Du es eilig hast, gehe langsam.

Florian

  • Zurück in der Zukunft
Re:Scannen von Dokumenten
Antwort #3: Dezember 14, 2009, 23:23:50
Also, wenn Du das PDF bekommst, kann ich mir kaum vorstellen, dass DT beim OCR-Vorgang das Original löscht, aber ich weiß es nicht - solltest Du vorher ausprobieren.

Ja, wenn Fehler so problematisch werden können, ist Kontrolle schon sehr wichtig. Wie ihr das in der Firma handhabt, weiß ich freilich auch nicht.
Ich denke mal, so wird ein Schuh draus mit Minimalaufwand:
OCR ja, aber nur zum Suchen. Nach Findung Sichtung im Original. Nie das durchsuchbare PDF als Datengrundlage nehmen.

Ob Du diese PDFs als Email nach Hause verschicken kannst/darfst, kann ich nicht sagen, womöglich steht dem ein gewisses Sicherheitsbedürfnis entgegen.
_______
"If music be the food of love, play on!”
                         William Shakespeare
Re:Scannen von Dokumenten
Antwort #4: Dezember 15, 2009, 07:41:59
Ob Du diese PDFs als Email nach Hause verschicken kannst/darfst, kann ich nicht sagen, womöglich steht dem ein gewisses Sicherheitsbedürfnis entgegen.

Ist in unserer Firma definitiv so. Es dürfen grundsätzlich keine Dokumente ausser Haus gebracht werden. Dürfte auch in anderen Branchen der Fall sein, wo mit sensiblen Daten gearbeitet wird.
Re:Scannen von Dokumenten
Antwort #5: Dezember 15, 2009, 07:54:39
Noch mal zur Technik

Frage ist:

Ich scanne ein Original (Manchmal ist das Original bereits eine Papierkopie)

Bekomme eine Bilddatei i.d.R pdf

Importiere mit Texterkennung.

Nun gibt es im Dokument mehrmals die Zahl 5 und auch die Zahl 6.

Die 5 wird von der Texterkennung teilweise fälschlicherweise als 6 erkannt.

Nun suche ich nach 6 und das Programm listet alle Treffer 6 auf, natürlich auch die falschen.

Wie wird dann die falsche 6 im Dokument angezeigt?

Sehe ich dann die falsche 6 an der Stelle wo eigentlich eine 5 stehen müsste oder sehe ich die richtige Bilddatei mit der richtigen 5.

Jochen
_______
Wenn Du es eilig hast, gehe langsam.
Re:Scannen von Dokumenten
Antwort #6: Dezember 15, 2009, 08:12:00
Sehe ich dann die falsche 6 an der Stelle wo eigentlich eine 5 stehen müsste oder sehe ich die richtige Bilddatei mit der richtigen 5.

Ich würde sagen, dass kann man nicht so einfach und generell beantworten. Es kann so oder so sein.

Es hängt davon ab, wie die Software, die das OCR macht und das durchsuchbare PDF erstellt, eingestellt ist oder aber wie es grundsätzlich das durchsuchbare PDF erstellt. Eine generell gültige Antwort wird es da wohl nicht geben.

Am einfachsten ist es, Du scannst mal ein Dokument schlecht ein, machst die ganze Prozedur und schaust, ob die im durchsuchbaren PDF angezeigten Zahlen/Texte sehr gut angezeigt werden oder genauso schlecht wie im Scan.
Im ersteren Fall bekommst Du also im durchsuchbaren PDF das Ergebnis der OCR angezeigt, d.h. als erkannter evtl falscher aber gut lesbarer Text.
Im zweiteren Fall bekommst Du im durchsuchbaren PDF das Original-Dokument angezeigt, d.h. als qualitativ schlechterer dafür aber originaler Text.
_______
Was ist die Mehrheit? Mehrheit ist der Unsinn, Verstand ist stets bei wen´gen nur gewesen." -- Schiller