Forum


Spickzettel

Neben den Buttons stehen unter anderem folgende BB-Codes zur Verfügung:

Bildgröße beschränken:
[img width=400 height=300]Bildadresse[/img]
Weglassen von height o. width behält Bildverhältnis bei.

Tabelle:
[table]
[tr][td]Zelle 1/1[/td][td]Zelle 1/2[/td][/tr]
[tr][td]Zelle 2/1[/td][td]Zelle 2/2[/td][/tr]
[/table]
[tr] = Zeile [td] = Zelle

Text:
[u]unterstreichen[/u]
[s]durchstreichen[/s]
[size=4]skalieren[/size]
[sup]hochsetzen[/sup]
[sub]runtersetzen[/sub]
Umbrechen[Br]Neue Zeile
[center]zentriert[/center]
[left]linksbündig[/left]
[right]rechtsbündig[/right]
[rtl]von rechts einschieben[/rtl]
[pre]Vorformattierung erhalten[/pre]
[move]Bewegen/Laufschrift[/move]
[shadow=red,right]Schattieren[/shadow]
[font=arial]Anderer Zeichensatz[/font]
[glow=yellow,2]„glühen“/markieren[/glow]

Horizontale Linie: [hr]

Abkürzung mit Erklärung bei Mouseover:
[acronym=Mysteriöse Inselzone]MIZ[/acronym]
am besten auch unterstreichen:
[acronym=Mysteriöse Inselzone][u]MIZ[/u][/acronym]

Link innerhalb des Beitrages oder derselben Seite:
Ziel setzen: [anchor=Ziel]Ziel[/anchor]
Link darauf: [iurl=#Ziel]Link zum Ziel[/iurl]

Link im selben Fenster öffnen:
[iurl]http://www.apfelinsel.de[/iurl]

Name:
Betreff:

Verifizierung:
Buchstaben anhören

Gib die Buchstaben aus dem Bild ein:


Zusammenfassung

Autor: MacFlieger
Dezember 15, 2009, 08:12:00
Sehe ich dann die falsche 6 an der Stelle wo eigentlich eine 5 stehen müsste oder sehe ich die richtige Bilddatei mit der richtigen 5.

Ich würde sagen, dass kann man nicht so einfach und generell beantworten. Es kann so oder so sein.

Es hängt davon ab, wie die Software, die das OCR macht und das durchsuchbare PDF erstellt, eingestellt ist oder aber wie es grundsätzlich das durchsuchbare PDF erstellt. Eine generell gültige Antwort wird es da wohl nicht geben.

Am einfachsten ist es, Du scannst mal ein Dokument schlecht ein, machst die ganze Prozedur und schaust, ob die im durchsuchbaren PDF angezeigten Zahlen/Texte sehr gut angezeigt werden oder genauso schlecht wie im Scan.
Im ersteren Fall bekommst Du also im durchsuchbaren PDF das Ergebnis der OCR angezeigt, d.h. als erkannter evtl falscher aber gut lesbarer Text.
Im zweiteren Fall bekommst Du im durchsuchbaren PDF das Original-Dokument angezeigt, d.h. als qualitativ schlechterer dafür aber originaler Text.
Autor: Jochen
Dezember 15, 2009, 07:54:39
Noch mal zur Technik

Frage ist:

Ich scanne ein Original (Manchmal ist das Original bereits eine Papierkopie)

Bekomme eine Bilddatei i.d.R pdf

Importiere mit Texterkennung.

Nun gibt es im Dokument mehrmals die Zahl 5 und auch die Zahl 6.

Die 5 wird von der Texterkennung teilweise fälschlicherweise als 6 erkannt.

Nun suche ich nach 6 und das Programm listet alle Treffer 6 auf, natürlich auch die falschen.

Wie wird dann die falsche 6 im Dokument angezeigt?

Sehe ich dann die falsche 6 an der Stelle wo eigentlich eine 5 stehen müsste oder sehe ich die richtige Bilddatei mit der richtigen 5.

Jochen
Autor: Chucky
Dezember 15, 2009, 07:41:59
Ob Du diese PDFs als Email nach Hause verschicken kannst/darfst, kann ich nicht sagen, womöglich steht dem ein gewisses Sicherheitsbedürfnis entgegen.

Ist in unserer Firma definitiv so. Es dürfen grundsätzlich keine Dokumente ausser Haus gebracht werden. Dürfte auch in anderen Branchen der Fall sein, wo mit sensiblen Daten gearbeitet wird.
Autor: Florian
Dezember 14, 2009, 23:23:50
Also, wenn Du das PDF bekommst, kann ich mir kaum vorstellen, dass DT beim OCR-Vorgang das Original löscht, aber ich weiß es nicht - solltest Du vorher ausprobieren.

Ja, wenn Fehler so problematisch werden können, ist Kontrolle schon sehr wichtig. Wie ihr das in der Firma handhabt, weiß ich freilich auch nicht.
Ich denke mal, so wird ein Schuh draus mit Minimalaufwand:
OCR ja, aber nur zum Suchen. Nach Findung Sichtung im Original. Nie das durchsuchbare PDF als Datengrundlage nehmen.

Ob Du diese PDFs als Email nach Hause verschicken kannst/darfst, kann ich nicht sagen, womöglich steht dem ein gewisses Sicherheitsbedürfnis entgegen.
Autor: Jochen
Dezember 14, 2009, 22:04:35
Allgemeine Frage:

Wenn Dokumente gescannt werden, ergibt das ein pdf.

Nicht unbedingt, aber wenn Du es so einstellst schon. :)
An dem Scanner wo ich das mache ist es halt als pdf eingestellt.


Zitat
Dann lasse ich Texterkennung z.B. in Devonthink drüber laufen, wird dann pdf+Text.

Ich habe DevonThink Office nicht, aber ich denke doch, man kann aus dem Programm heraus direkt scannen und durchsuchbare PDFs erzeugen. Dann erhielte man nur eine Datei, aus der man aber den Text rauskopieren können müsste.

Zitat
Falls die Texterkennung z.B. bei Zahlen statt  einer 5 eine 6 erkennt, könnte das in meinem Geschäft fatal sein.
Möglichkeit wäre ja IMMER das pdf mit abzuspeichern um im Zweifelfall da nachzuschauen.

Oder kann man im erkannten Dokument auch noch auf das Original zuigreifen ?
Jochen

Willst Du das Papier-Original entsorgen?
Nein, möchte kein Papier Original entsorgen. Momentan geht es nur so.
1) Einscannen als pdf
2) pdf kommt via email an meinen PC
3) pdf auf USB stick.
4) USB stick an Mac
5) Import mit Texterkennung in Devonthink

Die Punkte 3) und 4) könnte ich auch mit email realisieren

Wie auch immer, dass ist doch der falsche Weg. Wenn Du erst nachschaust, wenn was auffällt, ist es womöglich zu spät!
Also geht kein Weg um eine extrem penible Prüfung des Scanergebnisses herum!

Dann muss einer dokumentiert Korrektur lesen

Jochen
Autor: Florian
Dezember 14, 2009, 18:36:20
Allgemeine Frage:

Wenn Dokumente gescannt werden, ergibt das ein pdf.

Nicht unbedingt, aber wenn Du es so einstellst schon. :)

Zitat
Dann lasse ich Texterkennung z.B. in Devonthink drüber laufen, wird dann pdf+Text.

Ich habe DevonThink Office nicht, aber ich denke doch, man kann aus dem Programm heraus direkt scannen und durchsuchbare PDFs erzeugen. Dann erhielte man nur eine Datei, aus der man aber den Text rauskopieren können müsste.

Zitat
Falls die Texterkennung z.B. bei Zahlen statt  einer 5 eine 6 erkennt, könnte das in meinem Geschäft fatal sein.
Möglichkeit wäre ja IMMER das pdf mit abzuspeichern um im Zweifelfall da nachzuschauen.

Oder kann man im erkannten Dokument auch noch auf das Original zuigreifen ?
Jochen

Willst Du das Papier-Original entsorgen?

Wie auch immer, dass ist doch der falsche Weg. Wenn Du erst nachschaust, wenn was auffällt, ist es womöglich zu spät!
Also geht kein Weg um eine extrem penible Prüfung des Scanergebnisses herum!


Aber um Deine Frage zu benantworten: Scannst Du zunächst mit einem anderen Programm ein, dann würde ich nicht als PDF einscannen, sondern als TIFFs, das ist der einzig sichere Weg, denn dann findet keine Komprimierung und keine Umwandlung in Vektoren oder was auch immer statt. Es ist wie eine Photokopie. Wobei man auch hier kontrollieren muss, wie am Kopierer, ob nicht ein Haar oder Krümel aus einer 5 eine 6 machte.
Diese Grafikdateien kann man dann an sich einem OCR-Programm übergeben, ob DT das kann, weiß ich nicht, an sich ist es für Programm aber technisch nichts anderes. Und dann muss man noch mal prüfen.
 
Autor: Jochen
Dezember 14, 2009, 11:54:33
Allgemeine Frage:

Wenn Dokumente gescannt werden, ergibt das ein pdf.
Dann lasse ich Texterkennung z.B. in Devonthink drüber laufen, wird dann pdf+Text.

Falls die Texterkennung z.B. bei Zahlen statt  einer 5 eine 6 erkennt, könnte das in meinem Geschäft fatal sein.
Möglichkeit wäre ja IMMER das pdf mit abzuspeichern um im Zweifelfall da nachzuschauen.

Oder kann man im erkannten Dokument auch noch auf das Original zuigreifen ?

Jochen