Just nu i M3-nätverket
Gå till innehåll

Sökning i PDF-filer


TomV
 Share

Go to solution Solved by Cecilia,

Rekommendera Poster

Kan någon förklara anledningen till följande.
En PDF-fil skapad med "pdf Archtect 8" kan jag läsa med hjälp av Acrobat Reader, däremot får jag "0 träff" när jag söker på textsträngar som bevisligen finns i dokumentet.
Det som förbryllar mig att liknande filer som påstås också vara skapade med "pdf Archtect 8" för några månader sedan kan jag både läsa och göra sökningar i.
Vad kan vara förklaringen till skillnaden?

Länk till kommentar
Dela på andra webbplatser

  • Solution

Är den här filen och de tidigare skapade på samma sätt utifrån samma typ av grundmaterial?

Ibland kan ju en PDF i huvudsak bestå av bilder, som i sin tur visar text, men då blir nog inte texten i bilderna sökbar.

Länk till kommentar
Dela på andra webbplatser

Filerna som är sökbara resp. icke sökbara har liknande innehåll och består enbasr av text, inga bilder.

Länk till kommentar
Dela på andra webbplatser

7 timmar sedan, skrev TomV:

Filerna som är sökbara resp. icke sökbara har liknande innehåll och består enbasr av text, inga bilder.

En bild med text kan ju se ut som text. 
Är texten markerbar? Om inte så är det en bild eller låst dokument.

Redigerad av polken
Länk till kommentar
Dela på andra webbplatser

8 timmar sedan, skrev polken:

En bild med text kan ju se ut som text. 
Är texten markerbar? Om inte så är det en bild eller låst dokument.

Problemet är löst.

Det löste sig under gårdagen, det som varit problem i månader.

Förklaringen jag har fått är att filerna sedan årsskiften skapats på ett annorlunda sätt och när han återgår till den gamla metoden så blir filerna sökbara.

Den nya metoden har uppenbarligen inneburit att filerna skapats som bilder med text.

Det som är lite märkligt är att han påstår att filerna skapade med den nya metoden var sökbara med "pdf Archtect 8", men inte med Acrobat Reader. 

Länk till kommentar
Dela på andra webbplatser

52 minuter sedan, skrev TomV:

sökbara med "pdf Archtect 8", men inte med Acrobat Reader

Om pdf Archtect 8 använder OCR så är det förklaringen. Inget konstigt. 

Länk till kommentar
Dela på andra webbplatser

2 timmar sedan, skrev TomV:

skapats på ett annorlunda sätt och när han återgår till den gamla metoden

Det hade varit intressant att veta skillnaden. Kan vara till nytta för andra som bara känner till den "nya" metoden.

Länk till kommentar
Dela på andra webbplatser

1 minut sedan, skrev Mikael63:

Det hade varit intressant att veta skillnaden. Kan vara till nytta för andra som bara känner till den "nya" metoden.

Det var skapat som bild istället för text. Att det fungerar att söka text i bild i pdf Architect beror på att den skannar av bilden med OCR: https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiTkOa36-D2AhV8R_EDHaGjAKYQFnoECAYQAQ&url=https%3A%2F%2Fsupport.pdfarchitect.org%2Fhc%2Fen-us%2Farticles%2F360026327291-How-to-Use-OCR&usg=AOvVaw2ViPbqZakXOcC7ujF_vdhU

  • Gilla 1
  • Tack 1
Länk till kommentar
Dela på andra webbplatser

21 timmar sedan, skrev TomV:

En PDF-fil skapad med "pdf Archtect 8" kan jag läsa med hjälp av Acrobat Reader, däremot får jag "0 träff" när jag söker på textsträngar som bevisligen finns i dokumentet.

2 timmar sedan, skrev polken:

Om pdf Archtect 8 använder OCR så är det förklaringen. Inget konstigt. 

Vad är det som ska bli en pdf-fil? Kan ha missat men ser inget om det i tråden. Är det ett dokument (papper) som skannas eller t ex en Wordfil som sparas som pdf?


Skanning skapar i första hand en bild. Bilden kan sedan behandlas med OCR som omvandlar bilden till text (det i bilden som "ett öga tolkar som text"). Eller så sker detta i ett svep utan att någon bild först sparas.


Det verkar som att frågan handlar om dokument som skannas, men kan vara bra att få klargjort för de som läser tråden. Kan ju finnas situationer där man vill skapa en bildfil av textinnehållet i t ex en Wordfil, men det är väl inte så vanligt. Och har man redan en fil med text så finns ju ingen anledning att använda OCR.

 

3 timmar sedan, skrev TomV:

Den nya metoden har uppenbarligen inneburit att filerna skapats som bilder med text.

Lite förbryllande, vad menas? En bild är väl en bild oavsett om den föreställer ett träd eller text.

 

Länk till kommentar
Dela på andra webbplatser

5 timmar sedan, skrev TomV:

Förklaringen jag har fått är att filerna sedan årsskiften skapats på ett annorlunda sätt och när han återgår till den gamla metoden så blir filerna sökbara.

Den nya metoden har uppenbarligen inneburit att filerna skapats som bilder med text.

Om mitt antagande stämmer, att det handlar om skannade dokument, så handlar "den nya metoden" helt enkelt om att dokumenten endast skannats och sparats som bild (men i pdf-format). Att skanningen inte följts av en OCR-läsning.


Det är som polken skrev "Är texten markerbar? Om inte så är det en bild eller låst dokument."
 

Länk till kommentar
Dela på andra webbplatser

 Share

×
×
  • Skapa nytt...