Just nu i M3-nätverket
Gå till innehåll

Söka i pdf:er (från postscript)


Martin77

Rekommendera Poster

Har en massa ritningar som pdf:er. Ritningarna innehåller ju både text och bild men i pdf:en är allt en bild. Jag vill nu kunna söka på texten i pdf:en. Pdf:erna skapas från postscript-filer. Problemet är att ps-filerna innehåller bara i princip två kolumner med koordinater som berättar hur filen skall visas.

Går det att konvertera på något sätt? Skulle man kunna använda någon OCR teknik?

Tacksam för hjälp!

Länk till kommentar
Dela på andra webbplatser

johan pålsson

Kanske ghostscripttillägget "pstotext" kan vara nåt ?, se:

 

http://www.research.compaq.com/SRC/virtualpaper/pstotext.html

 

Jag har inte använt det själv men misstänker starkt att programmet ligger till grund för en del kommersiella program som extraherar text ur postscript och PDF.

 

 

Du kan även titta på:

http://www.pdfzone.com/products/software/toolinfo_all.asp

 

Där finns det en del extraheringsprogram som använder sig av OCR.

 

 

/Johan

 

 

 

Länk till kommentar
Dela på andra webbplatser

Nu har jag kommit på att om man öppnar den ursprungliga .dwg filen i Illustrator ) så kan man spara den som pdf MED sökbar text!

Nu är bara problemet det att jag skulle vilja göra detta med en massa filer. Det finns ju någon slags script-funktion i Illustrator. Är det någon som har koll på den och är den inbyggd eller är det en plug-in man måste ladda ned?

 

 

 

 

[inlägget ändrat 2001-07-05 08:06:52 av Martin77]

Länk till kommentar
Dela på andra webbplatser

johan pålsson

Hej !

 

Vad är det du vill uppnå ?

 

Har du originalfilern (Acad-DWG) och vill tillverka PDF:er som folk ska kunna söka inuti via Acrobat reader ?, eller vill du "bara" ta ut texten ur originalfilen/PDF:en och lagra den någon annanstans, exempelvis i en databas ?

 

Jag kör tyvärr aldrig Illustrator men om makrofunktionen funkar på samma sätt som Photoshops så kan man säkert automatisera filkonverteringen något genom att spela in ett makro och sedan applicera detta på ett helt bibliotek.

 

Men, har du väldigt många filer (tenderar att bli det i ritningsarkiv) så finns det säkert bättre DWG->PDF konverterare.

Du kan till exempel ta en titt på en gratisvariant:

 

http://myndkryme.com/products/ottopdf.html

 

En annan variant är att låta ACAD köra en batchvis utskrift av dina DWG:er till Postscriptfiler och sedan skicka dessa till en mapp som Acrobat destiller bevakar (för automatkonvertering)

 

Mvh

 

/Johan

 

Länk till kommentar
Dela på andra webbplatser

 

OttoPDF har jag testat och det funkar ju men ritningarna använder svenska tecken och det klarar inte OttoODF således blir inte texten sökbar...

 

Poängen med sökbar är att pdf:erna sedan skall ligga på nätet och användarna kunna söka efter ord i ritningarna innifrån Acrobat. Det skall också gå att söka i pdf:erna via ett formulär på en sida på nätet.

 

Just nu så körs ps filerna ut från AutoCad, sedan läggs på en server som distiler bevakar. Funkar mkt bra. Problemet är när ps filerna skapas försvinner separationen text/bild. PS-filen innehåller bara en massa x,y-koordinater (?). Exempel ur en fil:

 

%Pen 2

2.952756 setlinewidth

n

0 0 m

40 132 m

40 132 l

35 602 m

0 602 l

0 1261 m

35 1261 l

 

 

Sidorna i pdf:en blir därför som en stor bild och inte sökbara.

 

/Martin

 

 

 

[inlägget ändrat 2001-07-05 10:21:50 av Martin77]

Länk till kommentar
Dela på andra webbplatser

johan pålsson

Jag tog och testade i ACAD-LT 2000 (har tyvärr inte stora versionen) och den verkar generera "riktig" text om två villkor är uppfyllda.

 

1. Man måste använda truetypetypsnitt

2. Man måste kryssa i utskriftsvalen att text skall skrivas ut som text och inte konverteras till grafik (som är default).

 

Om inte man gör detta så får jag också ut text som koordinatvärden, dvs. att varje bokstav ritas ut som en egen vektorbild.

 

Men, har du kollat med de som gör "ottopdf" ifall de är villiga att göra en liten anpassning för att fixa svenska tecken ?

 

/Johan

 

 

Länk till kommentar
Dela på andra webbplatser

Vi använder AutoCad 13 (?) på UNIX.

För att få ut postscriptfilerna används ett litet program inuti AutoCad som vi skrivit själva. Alltså måste vi byta ut/koda om detta om det nu går.

Jag vill kolla upp vad det finns för alternativ om det inte är möjligt.

 

Jag har mailat MyndKryme och frågat om det är möjligt att använda det på ritningar med svenska tecken. De har inte svarat än.

 

Tydligen ska man kunna koda makron i både PS och Illustrator i VB eller VBA, liknande det som finns i MS Office.

 

 

Länk till kommentar
Dela på andra webbplatser

johan pålsson

I photoshop 6 så står det följande i hjälpen angående externa script:

 

Photoshop stödjer viss extern automatisering med OLE Automation (Windows) eller AppleScript (Mac OS). Med någon av dessa metoder kan du starta Adobe Photoshop och köra funktionsmakron externt.

 

Genom att använda extern automatisering kan du bland annat utföra följande typer av uppgifter:

 

Generera en serie med filer i ett annat program med skriptfunktioner och gruppbearbeta dem i Photoshop.

Gruppbearbeta filer i Photoshop och spara dem på en webbplats.

Skriva ett skript som kör ett funktionsmakro och sedan stänger av datorn sent på kvällen när du har gått hem från arbetet.

 

 

Om du vill ha mer information om OLE, kan du kontakta Microsoft Corporation. Mer information om AppleScript finns i dokumentationen för Mac OS. Du kan även kontakta Apple Computer.

 

Personligen så tycker jag batchvis filkonvertering med hjälp av photoshop är ganska värdelöst i och med att man inte kan fånga upp fel på ett bra sätt utan man istället förväntas kvittera fel via dialogrutor.

Händer alltid 5 minuter efter att man gått hem..

 

Programutvecklingsmässigt finns det nog inget PC-ritprogram som slår ACAD, åtminstone av de som anses som "industristandard".

 

Så, personligen tror jag att det bästa är att försöka få ACAD att skicka ut text (istället för koordinatvärden), både till skrivaren/filen och till den fil du behöver för att generera din web-databas.

 

/Johan

 

Länk till kommentar
Dela på andra webbplatser

Det visade sig att scriptet inte hade något att göra med att texten "försvann" i postscriptfilen utan det beror på vilka drivrutiner som finns i AutoCAD. Tror jag...

Det enda som återstår nu är väl Illustrator eller något annat tredjeparts program.

 

 

 

 

Länk till kommentar
Dela på andra webbplatser

  • 4 veckor senare...

Vi har bestämt oss för att använda Illustrator.

Är det någon som vet hur man enklast söker i pdf-filer?

Alltså inte genom kikar-ikonen inne i Acrobat utan som t.ex. sökmotorn www.google.com kan göra.

 

 

 

 

Länk till kommentar
Dela på andra webbplatser

Arkiverat

Det här ämnet är nu arkiverat och är stängt för ytterligare svar.

×
×
  • Skapa nytt...