Miten voin kopioida PDF-tiedostoa tekstin säilyttämisen aikana?

PDF-dokumentti, joka on yleinen asiakirjaformaatti, sopii hyvin asiakirjojen jakamiseen säilyttäen fontit, kuvat ja yleisen asettelun eri alustoilla. Onko kuitenkin helppo säilyttää tämä muotoilu, kun kopioit ja liität tekstiä dokumentista?

Nykypäivän Kysymys- ja vastaus -istunto tulee meille suotuisasti SuperUserin - Stack Exchange -alueen, yhteisöpohjaisen Q & A-sivustojen ryhmittymän - kautta..

Kysymys

SuperUser-lukija Colen etsii tapaa poimia tekstiä PDF-tiedostoista säilyttäen muotoilunsa:

Kun kopioin tekstiä PDF-tiedostosta ja tekstieditoriin, se päättyy eri tavoin. Muotoilu, kuten lihavoitu ja kursivoitu, menetetään; pehmeän rivin katkokset tekstin kappaleen sisällä muunnetaan kovan linjan taukoiksi; viiva katkeaa sanan yli kaksi riviä säilytetään, vaikka niiden ei pitäisi olla; ja yhden ja kahden lainausmerkit korvataan? merkkejä.

Ihannetapauksessa haluaisin, että voisin kopioida tekstiä PDF-tiedostosta ja että muotoilu muunnetaan HTML-koodeiksi, ”älykkäät lainausmerkit” muunnetaan ”ja”, ja rivinvaihto on tehty oikein. Onko mitään tapaa tehdä tämä?

Onko Colenille (ja muille meille) nopea ja helppo tapa saada tekstiä uhraamatta muotoilua?

Vastaus

SuperUserin avustaja Frabjous tarjoaa ratkaisun, johon liittyy raskas annos varovaisuutta:

Ensinnäkin sinun on ymmärrettävä, mitä PDF on. PDF-tiedostot on suunniteltu jäljittelemään tulostettua sivua, ja ne on suunniteltu vain tulostusmuodoksi, ei tulomuodoksi. PDF on pohjimmiltaan kartta, jossa on tarkka merkkien sijainti (yksittäiset kirjaimet tai välimerkit jne.) tai kuvat. Useimmissa tapauksissa PDF-tiedosto ei edes tallenna tietoja siitä, missä yksi sana päättyy ja toinen alkaa, paljon vähemmän asioita kuin pehmeät taukot vs. kova taukoja kappaleiden päättymisissä.

(Muutamat viimeisimmät PDF-tiedostot tallentavat tietoja tästä tavarasta, mutta se on uusi tekniikka, ja olisit onnekas löytää sellaiset PDF-tiedostot. Vaikka teitkin, PDF-katseluohjelma ei ehkä tiedä siitä.)

Joka tapauksessa sinun ohjelmistosi on toteuttaa jonkinlainen ”tekoäly”, jotta se voi erottaa pelkästään yksittäisten merkkien sijainnit, mikä on sana, mikä on kappale, ja niin edelleen. Eri ohjelmistot tekevät tämän paremmin kuin toiset, ja se riippuu myös siitä, miten PDF-tiedosto tehtiin. Joka tapauksessa sinun ei pitäisi koskaan odottaa täydellisiä tuloksia. Tulos PDF: n saaminen ei ole sama kuin lähdeasiakirjan saaminen. Paljon parempi yrittää saada se, jos voit.

Tavallinen ratkaisu ongelmaasi on käyttää Adobe Acrobat Professionalia (kallis, ei vapaa lukija) PDF: n muuntamiseksi HTML: ksi. Jopa se ei saa täydellisiä tuloksia.

Vapaa ohjelmisto, jota voidaan käyttää tekstin poimimiseen PDF-tiedostoista, joiden muotoilu on ehjä, mutta jälleen, älä odota täydellisiä tuloksia. Katso esimerkiksi kaliiperi (joka voi muuntaa RTF-muotoon), pdftohtml / pdfreflow tai AbiWord-tekstinkäsittelyohjelma (kaikki tuonti / vienti-laajennukset käytössä). OpenOffice-ohjelmistossa on myös PDF-tuontiliitin.

Mutta älä odota täydellisyyttä millään näistä tuloksista. Olet täällä viljaa vastaan. PDF-tiedostoa ei ole tarkoitettu muokattavaksi syöttömuodoksi.

Jos sinulla on vaikeuksia päättää, mikä työkalu alkaa, Caliber on todellinen asiakirja Sveitsin armeijan veitsi. Voit myös käyttää sitä muuntaa PDF-tiedostoja käytettäväksi ebook-lukijallesi ja järjestää ebook / asiakirjakirjastosi.

Onko jotain lisättävää selitykseen? Ääni pois kommenteista. Haluatko lukea lisää vastauksia muilta tech-savvy Stack Exchange -käyttäjiltä? Tutustu koko keskusteluketjuun täällä.