Mitkä ovat merkkien koodaukset kuten ANSI ja Unicode, ja miten ne eroavat toisistaan?

ASCII, UTF-8, ISO-8859… Olet ehkä nähnyt näitä outoja monikereita kelluvan ympäri, mutta mitä he todella tarkoittavat? Lue, kun selitämme, mitä merkkikoodaus on ja miten nämä lyhenteet liittyvät näyttöön tulevaan tavalliseen tekstiin.

Perusrakenteet

Kun puhumme kirjoitetusta kielestä, puhumme sanoista, jotka ovat sanojen rakennuspalikoita, jotka sitten rakentavat lauseita, kappaleita ja niin edelleen. Kirjeet ovat symboleja, jotka edustavat ääniä. Kun puhut kielestä, puhut ääniryhmistä, jotka tulevat yhteen muodostamaan jonkinlaista merkitystä. Kullakin kielijärjestelmällä on monimutkainen sääntöjä ja määritelmiä, jotka ohjaavat näitä merkityksiä. Jos sinulla on sana, se on hyödytöntä, ellet tiedä mitä kieltä se on, ja käytät sitä muiden kanssa, jotka puhuvat tätä kieltä.

(Vertailu Grantha, Tulu ja Malayalam skriptejä, kuva Wikipediasta)

Tietokoneiden maailmassa käytämme termiä "merkki". Hahmo on eräänlainen abstrakti käsite, jonka määrittävät tietyt parametrit, mutta se on merkityksen perusyksikkö. Latinalainen "A" ei ole sama kuin kreikkalainen "alfa" tai arabialainen "alif", koska niillä on erilaiset yhteydet - ne ovat eri kieliä ja niillä on hieman erilaiset lausumat - joten voimme sanoa, että ne ovat erilaisia merkkejä. Merkin visuaalista esitystä kutsutaan "glyfiksi" ja eri merkkijonoja kutsutaan fonteiksi. Merkkiryhmät kuuluvat "sarjaan" tai "ohjelmistoon".

Kun kirjoitat kappaleen ja muutat fonttia, et muuta kirjainten foneettisia arvoja, muutat sitä, miten ne näyttävät. Se on vain kosmeettista (mutta ei merkityksetöntä!). Joillakin kielillä, kuten muinaisella egyptiläisellä ja kiinalaisella, on ideogrammeja; nämä edustavat kokonaisia ideoita äänien sijasta, ja niiden lausunnot voivat vaihdella ajan ja etäisyyden mukaan. Jos korvaat yhden merkin toiselle, korvataan idea. Se on enemmän kuin vain kirjojen muuttaminen, se muuttaa ideogrammaa.

Merkkien koodaus

(Kuva Wikipediasta)

Kun kirjoitat jotain näppäimistöön tai lataat tiedoston, miten tietokone tietää, mitä näyttää? Juuri sitä merkkikoodaus on tarkoitettu. Tietokoneesi teksti ei oikeastaan ole kirjaimia, se on sarja pariliitettuja aakkosnumeerisia arvoja. Merkkikoodaus toimii avaimena, jonka arvot vastaavat mitä merkkejä, aivan kuten ortografia sanelee, mitkä äänet vastaavat mitä kirjaimia. Morse-koodi on eräänlainen merkkikoodaus. Siinä selitetään, kuinka pitkät ja lyhyet yksiköt, kuten piippaukset, edustavat merkkejä. Morse-koodissa merkit ovat vain englanninkielisiä kirjaimia, numeroita ja täysiä pysähdyksiä. On olemassa monia tietokoneen merkkikoodeja, jotka kääntyvät kirjaimiksi, numeroiksi, aksenttimerkeiksi, välimerkeiksi, kansainvälisiksi symboleiksi ja niin edelleen.

Usein tässä aiheessa käytetään myös termiä ”koodisivut”. Ne ovat pääosin merkkikoodeja, joita tietyt yritykset käyttävät, usein pienin muutoksin. Esimerkiksi Windows 1252 -koodisivu (aiemmin tunnettu nimellä ANSI 1252) on ISO-8859-1: n muunnettu muoto. Niitä käytetään enimmäkseen sisäisenä järjestelmänä viitaten standardeihin ja muokattuihin merkkikoodeihin, jotka ovat ominaisia samoille järjestelmille. Merkkien koodaus ei ollut niin tärkeää, koska tietokoneet eivät kommunikoineet keskenään. Kun internet nousee esiin ja verkostoituminen on yleinen tapahtuma, siitä on tullut yhä tärkeämpää päivittäisessä elämässämme, vaikka emme edes ymmärrä sitä.

Monia eri tyyppejä

(Kuva käyttäjältä sarah sosiak)

Siellä on runsaasti erilaisia merkkikoodeja, ja siihen on runsaasti syitä. Minkä käyttämäsi merkkikoodaus riippuu tarpeistasi. Jos kommunikoi venäjäksi, on järkevää käyttää merkkikoodausta, joka tukee kyrillistä hyvin. Jos kommunikoi korealaisessa, niin haluat jotain, joka edustaa Hangulia ja Hanjaa hyvin. Jos olet matemaatikko, niin haluat jotain, jolla on kaikki tieteelliset ja matemaattiset symbolit, sekä kreikkalaiset ja latinalaiset merkit. Jos olet keppiä, saatat hyötyä ylösalaisin olevasta tekstistä. Ja jos haluat, että kaikki kyseiset asiakirjat katsovat minkä tahansa henkilön, haluat koodauksen, joka on melko yleinen ja helposti saatavilla.

Katsotaanpa joitakin yleisempiä.

(Ote ASCII-taulukosta, kuva osoitteesta asciitable.com)

ASCII - Amerikan vakiomuotoinen tiedonsiirtokoodi on yksi vanhemmista merkkikoodeista. Se suunniteltiin alun perin telegrafiikkakoodien perusteella ja kehittyi ajan myötä lisää symboleja ja joitakin nyt vanhentuneita painamattomia ohjausmerkkejä. Se on luultavasti yhtä perustavaa kuin nykyaikaiset järjestelmät, sillä se on rajoitettu latinalaiselle aakkoselle ilman aksenttimerkkejä. Sen 7-bittinen koodaus sallii vain 128 merkkiä, minkä vuoksi maailmassa on käytössä useita epävirallisia variantteja.
ISO-8859 - Kansainvälisen standardointijärjestön (International Organization for Standardization) eniten käytetty merkkikoodausten ryhmä on numero 8859. Jokainen tietty koodaus on merkitty numerolla, jota usein kuvailee kuvaileva moniker, esim. ISO-8859-3 (Latin-3), ISO-8859-6 (latina / arabia). Se on ASCII: n superset, mikä tarkoittaa, että ensimmäiset 128 arvoa koodauksessa ovat samat kuin ASCII. Se on kuitenkin 8-bittinen ja sallii 256 merkkiä, joten se rakentuu pois päältä ja sisältää paljon laajemman merkkijonon, ja jokainen tietty koodaus keskittyy eri kriteereihin. Latinalainen-1 sisälsi joukon korostettuja kirjaimia ja symboleja, mutta korvattiin myöhemmin tarkistetulla joukolla Latin-9, joka sisältää päivitetyt merkit kuten euro-symboli.

(Ote Tiibetin käsikirjoituksesta, Unicode v4, osoitteesta unicode.org)

Unicode - Tämä koodausstandardi tavoittelee yleisyyttä. Se sisältää tällä hetkellä 93 skriptiä, jotka on järjestetty useisiin lohkoihin ja joissa on paljon enemmän töissä. Unicode toimii eri tavalla kuin muut merkkijonot, koska sen sijaan, että ne suoraan koodittavat glyfiä, jokainen arvo ohjataan edelleen "koodipisteeseen". , kuten Web-selaimesi. Nämä koodipisteet kuvataan yleisesti seuraavasti: U + 0040 (joka muuntaa '@'). Unicode-standardin alla olevat erityiset koodaukset ovat UTF-8 ja UTF-16. UTF-8 yrittää sallia maksimaalisen yhteensopivuuden ASCII: n kanssa. Se on 8-bittinen, mutta sallii kaikki merkit korvausmekanismin ja useiden arvoparien kautta. UTF-16-ojat täyttävät täydellisen ASCII-yhteensopivuuden täydellisempään 16-bittiseen yhteensopivuuteen standardin kanssa.
ISO-10646 - Tämä ei ole todellinen koodaus, vaan vain Unicode-merkkijono, joka on standardoitu ISO: lla. Se on enimmäkseen tärkeää, koska se on HTML: n käyttämä hahmon repertuaari. Joitakin Unicoden tarjoamia kehittyneempiä toimintoja, jotka mahdollistavat kokoamisen ja oikean vasemmalle oikealle-komentosarjan, puuttuu. Silti se toimii hyvin internetissä käytettäväksi, koska se sallii monenlaisten skriptien käytön ja sallii selaimen tulkita merkit. Tämä helpottaa lokalisointia.

Mitä koodausta minun pitäisi käyttää?

No, ASCII toimii useimmissa englanninkielisissä puhujissa, mutta ei paljon muuta. Useimmiten näet ISO-8859-1, joka toimii useimmissa Länsi-Euroopan kielissä. Muut ISO-8859-versiot toimivat kyrillisillä, arabialaisilla, kreikkalaisilla tai muilla erityisillä skripteillä. Jos kuitenkin haluat näyttää useita skriptejä samassa asiakirjassa tai samassa verkkosivussa, UTF-8 mahdollistaa paljon paremman yhteensopivuuden. Se toimii myös hyvin niille, jotka käyttävät asianmukaisia välimerkkejä, matemaattisia symboleja tai off-the-manset -merkkejä, kuten neliöitä ja valintaruutuja.

(Useita kieliä yhdessä asiakirjassa, gujaratsamachar.comin näyttökuva)

Jokaiselle joukolle on kuitenkin haittoja. ASCII: n välimerkit ovat rajalliset, joten se ei toimi uskomattoman hyvin typografisesti oikein tehdyissä muokkauksissa. Kirjoita koskaan kopioi / liitä Wordista vain, jos sinulla on jokin outo yhdistelmä glyfeja? Tämä on ISO-8859: n haittapuoli, tai tarkemmin sanottuna sen oletettu yhteentoimivuus käyttöjärjestelmäkohtaisilla koodisivuilla (katsomme YOU, Microsoft!). UTF-8: n suurin haittapuoli on asianmukaisen tuen puuttuminen sovellusten muokkaamisessa ja julkaisemisessa. Toinen ongelma on se, että selaimet eivät usein tulkitse ja näyttävät vain UTF-8-koodatun merkin tavumerkintämerkkiä. Tämä johtaa ei-toivottuihin kuvioihin. Ja tietenkin, jos toisella koodataan ja käytetään merkkejä toisesta ilmoittamatta / viittaamatta niitä oikein verkkosivulle, selaimilla on vaikeuksia tehdä ne oikein ja hakukoneet indeksoivat ne asianmukaisesti.

Omat asiakirjat, käsikirjoitukset ja niin edelleen, voit käyttää mitä tarvitset saadaksesi työn. Siltä osin kuin verkko menee, näyttää siltä, että useimmat ihmiset ovat yhtä mieltä UTF-8-version käyttämisestä, joka ei käytä tavuarvomerkkiä, mutta se ei ole täysin yksimielinen. Kuten näette, jokaisella merkkikoodauksella on oma käyttö, konteksti ja vahvuudet ja heikkoudet. Loppukäyttäjänä sinun ei todennäköisesti tarvitse käsitellä tätä, mutta nyt voit ottaa ylimääräisen askeleen eteenpäin.