Која је разлика између АСЦИИ и Уницоде текста?

Која је разлика између АСЦИИ и Уницоде текста?

АСЦИИ и Уницоде су стандарди који се односе на дигитално представљање текста, посебно знакова који чине текст. Међутим, два стандарда се значајно разликују, а многа својства одражавају њихов редослед стварања.





Америка против универзума

Амерички стандардни код за размену информација (АСЦИИ), што није изненађујуће, задовољава потребе америчке публике, пишући на енглеском алфабету. Бави се неакцентованим словима, као што су А-З и а-з, плус мали број знакова интерпункције и контролних знакова.





Конкретно, не постоји начин представљања позајмљених речи усвојених из других језика, као што је нпр кафа у АСЦИИ -у, без англицизирања заменом наглашених знакова (нпр. цафе ). Локализована проширења АСЦИИ развијена су да задовоље потребе различитих језика, али су ти напори учинили интероперабилност незгодном и јасно су проширили могућности АСЦИИ.





Насупрот томе, универзални скуп кодираних знакова (Уницоде) лежи на супротном крају скале амбиција. Уницоде покушава да задовољи што је могуће више светских система писања, у мери у којој покрива древне језике и свима омиљени скуп изражајних симбола, емоји.

Скуп знакова или кодирање знакова?

Једноставно речено, скуп знакова је избор знакова (нпр. А-З), док је кодирање знакова пресликавање између скупа знакова и вредности која се може представити дигитално (нпр. А = 1, Б = 2).



АСЦИИ стандард је ефикасно обоје: дефинише скуп знакова које представља и метод мапирања сваког знака у нумеричку вредност.

Насупрот томе, реч Уницоде се користи у неколико различитих контекста да означи различите ствари. Можете то замислити као свеобухватни појам, попут АСЦИИ, који се односи на скуп знакова и бројне кодирања. Али, пошто постоји неколико кодирања, израз Уницоде се често користи за упућивање на укупан скуп знакова, а не на начин на који су мапирани.





Величина

Због свог опсега, Уницоде представља далеко више знакова од АСЦИИ. Стандардни АСЦИИ користи 7-битни опсег за кодирање 128 различитих ликови . Уницоде је, с друге стране, толико велик да морамо да користимо различиту терминологију само да бисмо причали о томе!

Уницоде задовољава 1.111.998 адреса кодне тачке. Кодна тачка је отприлике аналогна простору резервисаном за знак, али ситуација је много компликованија од оне када почнете да улазите у детаље!





Корисније поређење је колико скрипти (или система за писање) је тренутно подржано. Наравно, АСЦИИ рукује само енглеским писмом, у суштини латиничним или римским писмом. Верзија Уницоде -а произведена 2020. године иде много даље: укључује подршку за укупно 154 скрипте.

Складиште

АСЦИИ-ов 7-битни опсег значи да је сваки знак ускладиштен у једном 8-битном бајту; резервни бит се не користи у стандардном АСЦИИ. Ово чини израчунавање величине тривијалним: дужина текста, у знаковима, је величина датотеке у бајтовима.

Ово можете потврдити следећим низом басх наредби. Прво креирамо датотеку која садржи 12 слова текста:

како направити своје модове за минецрафт
$ echo -n 'Hello, world' > foo

Да бисмо проверили да ли је текст у АСЦИИ кодирању, можемо користити филе команда:

$ file foo
foo: ASCII text, with no line terminators

Коначно, да бисмо добили тачан број бајтова које датотека заузима, користимо држава команда:

$ stat -f%z foo
12

Пошто се Уницоде стандард бави далеко већим распоном знакова, Уницоде датотека природно заузима више простора за складиштење. Колико тачно зависи од кодирања.

Понављање истог скупа команди од раније, коришћењем знака који се не може представити у АСЦИИ, даје следеће:

$ echo -n '€' > foo
$ file foo
foo: UTF-8 Unicode text, with no line terminators
$ stat -f%z foo
3

Тај једини знак заузима 3 бајта у Уницоде датотеци. Имајте на уму да је басх аутоматски креирао УТФ-8 датотеку јер АСЦИИ датотека не може да ускладишти изабрани знак (€). УТФ-8 је далеко најчешће кодирање знакова за Уницоде; УТФ-16 и УТФ-32 су два алтернативна кодирања, али се користе далеко мање.

УТФ-8 је кодирање променљиве ширине, што значи да користи различите количине простора за складиштење за различите кодне тачке. Свака кодна тачка ће заузимати између један и четири бајта, са намером да уобичајени знакови захтевају мање простора, пружајући врсту уграђене компресије. Недостатак је што одређивање захтева дужине или величине датог дела текста постаје много компликованије.

АСЦИИ је Уницоде, али Уницоде није АСЦИИ

Ради унатражне компатибилности, првих 128 Уницоде кодних тачака представљају еквивалентне АСЦИИ знакове. Пошто УТФ-8 кодира сваки од ових знакова једним бајтом, сваки АСЦИИ текст је такође УТФ-8 текст. Уницоде је суперсет АСЦИИ.

Међутим, као што је горе приказано, многе Уницоде датотеке не могу се користити у АСЦИИ контексту. Сваки знак који је изван граница биће приказан на неочекиван начин, често са замењеним знаковима који се потпуно разликују од оних који су предвиђени.

Савремена употреба

У већини сврха, АСЦИИ се у великој мери сматра наслеђеним стандардом. Чак и у ситуацијама које подржавају само латинично писмо-где на пример није потребна потпуна подршка за сложеност Уницоде-а-обично је погодније користити УТФ-8 и искористити његову АСЦИИ компатибилност.

како рећи да ли вам је ован лош

Конкретно, веб странице треба чувати и преносити помоћу УТФ-8, који је подразумевани за ХТМЛ5. Ово је у супротности са ранијим вебом, који се подразумевано бавио АСЦИИ пре него што га је заменила латиница 1.

Стандард који се мења

Последња ревизија АСЦИИ извршена је 1986. године.

Насупрот томе, Уницоде се наставља ажурирати сваке године. Редовно се додају нове скрипте, ликови, а посебно нови емотикони. Уз само мали део њих, цео скуп знакова ће вероватно расти и расти у догледној будућности.

Повезан: 100 најпопуларнијих објашњених емотикона

АСЦИИ у односу на Уницоде

АСЦИИ је служио својој сврси много деценија, али Уницоде га је сада ефективно заменио за све практичне сврхе осим за старе системе. Уницоде је већи и самим тим израженији. Представља светски заједнички напор и нуди далеко већу флексибилност, иако на штету одређене сложености.

Објави Објави Твеет Емаил Шта је АСЦИИ текст и како се користи?

АСЦИИ текст делује криптично, али има много користи широм интернета.

Прочитајте следеће
Повезане теме
  • Објашњена технологија
  • Емојис
  • Жаргон
  • Веб Цултуре
  • Уницоде
О аутору Бобби Јацк(Објављено 58 чланака)

Бобби је ентузијаст технологије који је скоро две деценије радио као програмер софтвера. Одушевљен је играњем игара, ради као уредник рецензија у магазину Свитцх Плаиер, и уроњен је у све аспекте издаваштва на мрежи и веб развоја.

Више од Боббија Јацка

Претплатите се на наш билтен

Придружите се нашем билтену за техничке савете, критике, бесплатне е -књиге и ексклузивне понуде!

Кликните овде да бисте се претплатили