Unicode

Ur standard er stlenneg eo Unicode ®, bet savet gant Unicode Consortium e Mountain View (Kalifornia) hag embannet e 1991 evit ar wezh kentañ a-benn kemer lec'h ar c'hodoù evel ISO 8859-1, pa oa meur a hini anezho evit meur a rumm yezh.

Unicode a ro da bep arouezenn e ne vern peseurt reizhiad doare-skrivañ, un niver, un anv hag ur c'hodadur hepken en un doare unvan, a ya en-dro dre ne vern peseurt reizhiad urzhiataerezh pe veziant.
E gwirionez n'eo ket bet enboneget an holl reizhiadoù skritur c'hoazh, abalamour da labourioù enklask ret n'hallont bezañ graet nemet gant arbennigourien, evit arouezennoù dibaot-kenañ pe reizhiadoù nebeut-anavezet pe aet da get. An darn vuiañ eus ar reizhiadoù a vez implijet er bed zo dija en Unicode koulskoude.

Reoladoù ha stummoù

Liammet eo Unicode Consortium gant ar reolad etrebroadel ISO/IEC (International Electrotechnical Commission) 10646 hag a labour war an hevelep tachenn, met ar reolad ne bled na gant ar sevel arouezennoù na gant o sterva.
Unicode a ra war-dro al lizherennegoù hag an doare da gevreañ al lizherennoù hag an arouezennoù diakritek, da skouer ñ, Ç ha ش.

En doare UTF-8 e c'hall ar reolad Unicode labourat gant ar reolad ASCII (American Standard Code for Information Interchange).

Unicode 12.0 eo ar stumm nevesañ abaoe ar 5 a viz Meurzh 2019 : 137 928 arouezenn zo ennañ.
Kudennoù a chom c'hoazh gant an arouezlunioù sinaat, a vez implijet e meur a yezh gant kemmadennoùigoù a c'hall bezañ pouezus evit al lennerien.

Stummoù nevesañ Unicode
Stumm	Deiziad	Nevezintioù
5.0	Gouere 2006
5.1	Meurzh 2008
5.2	Here 2009
6.0	C'hwevrer 2011
6.1	31 Genver 2012
7.0	16 Mezheven 2014	+ 2 834 arouezenn, 250 emoji en o zouez^[1]
8.0	17 Mezheven 2015	+ 7 716 arouezenn hag emoji^[2].
9.0	21 Mezheven 2016	+ 7 500 arouezenn, 72 emoji en o zouez^[3].
10.0	20 Mezheven 2017	+ 8 518 arouezenn, 56 emoji en o zouez^[4].
11.0	5 Mezheven 2018	+ 684 arouezenn, 66 emoji en o zouez^[5].
12.0	5 Meurzh 2019	+ 554 arouezenn, 61 emoji en o zouez – 137 928 arouezenn en holl –^[6].

Kodiñ

Re strizh e oa ar reoladoù kozh : un heuliad bitoù a dalveze evit ul arouezenn ; gant 7 bit e ra ASCII, hag ar reolad ISO/CEI 8859-1 a implij 8 bit evel an darn vuiañ eus ar yezhoù. Tud Unicode o deus dibabet ober gant bitoù evit termeniñ al arouezennoù ha bitoù all evit o c'hodiñ : 16 bit (2 okted) a voe implijet er stummoù kentañ, ha 32 vit (4 okted) a voe e stummoù kentañ ar reolad ISO/CEI 10646.
Unvanet eo bet an daou zoare dre implijout 20 pe 21 bit dre arouezenn.

UTF

Ar furmad hollek UTF-x (Universal Transformation Format) a vez degemeret gant Unicode hag ISO/CEI 10646 ; x eo an niver bihanañ a vitoù implijet e vit kodiñ.

An UTF-8 an hini vez implijet ar muiañ evit an Internet. Lod arouezennoù zo kodet dre 1 okted evel en ASCII, arouezennoù all dre 2 (gant arouezennoù diakritek), ha lod all dre 3 okted. Skañvoc'h eo evit ar pezh a sell ouzh implij memor bev un urzhiataer, met diaes eo evit skrivañ algoritmoù. En ur mod ivez emañ an UTF-8 kenglotus gant ar goulevioù kozh.

An arouezenn € zo U+20AC e diazez c'hwezekredel, 8 364 en diazez dekredel, 11100010 10000010 10101100 en UTF-8 daouredel hag E2 82 AC en UTF-8 c'hwezekredel.

An UTF-16 en em laka hanter-hent etre espern ar memor hag aested ar programmiñ. An darn vrasañ eus an arouezennoù Unicode bet divizet betek bremañ a c'heller enkodañ dre 16 bit, setu e vez boneget en UTF-16 hogos an holl arouezennoù, evel ma ra Java, Microsoft Windows ha Microsoft NTFS (New Technology File System)
An UTF-32 a voneg an holl arouezennoù dre 4 okted.

Fontoù

Unicode ne ra nemet listañ arouezennoù ha reiñ un niverenn da bep hini anezho. Ne reoilh ket an doare d'o diskwel war ar skramm pe war ar paper. N'eus liamm ebet etre tres un arouezenn hag he niverenn, pa'z eus unan en ur font ASCII pe ISO/CEI 8859-1 (Latin1, implijet en Afrika, Amerika, Europa ar C'hornaoueg hag Okeania).
Da skouer, daou zoare zo da godiñ an arouezenn ñ : dre un niverenn hepken (arouezenn ragaozet) pe dre niverenn al lizherenn n heuliet gant niverenn an dildenn hep foet (arouezenn liesparzh)^[7]. Evit ar lagad e vez gwelloc'h implijout arouezennoù ragaozet.
Gant reizhiadoù skritur evel an devanāgarī pe al lizherenneg arabek e vez labourus-tre ragaozañ ereadurioù : kemm-digemm e vez ar grafemennoù hervez o lerc'h er ger ha hervez ar grafemennoù amezek.

Setu emañ skoemp komz eus fontoù Unicode rak sevel ur font gant an holl lizherennoù pe arouezlunioù kevret gant o arouezennoù diakritek hag o ereadurioù n'eo ket a-walc'h : ret eo kaout ur benveg gouest da zivizout peseurt hini implijout.

Liammoù diavaez

(en) 'Unicode Consortium'. Kavet : 18/11/19.
(en) (fr) (ru) ISO/IEC 10646:2017/Amd 2:2019. Kavet : 18/11/19.

Notennoù

↑ 'Next Impact, 17/06/14. Kavet : 18/11/19.
↑ 'Emojipedia, 17/06/2015. Kavet : 18/11/19.
↑ 'Unicode.org, 21/06/16. Kavet : 18/11/19..
↑ 'Unicode.org, 20/06/17. Kavet : 18/11/19..
↑ 'Unicode.org, 05/06/18. Kavet : 18/11/19..
↑ 'Unicode.org, 05/03/19. Kavet : 18/11/19..
↑ foet (g.) (en) set (fr) chasse – Ledander un arouezenn : muioc'h foet zo gant M eget gant I ; difoet eo an dildenn war ñ peogwir emañ a-us al lizherenn.

[1] 'Next Impact, 17/06/14. Kavet : 18/11/19.

[2] 'Emojipedia, 17/06/2015. Kavet : 18/11/19.

[3] 'Unicode.org, 21/06/16. Kavet : 18/11/19..

[4] 'Unicode.org, 20/06/17. Kavet : 18/11/19..

[5] 'Unicode.org, 05/06/18. Kavet : 18/11/19..

[6] 'Unicode.org, 05/03/19. Kavet : 18/11/19..

[7] foet (g.) (en) set (fr) chasse – Ledander un arouezenn : muioc'h foet zo gant M eget gant I ; difoet eo an dildenn war ñ peogwir emañ a-us al lizherenn.

[1]

[2]

[3]

[4]

[5]

[6]

[7]