Teckenkodningsformat: En guide till teckenkodning för flerspråkigt innehåll

Digitalt innehåll ser inte alltid likadant ut när det visas på olika språk. Utan korrekt kodning kan tecken se förvrängda ut, vilket leder till förvirring, datakorruption eller till och med webbplatsfel på globala marknader.

Oavsett om du bygger en flerspråkig app eller lokaliserar din webbplats är teckenkodning en av de processer som hjälper dig att leverera korrekt text och sömlösa användarupplevelser. Genom att förstå dess betydelse och olika format – som ASCII- och Unicode-kodning – kan du enkelt översätta och visa dina budskap för flerspråkiga målgrupper.

I den här guiden förklarar vi vad teckenkodning är, viktiga standarder som används idag och varför kodning är avgörande för internationalisering.

Vad är teckenkodning, och hur påverkar det framgångsrik webbplatslokalisering?

Teckenkodning innebär att konvertera text till siffror eller symboler så att maskiner kan bearbeta och visa text på olika webbplatser, appar och operativsystem. Eftersom datorer arbetar med binära siffror (0:or och 1:or) erbjuder teckenkodning ett sätt att översätta text från olika språk till ett digitalt format som maskiner enkelt kan tolka.

Här är ett grundläggande kodningsexempel: I en kodningsstandard kan "A" representeras av den binära sekvensen "01000001". Datorn läser dessa binära data och kodningsstandarden översätter dem tillbaka till motsvarande mänskligt läsbara tecken: "A".

Teckenkodning spelar en avgörande roll i lokalisering för globala företag eftersom det låter dem korrekt visa ett brett utbud av tecken från olika skriftsystem, inklusive kinesiska, arabiska och kyrilliska. Detta leder till mer exakt och snabb översättning.

Företag kan också använda Smartlings Global Delivery Network (GDN), en webbproxy för översättning, för att snabbt starta översättningar för webbplatser och appar. När det är konfigurerat kan innehållet smidigt flöda från din webbplats till Smartling för översättning. Smartling tillhandahåller till och med en meny med specialtecken för olika språk och formateringsalternativ som du enkelt kan infoga i dina översättningar.

Vilka är de viktigaste typerna av teckenkodning?

Varje teckenkodningsformat stöder olika språk och tekniska behov för innehållslokalisering.

Kodningstyp	Nyckelfunktioner	Språk som stöds	Fallstudier
ASCII	7-bitars, representerar 128 tecken, inklusive engelska bokstäver, siffror och grundläggande symboler	engelska	Tidig databehandling, enkla textfiler, äldre system
ISO-8859-1	8-bitars, representerar olika väst-/östeuropeiska tecken	Västeuropeiska språk, såsom tyska, franska och spanska	Äldre webbinnehåll, internationella dokument
UTF-8	Variabel längd (1–4 byte), bakåtkompatibel med ASCII, hanterar alla Unicode-tecken, ingen stycklista krävs	Nästan alla språk	Webbinnehåll, moderna applikationer, plattformsoberoende datautbyte
UTF-16	En eller två 16-bitars kodenheter	Nästan alla språk, plus specialtecken som emojis	Webb- och internationellt innehåll, moderna textfiler med specialtecken
Windows-1252	8-bitars, inkluderar västeuropeiska tecken; supermängd av ASCII	Östeuropeiska språk som polska och tjeckiska	Äldre Windows-baserade applikationer

Här är en närmare titt på de vanligaste typerna av teckenkodning, inklusive hur de fungerar och exempel på hur de används i lokaliserade appar och webbplatser.

ASCII

American Standard Code for Information Interchange (ASCII) är ett av de tidigaste och enklaste teckenkodningssystemen. ASCII använder 7 bitar för att koda 128 tecken, vilket täcker grundläggande engelska bokstäver, siffror och skiljetecken.

Med ASCII mappas varje tecken till en unik numerisk kod. Till exempel representeras versalbokstaven "A" som 65, och utropstecknet "!" är 33. I binärformat blir "A" "01000001". ASCII är grundläggande för moderna kodningsscheman men är begränsad till engelska och saknar stöd för accenttecken eller tecken som inte är latinska.

ISO-8859-1

ISO-8859-1 är ett 8-bitars enkelbyte-teckenkodningsformat som utvecklats av International Organization for Standardization (ISO) för att utöka ASCII:s möjligheter till västeuropeiska språk.

ISO-8859-1 kodar 256 tecken, inklusive ytterligare bokstäver med accenter som "é" och "ö", och en mängd speciella interpunktionstecken och symboltecken. Till exempel representeras tecknet "é" av koden 233, och "ñ" är 241. ISO-8859-1 kan dock inte koda tecken utanför den västeuropeiska uppsättningen, vilket begränsar dess användning för internationella tillämpningar.

UTF-8

Unicode Transformation Format – 8 bit (UTF-8) är ett teckenkodningsformat med variabel längd som är utformat för effektiv, global språkkompatibilitet. Med UTF-8 kodas alla ASCII-tecken med en byte och bibehåller samma binära värden. Icke-ASCII-tecken, som ”€”, använder flerbytesekvenser, som ”11100010 10000010 10101100” för ”€” i binärt format.

UTF-8 kan koda alla tecken i Unicode-standarden för sömlöst flerspråkigt stöd. Det har blivit det dominerande kodningsformatet för webben och moderna applikationer på grund av dess förmåga att hantera stora språkuppsättningar.

UTF-16

UTF-16 representerar varje tecken i Unicode-standarden med hjälp av en eller två 16-bitars kodenheter. Tecken i vanliga skript lagras som en enda 16-bitars enhet, och andra tecken (som emojis och sällsynta historiska skript) visas som surrogatpar, vilket är två kombinerade 16-bitars kodenheter.

Till exempel är "A" (U+0041) i UTF-16 0x0041, medan den leende ansiktsemojinen "😊" (U+1F60A) lagras som surrogatparet 0xD83D 0xDE0A. Detta gör att UTF-16 kan koda över en miljon olika tecken, även om det använder mer utrymme än UTF-8 för viss text.

Windows-1252

Windows-1252 är en 8-bitars teckenkodningstyp utvecklad av Microsoft för västeuropeiska språk, vanligtvis kallad "ANSI"-kodning i Windows-miljöer. Det liknar ISO-8859-1 men innehåller extra tecken som citationstecken (“ ”) och eurotecknet (€).

Windows-1252 användes flitigt i äldre Windows-dokument och -applikationer men har till stor del ersatts av UTF-8, särskilt för internationell kompatibilitet.

Att lösa utmaningar med teckenkodning i en flerspråkig värld: 5 utmaningar och bästa praxis

Teckenkodning är tekniskt och nyanserat, vilket innebär vissa utmaningar för företag som försöker nå flerspråkiga målgrupper. När du lokaliserar innehåll i stor skala, var medveten om dessa vanliga kodningsproblem och bästa praxis för att åtgärda dem:

1. Förvrängd text

När programvara tolkar text med fel teckenkodning kan det resultera i förvrängda, oläsliga tecken som frågetecken eller slumpmässiga symboler. Detta händer vanligtvis när text kodad i ett format (som UTF-8) öppnas eller renderas med en annan kodning (som ISO-8859-1), vilket leder till felaktiga bytetolkningar. Förvrängd text skapar förvirring för användare och kan minska en webbplats trovärdighet.

Bästa praxis: Sikta på att använda konsekvent kodning för allt innehåll. Du kan göra detta genom att använda HTML-taggar som <meta charset="UTF-8"> för att säkerställa att webbläsare bearbetar text som avsett.

2. Dataförlust under konvertering

När man konverterar innehåll mellan olika kodningar – till exempel från Windows-1252 till UTF-8 – kan vissa tecken gå förlorade eller ersättas felaktigt. Detta kan allvarligt påverka läsbarheten hos flerspråkigt och lokaliserat innehåll, och om du inte upptäcker det tidigt kan det leda till datakorruption.

Bästa praxis: Använd Unicode-kompatibla översättningsverktyg som effektiviserar konverteringen mellan kodningsformat. Säkerhetskopiera också alltid data innan du utför kodningsändringar och testa resultaten för noggrannhet.

3. Brist på stöd för flerspråkiga teckensnitt eller teckensnitt

Även med rätt teckenkodningsformat kan text visas som tomma rutor om nödvändiga teckensnitt eller tecken inte är tillgängliga på användarens enhet. Det här problemet är särskilt vanligt när man använder accentbokstäver eller emojis som äldre eller enkla teckensnitt kanske inte stöder.

Bästa praxis: Använd webbsäkra teckensnitt som stöder en mängd olika tecken på olika språk. Skapa en typsnittsstack med reservtecken som systemet automatiskt kan infoga i texten vid behov.

4. Dubbelriktad text

Språk som arabiska och hebreiska använder ett höger-till-vänster-skriftsystem (RTL), vilket kan leda till layout- och justeringsproblem – särskilt när det blandas med vänster-till-höger-skriftsystem (LTR) som engelska. Om dessa språk inte är korrekt kodade kan de störa läsflödet eller bryta formateringen helt och hållet.

Bästa praxis: Använd korrekta språk- och riktningsspecifika markuper, till exempel dir="rtl" och lang="ar" i HTML, för att hjälpa webbläsare att visa texten korrekt. Välj ramverk som stöder RTL-layouter och testa innehåll för att säkerställa att det visas korrekt för alla målgrupper.

5. Problem med byteordningsmarkeringar

En byteordningsmarkering (BOM) är en speciell markör i början av en textfil som anger byteordning och kodning. Stycklistor kan orsaka problem som:

Oväntade osynliga tecken i början av filer (t.ex. “ï»¿”)
Inkompatibilitet med vissa system, som äldre webbläsare
Interoperabilitet mellan applikationer

Bästa praxis: Använd verktyg som automatiskt kan upptäcka och hantera stycklistor på lämpligt sätt när du bearbetar textfiler. För webbinnehåll, utelämna BOM i UTF-8 för att undvika visningsproblem.

Gör kodning enkelt med Smartlings lokaliseringsverktyg

Teckenkodning är ofta osynlig för användare, men den är avgörande för hur de upplever innehåll på olika enheter och språk – från lokaliserade appar till flerspråkiga webbplatser. Genom att förstå grunderna i kodning kan översättnings- och utvecklingsteam förhindra kostsamma fel och leverera en smidigare upplevelse för en global publik.

Smartling är byggt för att hjälpa företag att växa globalt samtidigt som det förenklar översättning för utvecklare med en kraftfull webbproxy och ett robust API. Smartling integreras direkt med era befintliga teknikplattformar, vilket eliminerar manuella uppgifter och effektiviserar översättningsprocessen. Faktum är att Smartling låter dig lägga till nya språk och utlösa översättningsflöden vid varje kodöverföring, så att du kan expandera internationellt utan att missa ett taktslag.

British Airways, till exempel, utnyttjade Smartlings webböversättningsproxy för att lokalisera sin webbplats för koreanska kunder. Med Smartlings centraliserade plattform kunde British Airways översätta mer än 500 000 ord och lansera dubbelt så snabbt som vanligt. Läs fallstudien för att se hur de fick det att hända.