Bidragit av African Languages Lab

Afrikanska språk utgör nästan en tredjedel av alla språk i världen. Ändå, av de mer än 2 000 språk som talas över hela kontinenten, är bara 49 tillgängliga på översättningsplattformar som Google Translate. Ännu värre, häpnadsväckande 88 % av de afrikanska språken är "allvarligt underrepresenterade" eller "fullständigt ignorerade" inom beräkningslingvistik (Joshi et al., 2020).

Artificiell intelligens (AI) erbjuder en chans att skydda underrepresenterade språk, men vägledning och skyddsåtgärder är avgörande. Utan dem riskerar stora språkmodeller (LLM) att stärka institutionella språk och påskynda nedgången för andra. Konsekvenserna är fruktansvärda – 40 % av språken globalt riskerar att utrotas, varav hundratals talas i Afrika. (UNESCO, 2022).

African Languages Lab (All Lab) är ett ungdomsledd samarbete som är engagerat i att bevara afrikanska språk genom att dokumentera, digitalisera, översätta och ge dem kraft genom avancerade AI och naturliga språkbehandlingssystem (NLP). Tillsammans med partners som Smartling gör vi stora framsteg för att ta itu med den digitala klyftan för afrikanska språk. Så här gör du.

 

Behovet av språkdokumentation i Afrika

Språklig mångfald är en av de största tillgångarna på den afrikanska kontinenten, men den innebär också monumentala utmaningar. Många, särskilt mindre samhällen, talar unika språk som inte är väldokumenterade. Dessa "resurssnåla" språk saknar nödvändiga datauppsättningar som behövs för beräkningsanvändning, vilket gör maskinöversättning (MT), talbehandling, automatiserad transkription och andra NLP-applikationer svåra, för att inte säga omöjliga.

Utmaningen är genomgripande – färre än 5 % av de afrikanska språken har betydande digitala resurser. (Association for Computational Linguistics, 2019) Det är klart att vi behöver dokumentera dessa språk bättre, men processen är ingen liten uppgift. Labbstatistik för afrikanska språk

 

Utmaningen att dokumentera afrikanska språk med låga resurser (Isaka et la., 2024)

  • Databrist: De flesta afrikanska kulturer har historiskt lagt stor vikt vid muntliga traditioner. Som ett resultat av detta finns många främst i muntliga former, och skriftlig dokumentation är ofta sparsam eller obefintlig. Utan skriftspråk blir det komplicerat att sammanställa korpusdata – en samling skrivna och talade språk som behövs för att träna maskininlärningsmodeller.
  • Regeringens politik och begränsad forskningsfinansiering: De flesta afrikanska regeringar har prioriterat officiella språk som engelska och franska – ofta rester av kolonialt styre – samtidigt som de tillhandahållit lite institutionellt stöd för att dokumentera, bevara och utveckla inhemska språk. Otillräcklig akademisk finansiering på grund av lågt intresse begränsar också forskning och utveckling av inhemsk språkteknologi.
  • Småbarnsutbildning: Vissa afrikanska länder strävar efter att bevara inhemska språk i utbildningen, men ansträngningarna misslyckas ofta. Till exempel i Ghana kräver en policy undervisning i ett barns första språk från dagis till årskurs 3 innan övergången till engelska. Men det begränsar undervisningen till 11 statligt sponsrade språk, vilket resulterar i ännu mindre resurser, uppmärksamhet och talare för de återstående språken. Även med dessa riktlinjer förlitar sig lärare ofta på engelska som sitt primära undervisningsmedium på grund av begränsade resurser och utbildning.
  • Brist på standardiserade ortografier: Att samla in data för många afrikanska språk med låga resurser, såsom Hausa och Fulani, är mycket utmanande på grund av deras breda geografiska spridning och betydande dialektala variationer. Att skapa enhetliga digitala resurser för dessa språk kräver därför noggrann och omfattande samordning och standardisering.
  • Datainsamlingshinder: I vissa regioner påverkar aktiv konflikt eller marginalisering av vissa språkgrupper datainsamling och språkutvecklingsinitiativ negativt. Dessutom bor många som talar resurssnåla språk på landsbygden eller i avlägsna samhällen med begränsad tillgång till internet och digital teknik, vilket gör språklig datainsamling ännu svårare.

 

Innovera för språklig rättvisa

På African Languages Lab använder vi AI- och NLP-system för att digitalisera, översätta och bevara afrikanska språk för att skapa positiva resultat för människor över hela kontinenten. Vårt tillvägagångssätt med fyra pelare stöder för närvarande 40 språk, från talad bantu till mindre känd Khoisan, som representerar olika kulturer, regioner och språkliga familjer över hela kontinenten.

 

Hur African Languages Lab stöder lågresursspråk

  1. Datainsamling, extrahering, rengöring och lagring: Vi samlar in språklig data från olika källor, sammanställer den och standardiserar den genom att ta bort inkonsekvenser och lagrar den säkert för användning av AI-modeller.
  2. Forskning och modellutveckling: Vi bedriver forskning för att bygga AI-modeller som förbättrar förståelsen och tillämpningen av afrikanska språk.
  3. Samhällsengagemang och crowdsourcing: Vi samarbetar med institutioner, samhällen och infödda talare för att samla in och översätta data, vilket säkerställer autentisk representation och långsiktig hållbarhet genom vår innovativa, AI-drivna teknik.
  4. Teknikimplementering: I samarbete med branschledare och akademiska institutioner använder vi AI- och NLP-system för att översätta vår data till användbara språkutdata som driver plattformar som vår All Voices-app och en flerspråkig chatbot, som är integrerad i Base-mobilapplikationen.

Länder som integrerar lokala språk i utbildning och digitalt innehåll tenderar att ha högre läskunnighet och starkare kulturellt bibehållande.

Tekniken som gör vårt arbete möjligt

För att genomföra våra fyra pelare krävs rätt teknik och samarbetspartners. Som sådan har vi bildat ett strategiskt partnerskap med Smartling, en ledare inom översättnings- och lokaliseringsteknologi. Detta partnerskap gör det möjligt för oss att dra nytta av Smartlings banbrytande verktyg för språköversättning, hantering och kontextuell noggrannhet, vilket förändrar hur resurssnåla språk dokumenteras och delas digitalt.

Så här driver tekniken våra framsteg inom digitalisering och översättning av det afrikanska språket.

 

Sammanställning av befintliga data: Corpus aggregering

För många afrikanska språk saknas centraliserade språkdata. Vi samlar in och standardiserar data från olika källor och använder Python-skript för att rensa, standardisera och konvertera data till ett gemensamt format med målet att skapa en centraliserad korpus för bred användning. Att konsolidera och förfina språkdata säkerställer konsistens och tillgänglighet – vilket i slutändan ger gemenskaper möjlighet att skapa utbildningsresurser, översättningsverktyg och digitalt innehåll.

African Languages Lab har samlat in över 400 GB tal- och textdata för 40 afrikanska resurssnåla språk, vilket förbättrar deras dokumentation och digitala tillgänglighet.

Reimagining crowdsourcing: All Voices

Som nämnts tidigare är ofullständiga data en kritisk lucka för språkbevarande som kan vara svår att fylla i vissa afrikanska samhällen. Vår innovativa datainsamlingsapp, All Voices, låter institutioner, samhällen och modersmålstalare dokumentera och digitalisera sitt lokala språk. Bidragsgivare kan spela in tal för 40 afrikanska språk, vilket stödjer vårt gemensamma behov av att samla in data för språk med låga resurser.

I framtiden kommer All Voices att överbrygga kommunikationsklyftor i samhällen och göra lokala språk tillgängliga för alla. Den kommer också att översätta mellan afrikanska språk och populära språk som engelska och franska. Med sömlös och korrekt översättning över en mängd olika språk, strävar All Voices efter att främja ett djupare kulturellt utbyte, samtidigt som de bidrar till en växande datauppsättning av språkdata med låga resurser.

 

Hantera data: Från lagring till översättning

Språklig dataaggregering och organisation – utöver tillgängligheten i samhället – är avgörande för vårt arbete på The All Lab. Smartling spelar en viktig roll i hela vår datahanteringsprocess, från datainsamling till lagring till översättning. Med Smartling kan vi ladda upp, organisera och lagra data från flera projekt i ett säkert, centraliserat system.

Smartlings API gör det möjligt för oss att inte bara dela vår data brett över flera plattformar, utan också göra uppdateringar i realtid – vilket säkerställer att varje medlem i vår community har tillgång till den mest exakta och kompletta digitala korpusen.

Vi har förlitat oss på Smartlings översättningsminne, AI-drivna översättningar och skickliga översättare för att stödja konsekvent och korrekt innehåll över olika afrikanska språk. Vårt resulterande strukturerade och tillgängliga språkarkiv är avgörande för att utöka den digitala tillgängligheten och bevarandeinsatserna över Afrikas språkliga mångfald.

 

Att använda vår data på bästa sätt

Vårt arbete på All Lab – med stöd av ovanstående teknologier – genererar strukturerade afrikanska språkdatauppsättningar, som spelar en avgörande roll för att digitalisera resurssnåla språk. Dessa datauppsättningar är avgörande för att utveckla nya verktyg för maskinöversättning, taligenkänning och språkbevarande. I slutändan hjälper våra data till att främja afrikansk språkforskning och stöder utvecklingen av mer exakta och kulturellt relevanta språkmodeller.

Vi gör också våra datauppsättningar tillgängliga via plattformar med öppen åtkomst som Huggingface. Vårt arbete främjar gemenskapsbaserad AI-utveckling och uppmuntrar till större investeringar i afrikansk språkteknologi.

 

Att ta steg – och blicka mot framtiden

På African Languages Lab har vi gjort betydande framsteg när det gäller att ta itu med den digitala klyftan för afrikanska språk genom datainsamling, aggregering, standardisering, crowdsourcing och modellutveckling och implementering. Vi är stolta över vår växande, robusta korpus av språklig data – som är ungefär en halv terabyte stor – avancerade översättningsverktyg och framgångsrika expansion av tillgången till språkresurser.

Hittills har vi samlat in över 400 GB tal- och textdatauppsättningar för 40 afrikanska språk med låga resurser, vilket stödjer deras dokumentation och tekniska framsteg. Genom partnerskap med akademiska institutioner som UCLA MARS Lab och branschledare som Smartling utnyttjar vi spetsforskning och teknologi för att driva vårt uppdrag framåt. Vi ökar också aktivt medvetenheten om det afrikanska språklandskapet genom seminarier, konferenser och tekniska dokument.

När vi ser på framtiden kommer vi att arbeta för att bevara fler resurssnåla afrikanska språk, utöver våra nuvarande 40. Vi strävar också efter att bredda tillgängligheten för våra datauppsättningar och verktyg. Och vi är fast beslutna att driva ytterligare innovation inom maskinöversättning, språkbevarande och AI-driven språkforskning över hela Afrika. Tillsammans kommer vi att se till att Afrikas språkliga arv inte bara överlever utan frodas i den digitala tidsåldern.

Varför vänta med att översätta smartare?

Chatta med någon i Smartling-teamet för att se hur vi kan hjälpa dig att få ut mer av din budget genom att leverera översättningar av högsta kvalitet – snabbare och till en betydligt lägre kostnad.
Cta-Card-Side-Image