Speciellt om du har haft en människodriven översättningsprocess under en tid, kanske du undrar om maskinöversättning (MT) kan ge jämförbara resultat vad gäller kvalitet. Låt oss prata om den övergripande noggrannheten hos MT, hur maskinöversättningskvaliteten bedöms och vart MT- och MT-kvalitetsuppskattningen är på väg.

Hur exakt är maskinöversättningen?

Maskinöversättning är ganska exakt tack vare framväxten av neurala nätverk— en metod inom artificiell intelligens. Istället för att översätta nästan ord för ord, överväger dessa nätverk sammanhang för att producera mer korrekta översättningar. Men kommer de nära den mänskliga motsvarigheten? Svaret beror ofta på flera faktorer:

  • Din maskinöversättningsprogramvara. Vissa MT-motorer är mer pålitliga än andra när det gäller översättningskvalitet, så den du väljer spelar roll.
  • Domän. Vissa maskinöversättningssystem är för allmänt bruk, medan andra är utbildade i specifika branscher. När du översätter komplex terminologi, till exempel för vetenskapligt eller juridiskt innehåll, kan det göra stor skillnad att ha en MT-motor utbildad på din domän.
  • Innehållstyp. Maskinöversättning kanske inte är lika exakt för saker som marknadsföringskampanjer, slagord eller slogans. Dessa kräver ofta att man fångar ett varumärkes personlighet eller en känsla snarare än att göra en exakt översättning.
  • Språkpar. Även de bästa MT-leverantörernas kvalitetsresultat kommer att variera beroende på språkparet. En mängd olika faktorer kan orsaka detta, inklusive brist på likvärdiga ord eller fraser på mål- och källspråken.

Sammantaget kan maskinöversättning ofta ta dig det mesta av vägen dit på en översättning. Mänskliga översättare kan sedan göra maskinöversättning efter redigering (MTPE) för att säkerställa noggrannhet och få innehåll till ett publicerbart tillstånd.

Vad är kvalitetsutvärdering av maskinöversättning ?

MT-kvalitetsutvärdering är det traditionella sättet att bedöma om maskinöversatt text är i paritet med hur en människa skulle översätta källtext. Det finns en mängd olika utvärderingsmått, inklusive BLEU, NIST och TER. Dessa används för att poängsätta maskinöversatta segment baserat på deras likhet med referensöversättningar.

Referensöversättningar är högkvalitativa översättningar av källtexten som genereras av mänskliga översättare. Dessa referenser är naturligtvis användbara. De är dock inte alltid tillgängliga – att lita på dem under översättningsprojekt är inte idealiskt. Vad är då det mest effektiva sättet att utvärdera kvalitet? På Smartling använder vi en kombination av två metoder.

Den första är månatliga, tredjeparts multidimensional quality metrics (MQM)-bedömningar över åtta lokalbefolkningen. Dessa bedömningar är guldstandarden i branschen för att utvärdera HT, MT och MTPE. För att tilldela lämpliga kvalitetspoäng tittar MQM på typen och svårighetsgraden av fel som finns i översatt text.

För det andra utnyttjar vi pågående automatiserade kvalitetsbedömningar i realtid. Dessa mäter slutavståndet eller translationsfelfrekvensen över HT, MT och MTPE. I slutändan gör dessa två typer av utvärderingar det möjligt för oss att erbjuda garanterad översättningskvalitet.

Vad är betydelsen av utvärdering av maskinöversättning?

Utvärdering syftar till att avgöra om en översättning uppfyller följande kriterier:

  1. Exakt. Innehållet ska troget förmedla budskapet och känslan i originaltexten på målspråket.
  2. Rensa. Budskapet måste vara lätt att förstå och alla instruktioner ska vara åtgärdsbara och lätta att följa.
  3. Lämplig. Vissa målgrupper kräver till exempel vissa nivåer av formalitet. Att se till att översatta segment visar publiken vederbörlig respekt och inte alienerar eller förolämpar dem är avgörande.

Ett översatt segment som kommer till kort inom något av dessa områden kommer att kräva efterredigering av en mänsklig översättare.

När det gäller fördelarna med MT-utvärdering finns det flera. Du kan använda den för att uppskatta översättningskostnader och besparingar och för att fastställa lämplig ersättning till lingvister. Översättare kan också med ett ögonkast se hur mycket efterredigering ett innehåll kommer att kräva.

Två metoder för att bedöma kvaliteten på maskinöversättning

Det finns två alternativ för att utvärdera maskinöversättning:

  1. Manuell utvärdering: Mänskliga översättare tittar på faktorer som flyt, tillräcklighet och översättningsfel, som saknade ord och felaktig ordföljd. Nackdelen med denna metod är att varje lingvist kan definiera "kvalitet" subjektivt.
  2. Automatisk utvärdering: Denna metod innebär poängsättning via algoritmer. Algoritmerna använder mänskliga referensöversättningar och automatiska mätvärden som BLEU och METEOR för att bedöma kvaliteten. Medan mänsklig utvärdering är mer exakt på meningsnivå, ger denna metod ett fågelperspektiv och är mer skalbar och kostnadseffektiv.

Skillnaderna: kvalitetsuppskattning av maskinöversättning kontra utvärdering

Till skillnad från kvalitetsutvärdering förlitar sig inte uppskattning av maskinöversättningskvalitet (MTQE) på mänskliga referensöversättningar. Den använder metoder för maskininlärning (ML) för att lära av korrelationer mellan käll- och målsegment. Dessa korrelationer informerar uppskattningarna, som kan skapas på ord-, fras-, menings- eller dokumentnivå.

Vad ska man använda MT-kvalitetsuppskattning till

I vårt avsnitt av Reality Series om maskinöversättningskvalitetsuppskattning gav Mei Zheng, Senior Data Scientist på Smartling, detta råd:

"Om du har resurserna att göra automatiska poäng på allt ditt innehåll, gör definitivt det. Prova sedan några av dessa strängar för utvärdering av människor. På så sätt får du en baslinje för vad den automatiska poängen motsvarar när en lingvist ser den.”

Vad är värdet av att sätta dessa baslinjer utifrån kvalitetsuppskattningar för ett brett utbud av innehåll? När du också identifierar mönster över felaktigt översatta strängar kan du snabbt och tillförlitligt bedöma om maskinöversatt innehåll är publicerbart i befintligt skick.

Faktorer som påverkar MT-kvalitetsuppskattningar

Automatisk kvalitetsuppskattning är snabb och kostnadseffektiv. Men som Alex Yanishevsky, Smartlings direktör för MT och AI Solutions säger, "Det kommer inte att ge dig samma insikt som en människa skulle göra." Som diskuterats i MTQE-webinariet finns det flera anledningar till detta.

Källan och dess kvalitet

Det finns olika algoritmer för kvalitetsuppskattning, men de flesta tar inte hänsyn till det omgivande sammanhanget, såsom kön. Tänk till exempel på följande text: "Dr. Smith befanns skyldig för att ha hållit ett skyddat djur i Atherton Magistrates Court efter att ha blivit anklagad för att ha tagit bort en skrubbpyton från en boendes egendom. Hon gick sedan igenom den rättsliga processen för att överklaga domstolsbeslutet.”

För noggrannheten, på ett språk som spanska, skulle "Doctor" behöva översättas till den feminina formen (dvs. "Doctora"). De flesta MT-motorer är dock inte tränade för att upptäcka denna typ av könsfördomar. Utan snabb ingenjörskonst som tillämpas på källspråket kan resultatet bli felaktigt och påverka kvalitetspoängen.

Reality Series - MT Quality
Bildbeskrivning: Källöverväganden för MT-kvalitetsuppskattning

En annan faktor som kan påverka kvalitetsuppskattningar är otydlighet eller potential för flera tolkningar av källtexten. Mei uttryckte det enkelt: "När källan är tvetydig och vi som människor inte vet hur vi ska tolka den, kan vi inte förvänta oss att maskinöversättning ska göra ett bättre jobb än oss."

Dessutom, eftersom MTQE-modeller är tränade på rena datamängder, hanterar de inte alltid stökigare data bra. Svordomar är ett bra exempel. Mei förklarade, "När du använder svordomar ger modeller för [kvalitetsuppskattning] mycket höga straff. De säger till dig, 'Hej, det här är en dålig översättning; du borde inte publicera det här.' När du har användningsfall för [svordom], kan du inte använda dessa automatiska poängmekanismer för det."

Din domän eller bransch

Olika poängalgoritmer kan ge olika uppskattningar baserat på deras förtrogenhet med en industris terminologi. Så Alex betonade att "det finns ingen poängalgoritm som är allomfattande." Han fortsatte, "För att en algoritm ska vara effektiv skulle vi behöva specifika data för den domänen eller den branschen." Precis som MT-system kan anpassas till en viss bransch för att ge mer exakta översättningar, kan poängalgoritmer också tränas på specifika domäner.

Dessa domänspecifika data kan ofta vara kritiska. Alex förklarade, "Om du har en reglerad bransch som biovetenskap, medicin eller läkemedel, är 90 % [noggrannhet], i de flesta fall, förmodligen inte tillräckligt bra. Om till exempel kommatecken är på fel ställe, och vi pratar om att använda en kirurgisk kniv, kan det bokstavligen vara skillnaden mellan liv eller död.” Insatserna är också höga i andra branscher, som finans och juridik.

Den tilltänkta publiken

Uppskattningar kan också variera baserat på en algoritms förståelse av kvalitetströsklar för ett visst språk. Mei sa: "Formalitet - ordvalet och rösten för ditt innehåll - faller under dina stilistiska preferenser. Men ibland är det mer än preferens. Det är som: 'Jag måste förmedla detta formellt; annars kommer jag att förlora min klient.'” Därför kan manuell utvärdering vara så fördelaktig för kvalitetssäkring.

Mei fortsatte, "I fallet med spanska där det inte bara är formellt eller informellt, beror ordvalet verkligen på graden av respekt du måste visa till personen du pratar med. Och det beror på vilken relation du har med personen – om den personen är av högre rang än du, eller är yngre än du.”

Framtiden för maskinöversättningskvalitet och MTQE

Kvaliteten på maskinöversättningen kommer att fortsätta att förbättras, särskilt eftersom fler använder stora språkmodeller (LLM) som GPT-4 för att komplettera den. Mei gjorde iakttagelsen att "dessa LLM:er är mycket kraftfulla på att göra korrigeringar av MT:er, som att [säkerställa] exaktheten av kön, formaliteter, stilguider, etc." Däremot har de brister som kräver att lingvisterna tar till sig slacket. LLM-hallucinationer – där modeller presenterar felaktig information som fakta – är ett bra exempel på detta.

I slutändan kommer MT och LLM att göra det möjligt för översättningsprojekt att slutföras snabbare och mer exakt. Men lingvisterna kommer att sitta kvar i förarsätet och göra justeringar efter behov för att förbättra översättningarna. Alex delade en liknande uppfattning och förutspådde att översättare så småningom kan ta på sig fler av en snabb ingenjörs uppgifter. "De kommer att börja lära sig hur man faktiskt skriver uppmaningar på ett sådant sätt att LLM kommer att kunna korrigera resultatet och jämna ut det till en viss stil de behöver - vare sig det är kön, oavsett om det är formalitet."

Och hur är det med framtiden för kvalitetsuppskattning av maskinöversättning? Ett stort steg framåt kommer att vara skapandet av algoritmer som tar hänsyn till källan och målet. Helst kommer de att kunna väga poäng korrekt för att ta hänsyn till faktorer som tvetydighet och ämneskomplexitet. Eller åtminstone förbättra processen för att flagga problem som kan påverka målet negativt.

Under tiden har du dock redan tillgång till toppmoderna maskinöversättningsmotorer via Smartlings Neural Machine Translation Hub. Det finns till och med inbyggda kvalitetsbedömningsfunktioner, som Smartling Auto-Select. (Auto-Select tar hänsyn till de senaste ändringarna som gjorts för varje tillgänglig maskinöversättningsmotor och identifierar den nuvarande bästa leverantören för ett specifikt språkpar.)

Uppdaterad MT Graphic
Bildbeskrivning: MT Engines Integrated in Smartling NMT Hub

Vilka är resultaten av denna kvalitetsuppskattningsbaserade multi-MT-motorstrategi? Maskinöversättningar med upp till 350 % högre kvalitet och ett minskat behov av efterredigering, vilket innebär lägre kostnader och snabbare tid till marknaden.

För mer om hur Smartling kan hjälpa dig att uppnå dessa resultat, titta på vår Neural Machine Translation Hub-demo. Vi svarar gärna på alla frågor du har efteråt!

Varför vänta med att översätta smartare?

Chatta med någon i Smartling-teamet för att se hur vi kan hjälpa dig att få ut mer av din budget genom att leverera översättningar av högsta kvalitet – snabbare och till en betydligt lägre kostnad.
Cta-Card-Side-Image