Dialekt och digitalisering: överföring av material ur Ordbok över Finlands svenska folkmål till Wikidata

Under hösten 2023 utförde Institutet för de inhemska språken i samarbete med Projekt Fredrika och Svenska litteratursällskapet i Finland (SLS) ett pilotprojekt där material ur Ordbok över Finlands svenska folkmål fördes in i Wikidata. Alla tre organisationer ser nyttan i att information om det svenska i Finland finns väl representerad och tillgänglig på Wikipedia och Wikidata, som är den kunskapsbas där data som ligger till grund för bland annat Wikipedia lagras. Som resultat av samarbetet har vi fört in dialektala uttalsformer ur ordboken för sådana svenska ord som tidigare förts in som lexem i Wikidata. Att överföra material från en ordbok som började redigeras på 1960-talet, utan en tanke på digitalisering eller maskinläsbarhet, till en plattform och ett format som utvecklats långt senare och som ska fungera också internationellt har krävt en hel del problemlösning. I den här texten beskriver vi de problem vi stött på och de lösningar vi kommit fram till.

Initiativ till samarbetet togs av Kaj Arnö på Projekt Fredrika. Ordboksmaterialet finns tillgängligt i xml-format på Institutet för de inhemska språken. Med finansiering från SLS stod Projekt Fredrika för IT-kunnande, inte minst i och med Robert Silén som programmerade kod för att läsa och konvertera ordboksmaterialet till ett format som sedan kunde laddas upp på Wikidata. Från redaktionen för Ordbok över Finlands svenska folkmål bidrog redaktör Janina Andersson, huvudredaktör Caroline Sandström och stipendiat Tiina Kaustinen med språkvetenskapligt och lexikografiskt kunnande, samt insikter i ordbokens uppbyggnad och redigeringsprinciper.

Konvertering till IPA

Att Wikidata fungerar internationellt syns bland annat i att uttalsangivelser för lexem där anges med det internationella fonetiska alfabetet, IPA. För uttalsangivelserna i Ordbok över Finlands svenska folkmål används två olika uttalsbeteckningar som båda utarbetats utgående från svenskan, dels en grov, dels en fin. Den fina beteckningen bygger på J. A. Lundells landsmålsalfabet, ett fonetiskt alfabet som utvecklades just för att nedteckna svenska dialekter och som erbjuder en relativt noggrann indelning av språkljud. Artiklarna i ordboken bygger på dialektmaterial som samlats in under en lång period (i huvudsak mellan 1860-talet och 1970-talet) av många olika personer med olika dialektal och språkvetenskaplig bakgrund, och vilken av de två uttalsbeteckningarna som används i artiklarna beror på hur noggrant och trovärdigt ljuden återgetts av insamlarna.

Den fina beteckningen gör en mer noggrann indelning av dialekternas språkljud än den grova beteckningen, men ingendera har möjligheter till lika noggrann indelning som IPA. Överföring från ett grövre till ett finare system leder lätt till att resultatet blir missvisande, och vi beslutade tidigt att uttal som i ordboken angetts med grov beteckning inte skulle överföras till IPA, eftersom skillnaden i noggrannhet är så stor. Den fina beteckningen går med större säkerhet att överföra till IPA och för det skapade vi en konverteringstabell.

I arbetet med konverteringstabellen hade vi stöd av bland annat Haugen (1976) och Eriksson (1961), som båda behandlar landsmålsalfabetet, och av beskrivningar av IPA.

Resultatet blev följande konverteringstabell:

fin beteckning	IPA	fin beteckning	IPA	fin beteckning	IPA	fin beteckning	IPA
a	a	jj	jː	ʽŋ	ŋ̊	w	w
a:	aː	k	k	ɷ	u	ww	wː
b	b	kk	kː	ɷ:	uː	y	y
bb	bː	l	l	p	p	y:	yː
d	d	ll	lː	pp	pː	ⱺ	o
dd	dː	lʼ	lʲ	r	r	ⱺ:	oː
dʼ	dʲ	lʼlʼ	lʲː	rr	rː	å	ɔ
dʼdʼ	dʲː	ḷ	ɽ	s	s	å:	ɔː
ḍ	ɖ	ḷḷ	ɽː	ss	sː	o	ɔ
ḍḍ	ɖː	ⱹ	l̥	ṣ	ʂ	o:	ɔː
dj	dʒ	ⱹⱹ	l̥ː	ṣṣ	ʂː	ä	æ
ddj	dːʒ	ⱹʼ	l̥ʲ	z	z	ä:	æː
e	e	ⱹʼⱹʼ	l̥ʲː	zz	zː	ø	ø
e:	eː	ⱹ̣	ɽ̊	t	t	ø:	øː
ⱸ	e̞	m	m	tt	tː	ö	œ
ⱸ:	e̞ː	mm	mː	tʼ	tʲ	ö:	œː
f	f	n	n	tʼtʼ	tʲː	ʃ	ʃ
ff	fː	nn	nː	ṭ	ʈ	ʃʃ	ʃː
g	ɡ	nʼ	nʲ	ṭṭ	ʈː	x	x
gg	ɡː	nʼnʼ	nʲː	tj	tɕ	xx	xː
h	h	ṇ	ɳ	ttj	tːɕ	ʔ	ʔ
hh	hː	ṇṇ	ɳː	u	ʉ	-	-
i	i	ʽn	n̥	u:	ʉː	(	(
i:	iː	ŋ	ŋ	v	v	)	)
j	j	ŋŋ	ŋː	vv	vː	´

Konverteringstabellen omfattar alla tecken som förekommer i ordbokens fina uttalsangivelser samt vissa kombinationer av tecken som motsvarar särskilda ljud. En beskrivning av tecknen finns i nätordboken. Konsonantljud som i ordboken angetts med dubbelteckning betecknas efter konverteringen i enlighet med IPA med längdtecknet ː. Accenttecknet ´ används i ordboken för att markera att huvudbetoningen för ett ord placeras på annan stavelse än den första, och eftersom tecknet inte används alls för ord med huvudbetoning på första stavelsen valde vi att inte överföra det till IPA-beteckningen.

Urval av uttal

I Wikidata kopplas varje uttalsangivelse till ett lexem, en eller flera orter och en grammatisk kategori. Av tekniska orsaker är de här kopplingarna inte helt enkla att göra maskinellt utgående från materialet i Ordbok över Finlands svenska folkmål, och vi var därför tvungna att begränsa vilka uttal som fördes in. Med tanke på de resurser vi hade till förfogande låg fokus hela tiden på att föra in material som är så korrekt beskrivet som möjligt, snarare än så omfattande som möjligt.

Ordbokens första fyra band publicerades först i tryckt format, och därmed var det viktigt att vara sparsam med utrymmet. Det utrymmesekonomiska tänket genomfördes delvis på bekostnad av läsbarheten och enhetligheten mellan artiklar. Det här sågs inte som något problem, eftersom den tänkta ordboksanvändaren var en människa som har insikter i svenska språket och kan utläsa också information som är komprimerad eller delvis underförstådd. Den kompakta formen behölls när banden digitaliserades, och också nyare artiklar, som endast publicerats digitalt, följer samma mönster. Därmed förekommer i ordboksmaterialet till exempel ortsangivelser som grupperats i slutet av artikeln i stället för direkt intill informationen de gäller, och partiella uttal där den saknade delen står utskriven i en intilliggande uttalsangivelse. De digitala verktyg vi hade till vårt förfogande under det här projektet klarar inte av att läsa in underförstådd information eller göra logiska kopplingar på samma sätt som en människa. För att inte riskera att föra in felaktiga eller bristfälliga uppgifter i Wikidata begränsade vi oss därför till fullständiga uttal som står direkt intill angivelsen av orten där de är belagda.

Utöver uttal i grundform kan uttal för olika böjda former föras in för lexem i Wikidata. Uttal i böjda former ingår också för vissa uppslagsord i Ordbok över Finlands svenska folkmål, men för att föra in dem i Wikidata krävs att formerna identifieras och kategoriseras, så att de kan markeras med rätt grammatiska etiketter. Det här medför problem för vårt material. På grund av utrymmesbesparingen och eftersom ordboken haft många redaktörer som arbetat under olika förhållanden och med olika verktyg anges böjda former i ordboken på något varierande sätt. Böjningsangivelsen kan till exempel ges före eller efter ett uttal, eller i samband med flera uttal, beroende på de redigeringsprinciper som följts. De grammatiska kategorier som står till förfogande i Wikidata, som ofta utgår från engelskan, stämmer dessutom inte på alla punkter överens med de termer som används och den kategorisering som görs i Ordbok över Finlands svenska folkmål. Att föra in uttal för de böjda former som anges i ordboken kräver alltså dels att de olika formerna kan identifieras maskinellt i xml-filerna, dels att de kan kategoriseras enligt den grammatiska beskrivning som är kutym för Wikidata. För det här pilotprojektet var det här inte realistiskt, och vår lösning blev att endast behandla uttal som står i grundform i ordboken.

Böjda uttalsformer markeras i ordboksartiklarna med hjälp av förkortningar av grammatiska termer. En förklaring av förkortningarna finns i nätordboken. Vi identifierade följande böjningsangivelser:

förkortningar som förekommer vid böjda substantiv och pronomen	förkortningar som förekommer vid böjda verb	förkortningar som förekommer vid böjda adjektiv
bp.	dep.	best.f.
bs.	pass.	kompar.
gen.	pr.	n.
ob.pl.	pres.	neutr.
pl.	pt.	pl.
plt.	sup.	plur.
plur.		superl.

Utgående från dessa, och efter analys av artiklarnas utformning och ordbokens redigeringsprinciper, formulerade vi en uppsättning regler för att utesluta böjda uttalsformer som vi i det här skedet inte har möjlighet att hantera korrekt. En viktig aspekt var uttalsangivelsernas, ortsangivelsernas och böjningsangivelsernas inbördes placering. På grund av variationen i artiklarnas uppbyggnad ledde det här till att också en del uttal som står i grundform föll bort. I enlighet med tanken om att föra in så korrekt material som möjligt snarare än så stort material som möjligt ansåg vi att det var den rimligaste lösningen.

Införda uttal

För att vara så säkra som möjligt på att endast föra in material i Wikidata som är korrekt beskrivet tog vi sammanfattningsvis fram följande kriterier:

1. Endast uttal angivna i fin beteckning förs in.

2. Endast uttal som direkt följs av ortsangivelse förs in.

3. Inga uttal som börjar eller slutar med bindestreck förs in.

4. Endast uttal som står i grundform förs in.

Fortfarande är det alltså mycket information som återfinns i Ordbok över Finlands svenska folkmål men inte Wikidata, i form av grova uttal, uttal av böjda former och hela uppslagsord som ännu inte förts in som lexem i Wikidata. För att föra in nya lexem ur Ordbok över Finlands svenska folkmål i Wikidata behövs en metod för att utläsa betydelsebeskrivningar ur xml-filerna och konvertera dem till lämpligt format. I ordboksmaterialet i xml-format är betydelsebeskrivningarna inte lika tydligt markerade som till exempel uttalsangivelserna och ortsangivelserna, och att utveckla en sådan metod innebär ett stort arbete.

Under 2023 konverterade vi nästan 15 000 uttal med närmare 63 000 ortsangivelser ur cirka 6 900 uppslagsord i Ordbok över Finlands svenska folkmål, och kopplade dem till knappt 5 600 lexem i Wikidata. Med andra ord är det trots de problem som skillnaderna i format inneburit en betydande mängd material om de svenska dialekterna i Finland som nu finns tillgänglig på en internationell digital plattform och i ett format som kan förstås också utan ingående kunskaper i svenska, och med tanke på framtiden också kan användas av artificiell intelligens. Och det är mycket vi har lärt oss under processen.

Janina Andersson
Redaktör för Ordbok över Finlands svenska folkmål

Caroline Sandström
Huvudredaktör för Ordbok över Finlands svenska folkmål

Läs mer Projekt Fredrika Svenska litteratursällskapet i Finland Ordbok över Finlands svenska folkmål Ljudbeteckningen i Ordbok över Finlands svenska folkmål Förkortningar i Ordbok över Finlands svenska folkmål

Dialektordbokens samarbete med Projekt Fredrika och SLS Wikipedia: Projekt Fredrika/Dialektordbok Dialekten ger identiteten guldkant (Språkbruk 5.4.2023) Snart kanske Chat GPT talar Pyttisdialekt (blogginlägg, 24.10.2023)

IPA och landsmålsalfabetet IPA

Eriksson, Manne (1961) Svensk ljudskrift 1878–1960. En översikt över det svenska landsmålsalfabetets utveckling och användning huvudsakligen i tidskriften Svenska landsmål.
Haugen, Erik (1976) The Scandinavian languages: an introduction to their history.