Wikipedia-diskusjon:Wikiprosjekt Maskinomsetjing frå bokmål
Frå Wikipedia – det frie oppslagsverket
Kjempebra at det skjer noko med dette prosjektet. Har venta lenge på det. Kan nok ikkje hjelpe med det tekniske (manglande kompetanse), men lovar å bli ein entusiastisk brukar når det heile er på plass. stykkjet 17:32, 12 oktober 2006 (UTC)
- Eg er med. Når det gjeld punkt 3 på planen, meiner eg vi bør bruke hovudformer. Etter mi meining er ikkje ord som «skole» skikkleleg nynorsk, uansett kor mykje dei står som hovudform i ordboka. --EIRIK\diskusjon 17:47, 12 oktober 2006 (UTC)
Kva er det er snakk om her? --Cato 18:07, 12 oktober 2006 (UTC)
- Kom med eit litt meir presist spørsmål, så blir det lettare å svare. Sjå også referansen til diskusjonen på Samfunnshuset. Trondtr 21:11, 15 oktober 2006 (UTC).
Kjempespennande. Dette er noko eg har venta i spenning på i lang tid. Eg vil gjerne bidra med litt teknisk kompetanse og har meldt meg på... --Bep 20:49, 26 oktober 2006 (UTC)
- Flott at nett du meldar deg. All ære til dei andre på lista, men det kritiske er å få det tekniske i hamn. Elles ventar vi på melding frå Nynodata, eg kjem attende med meir. info. Trondtr 21:03, 26 oktober 2006 (UTC).
Innhaldsliste |
[endre] Historikk
Hvordan er redigeringshistorikk tenkt håndtert? ZorroIII 20:35, 15 oktober 2006 (UTC)
- Det enkle tilfellet er med ein bokmålsartikkel og ingen nynorskartikkel. Ingen historikk, ingen problem. Slik var det med testane frå i vår (og med 17000 nn vs. 80000 bm vil det ofte vere tilfelle i framtida også). Det interessante tilfellet er der vi har ein nynorskartikkel frå før, med sin redigeringshistorikk. Så dumpar den maskinomsette artikkelen inn, anten automatisk, med ein standardkommentar ("dette er ein maskinomsett artikkel av x"), eller manuelt (dei detaljane må vi sjå på). Tidlegare versjonar blir erstatta med den nye, maskinomsette versjonen, men både versjonane og redigeringskommentarane er tilgjengelege frå historikken. Så må nokon gå gjennom den maskinomsette artikkelen manuelt (Nyno er ikkje perfekt). I samband med den prosessen vil det vere naturleg å fiske fram siste manuelt skrive nynorskversjon, og eit sannsynleg scenario er at den som gjer det finn ut at det som står på nynorsk er heilt ok, og sett det inn att i artikkelen, mens dei nye delane av artikkelen som kjem frå bokmålswikipediaen kan kome inn etterpå. Dette vil vere ulikt frå gang til gang, men slik eg ser det følgjer svaret på spørsmålet automatisk frå wiki-systemet. Trondtr 21:09, 15 oktober 2006 (UTC).
-
- Jeg tenkte mer på redigeringshistorikken fra bokmålswikipedia. Forfatterne der har jo krav på kreditering. F. eks. om en artikkel jeg har bidratt på oversettes til nynorsk bør det fremgå i historikken her at jeg har bidratt. Et mulig løsning er at en benytter transwikifunksjonaliteten. Se no:Wikipedia:Transwiki for mer info. ZorroIII 10:57, 16 oktober 2006 (UTC)
-
-
- Det hadde sjølvsagt vore fint å hatt med denne historikken, men dette blir ikkje prinsippielt ulikt situasjonen i dag. Dersom eg set om ein artikkel (manuelt) frå bokmål, engelsk eller tysk blir ikkje historikken med på anna vis enn at eg viser til opphavsartikkelen som kjelde. Ei slik tilvisning til kjelda vil vi jo halde fram med. Vi kan i alle fall ikkje la dette bli eit avgjerande poeng. stykkjet 18:33, 16 oktober 2006 (UTC)
- Alle her har sikkert sett artiklane sine omsett til andre språk (i alle fall har eg det), no og då med referanse til nn-originalen, andre gonger utan. Samanlikna med det vil dette systemet bli betre, her vil det alltid gå fram kor originalartikkelen kjem frå, og interesserte kan dermed gå dit og finne bakgrunnen der. Trondtr 21:03, 26 oktober 2006 (UTC).
- Det hadde sjølvsagt vore fint å hatt med denne historikken, men dette blir ikkje prinsippielt ulikt situasjonen i dag. Dersom eg set om ein artikkel (manuelt) frå bokmål, engelsk eller tysk blir ikkje historikken med på anna vis enn at eg viser til opphavsartikkelen som kjelde. Ei slik tilvisning til kjelda vil vi jo halde fram med. Vi kan i alle fall ikkje la dette bli eit avgjerande poeng. stykkjet 18:33, 16 oktober 2006 (UTC)
-
-
-
-
-
- Det finnest verkty til å importere artiklar med heile historikken. Veit ikkje om det er operativt her, men på bokmål har det i alle fall vore litt brukt. Det verkar vere berre administratorar som kan gjere det. Sjå loggen her: http://no.wikipedia.org/w/index.php?title=Spesial%3ALog&type=import&user=&page= Viss det kan brukast vil det vere det beste, det vil kunne gjere det med historikken ryddig og lettast mogleg tilgjengeleg.
- På nb vart det på Tinget omtala ei sak der Dagbladet, eller var det Aftenposten, hadde kopiert nb:Gunnar Ekelöf utan å oppgje kor dei hadde det frå. Artikkelen var omsett frå svensk via nynorsk, og det stod ikkje i sjølve artikkelen verken her eller på nb at artikkelen var henta frå sv. Det stod rett nok i historikken ved at det var sagt i samandragsfeltet ved opprettinga av artikkelen her at artikkelen var frå sv, og på nb at at artikkelen var frå nn, men det er jo helst kryptisk for vanelege brukarar. (Syndaren her var meg, men det var vanleg framgangsmåte då.) Kven var det Dagbladet, (eller Aftenposten), skulle ha gjeve kreditt for teksten i dette tilfellet?
- Om det går å få heile historikken med ved flyttingar er det å foretrekkje, synest eg. --Jorunn 22:21, 26 oktober 2006 (UTC)
-
-
-
-
-
-
-
-
- Eg føretrekk å ha ein synleg kjelde i teksten) nettopp fordi dette vil hjelpa nykomarar til wikiverda, og fordi det nesten verker som juks å importera historikken. Om ein artikkel blei byrja på nb: i 2004 og kom til nn: i 2006, er det ikkje då rettare om 2006 er den første datostemplinga? -- Ranveig 09:53, 27 oktober 2006 (UTC)
- Eg er samd med Ranveig. Ein kvar redigeringshistorikk har sitt eige liv. Trikset er å få god referanse til versjonen det er omsett frå. I dag skriv vi (som oftast) "kjelder" i sjölve artikkelen, vi kan bli betre på å datere NÅR vi har henta ein viss versjon frå den-og-den wikipediaen. Akkurat for Nyno-artiklar er dette eit mindre problem, her planlegg vi å lage gode rutiner for å vise når vi har henta nb-versjonen. Trondtr 11:38, 27 oktober 2006 (UTC).
- Det enkle er ofte det beste, og eg er samd med Trond og Ranveig her. --Bep 19:23, 27 oktober 2006 (UTC)
- Eg er samd med Ranveig. Ein kvar redigeringshistorikk har sitt eige liv. Trikset er å få god referanse til versjonen det er omsett frå. I dag skriv vi (som oftast) "kjelder" i sjölve artikkelen, vi kan bli betre på å datere NÅR vi har henta ein viss versjon frå den-og-den wikipediaen. Akkurat for Nyno-artiklar er dette eit mindre problem, her planlegg vi å lage gode rutiner for å vise når vi har henta nb-versjonen. Trondtr 11:38, 27 oktober 2006 (UTC).
- Eg føretrekk å ha ein synleg kjelde i teksten) nettopp fordi dette vil hjelpa nykomarar til wikiverda, og fordi det nesten verker som juks å importera historikken. Om ein artikkel blei byrja på nb: i 2004 og kom til nn: i 2006, er det ikkje då rettare om 2006 er den første datostemplinga? -- Ranveig 09:53, 27 oktober 2006 (UTC)
-
-
-
-
[endre] Utsetjing til januar
Bjørn Seljebotn har i dag skrive til meg og kunne fortelje at den nye (CMS-versjonen av) Nyno ikkje blir ferdig før (seint i) desember. Dei vil dermed utsetje Nyno-oppstart for oss til i januar. Eg er lei for dette, sjølvsagt. Det har vore framlegg om opplegg meir uavhengig av Nynodata (kjøpe eit Nyno-program slik det står i dag, og setje opp alt sjølv). I det lengste håpar eg at vi kan gjere dette i lag med Nyno, så sjølv om vi no går langt inn på andre året med dette prosjektet, gjer eg likevel framlegg om at vi ventar til over jul, og kjem attende til saka då. Trondtr 09:40, 31 oktober 2006 (UTC).
[endre] Kva skal omsettast
Er det nokon som har tatt til å tenkje på kva sider vi skal sette om. Ikkje alt på no: er like bra. Skal vi lage ei liste manuelt, eller finst det ein annan plan? stykkjet 23:31, 29 desember 2006 (CET)
- I praksis vil det bli styrt av den som sett om: Vi kan ikkje setje om alt, dermed tar vi eit utval, som kjem til å bli styrt etter kva den/dei som gjer jobben syns er godt nok eller viktig nok til å bli sett om. Men planer er fine ting. Her er det eg har tenkt bør prioriterast:
-
- infrastruktur-artiklar.
- gode artiklar
- artiklar der nn er svak
- artiklar på oppfordring
- Med «infrastruktur-artiklar» meiner eg like som ikje har så mykje innhald sjølv, men som systematiserer innhald: Oversyn over alle stortingsrepresentantane for alle stortinga opp igjennom, lister over kyrkjene i Noreg, slike ting (nokre lister har sjølvsagt lite tekst). Når det gjeld gode artiklar er det naturleg å ta utgangspunkt i dei artiklane som har vore vekas artikkel, eller finst på lista over gode artiklar (det var det eg gjorde då eg gjennomførte ein test for ei stund sidan). Kva område er så nn svak på? Det kan vi finne ut ved å gå til kategorihierarkia på nb og nn og samanlikne dei. Så er vi avhengig av korleis dette blir organisert. Her ser eg to utvegar:
-
- Vi får ein ny versjon av Nyno frå Nynodata, som vi kan setje opp på ein slik måte at alle kan bruke han. I det tilfelle blir ikkje denne diskusjonen så viktig, i staden bruker folk det nye verktyet som dei vil.
- Vi får ingen slik versjon (enno), men skjer gjennom og kjøper/får ein versjon av Nyno, som ein person (t.d. ein som har søkt om eit stipend frå Noregs Mållag, eller andre kjelder?) disponerer. Kva han/ho bruker Nyno til vil dermed dels vere avhengig av interessene hans/hennar, og dels av prioriteringsdiskusjonar som denne.
- Når det gjeld det første alternativet er eg ikkje like optimistisk som eg har vore. Det andre alternativet seglar dermed opp, men ingen potensielle søkarar har dukka opp. Kansje vi skal starte ei kronerulling, og høyre om det er nokon med ei Windows-maskin som vil ta jobben som omsetjar? Trondtr 09:10, 30 desember 2006 (CET).
-
- Å setja om artiklar frå andre språk berre fordi nn: ikkje har ein artikkel om emnet, synest eg er ein dårleg ide, anten me brukar ein maskin eller omset manuelt. Me kan godt ta inn årstal-artiklar og slike mal-liknande artiklar som krev mykje manuelt arbeid, er lette å setja om og ikkje er særleg inspirerande å laga, og det du kallar infrastrukturartiklar. Men eg meiner det er dumt å setja om ein halvbra artikkel berre fordi nn: manglar ein. Då er det like greit at me skriv ei spira, og tek med ein referanse til eit anna språk.
- Men artiklar som er gode eller tilrådde hadde vore greie å få over. Dei har vore gjennom ein prosess der fleire erfarne brukarar på no: har sagt dei er kremen av bokmålsartiklar, og det er mykje arbeid å setja dei om manuelt. Eg synest me bør leggja lista såpass høgt for kva me skal importera frå no:, me vil jo ikkje vera ein bleik (maskinomsett!) kopi av bokmålswikipediaen, vil me vel?
- Om me får eit slikt program, synest eg me skal laga ein slags retningsliner for kva me skal bruka det til, strenge reglar som avgrensar bruken. For å setja om på måfå berre for å få fleire artiklar, vil føra til at me etter kvart har ein masse artiklar som ikkje har ein opphavsperson som er brukar på nn:. Og det kan visa seg å vera eit problem, om nokon vil etterprøva opplysningar i artikkelen, eller om det kjem fram på no: at opplysningar er galne, og ingen på nn: oppdagar det. I tillegg trur eg at dess meir utstrekt bruken av eit slikt program er, dess dårlegare vil kvalitetskontrollen av språket vera i etterkant. --Tannkrem 20:34, 9 januar 2007 (CET)
- Eg trur ikkje vi er så usamde. Det er mykje på nb vi ikkje lengtar etter å få på nn. Men vi vil gjerne ha dei gode artiklane, og vi vil gjerne ha det eg kallar infrastrukturartiklane. I og med at vi av naturlege grunnar ikkje kjem til å setje om 80000 artiklar, vil lista automatisk bli lagt høgt (den relativt vesle prosenten vi sett om, vil, i og med at det er ein liten prosent, automatisk representere eit utval av nb-artiklane). Trondtr 00:29, 10 januar 2007 (CET).
[endre] Apertium
First of all, sorry for the spam/crosspost. Please delete it if you find it inappropriate.
I'm writing this as I understand you are interested in translating between Norwegian Nyorsk<->Bokmal. The post concerns the en:free software machine translation engine en:Apertium. If there are people interested in writing language data for Nyorsk<->Bokmal, please contact me. I will assist in any manner possible. The work would involve creating XML files containing morphological dictionaries, a bilingual dictionary and a list of transfer rules. The software can be integrated in any way and I would be willing to help out with this. Some idea of the level of difficulty involved can be found here, although once a certain amount of work has been done on the XML files, a web interface can be used to add further vocabulary.
The only current downside (and it is worth mentioning) is that the software currently relies on ISO8559 encoding, although Unicode support will be (hopefully) available in March. Having said that, the encoding is not such a big deal and could be taken care of with iconv.
Again, sorry if this is completely irrelevant and a bit spammy, - en:User:Francis Tyers (contact me here).
- Btw, there is a webform that can be used here. - en:User:Francis Tyers
- It would be very interesting to see if any of the files prepared for the nyno-system could be reused for this open source project. Jeblad 22:56, 9 januar 2007 (CET)
- No, links to an open source MT project is definitely not spammy in this context. Unfortunately, I am not too optimistic wrt. reuse of Nyno source code in a project like this, since there is a company behind it, making a living of that software. What I had in mind was using Nyno for Wikipedia, not making a new MT version. But someone else may of course give it a go, e.g. with the open source nn and nb spelling projects + apertium as a starting point, perhaps with Stuttgart SFST for the morphology. Trondtr 00:23, 10 januar 2007 (CET).
- It would be very interesting to see if any of the files prepared for the nyno-system could be reused for this open source project. Jeblad 22:56, 9 januar 2007 (CET)
-
-
-
- The morphology stuff is included in the software, and is generated from the morphological dictionaries, so thats covered. I agree that it is very optimistic to think that Nyno might give away any of their data under a free license. It is probably better to start it from scratch. Could you give links to the nn and nb spelling projects? If there is any interest, please just give me a shout. I'm on freenode as 'spectei' or 'spectie' (as my en page shows) or you can email me. - en:User:Francis Tyers
- There is a common url for several Nordic projects, www.speling.org, with language specific ones with the language prefix da, etc. These projects use ispell. They suffer under the lack of good basic resources. Things are improving, though, as Forskingscentralen för de inhemska språken, the Finnish bureau for domestic languages, has recently released an xml version of a reasonably-sized lexicon, with inflection codes for each lexeme. There is lobbying (within the speling group for achieving the same here in Norway as well, but so far with no result. Trondtr 16:18, 10 januar 2007 (CET).
- The morphology stuff is included in the software, and is generated from the morphological dictionaries, so thats covered. I agree that it is very optimistic to think that Nyno might give away any of their data under a free license. It is probably better to start it from scratch. Could you give links to the nn and nb spelling projects? If there is any interest, please just give me a shout. I'm on freenode as 'spectei' or 'spectie' (as my en page shows) or you can email me. - en:User:Francis Tyers
-
-