Потребител беседа:Bgbot/Козметика

от Уикипедия, свободната енциклопедия

[редактиране] Тирета

При замяната на малко тире с голямо, интервалите би трябвало да се оставят. --5ko | Беседа 21:16, 21 фев 2005 (UTC)

Обикновено ги оставям. Има обаче една проверка за тире с интервали между цифри. Него го заменям с н-тире без интервали. Ако прави проблеми, ще го махна. --Борислав 21:31, 21 фев 2005 (UTC)
Ами сигурно е трудно за автоматизирана преценка. Първо, не съм чел и не зная къде да прочета какви правила има за малко-средно-голямо тире. По разни печатни текстове, приказки, литература, има малко тире при "по-голям", "източно-православен", "анти-, про-, пред-нещо", и други свързани логически и смислово думи, а по-дълго тире с интервали (не зная средно ли е, но не е чак толкова дълго като "дългото") -- когато има логическа или смислова опозиция или пояснение и когато -- примерно при прочитане -- се прави пауза, както в това изречение (това тире е май равносилно на запетая). Затова, струва ми се, че при тиретата между датите като че ли трябва да имат интервали -- те са опозиция. Ако няма, годината от първата дата ми се струва закачена за деня от втората дата, а би трябвало да са отделени [1]. Ако при цифрите наистина има "минус", според мен е кратко тире и пак трябва да има интервали, но може да бъркам. Има ли ги някъде тези правила за четене? --5ko | Беседа 22:00, 21 фев 2005 (UTC)
Да, трудно е, но се надявам да го натъкмя някак. След малко размишления реших да оставям интервалите, обграждащи малко тире, ако то е между цифри. По този начин например няма да се развалят цифри с минус между тях. А дължината на средното тире отговаря точно на дължината на минусовото (макар и всяко от тях да си има отделен код в Уникод). Тъй като обаче минусовото рядко се поддържа, ще слагам н-тире.
Та, късото тире (дефис) се ползва само при съставни думи (като твоите), в почти всички останали случаи се ползва дълго тире (според българската типография). Само когато става въпрос за интервали, обозначени с цифри, се слага средно тире: например за страници — 2–10, за мерни единици — 3–4 см, години — 1801–1900. За дати обаче смятам, че подходящо е дългото тире (или средно): 18 февруари 183718 февруари 1873.
Относно четенето: имам едно откъсче от „Нов правописен речник на българския език“ (2002), където има малко писано за това. Нещо специално за българската типография обаче не съм виждал. --Борислав 16:07, 23 фев 2005 (UTC)
Новият Бгбот [2]: това за премахването на интервалите пред точки, запетаи и т.н. ми се струва много полезно. За другите неща нямам мнение, но "замяна на тире между цифри с н-тире: 5–7" - ВСИЧКИ (?), както чета и в горните разсъждения, май действително е проблематично. В случая с библиогр. бележки давам като пример тиретата между цифрите на страници, а и въобще - как са в Кирило-Методиевска енциклопедия (Академ. издание "Марин Дринов"): "Лит.: Дринов М. С. Заселение. - ЧОИДР, 1872, 4, отд. 1, с. 1-176; Снегаров, Ив. Епархиите..." и т.н. В случая заглавията не са в курсив, което според мен е полезно, но по-трудно за четене, и само между буквите на фамилните имена са сложени малко по-големи интервали (за това сигурно има някакъв професионален термин). Понеже имаме много библ. данни, които ще нарстват в бъдеще - има ли тук в БГ-Уики някакво правило за библиографията и къде, а ако няма, не би ли трябвало да вземем за пример някаква що-годе приета БГ-норма? И още нещо: така нареченото н-тире това дългото тире лие? При мен излиза така "-", а малкото тире така "-". Разлика не виждам, или съм сляп? --Иван 08:02, 16 юни 2005 (UTC)
Правило в Уикипедия май все още няма. Нека някой с повече опит в типографията се изкаже какъв е стандартът в български текстове. Н-тирето е със средна дължина: по-дълго от дефиса (това по клавиатурите) и по-късо от м-тирето. Ето ги и трите:
  • - (дефис)
  • – (н-тире)
  • — (м-тире)
Борислав 08:25, 16 юни 2005 (UTC)
Моята клавиатура, когато съм на латиница, прави разлика между дълга и къса чертица, на кирилица не - само къса: - - . Значи трябва да вмъквам "— –" от долните допълнителни знаци. Малко неудобно - изглежда само мой малък проблем (на моята програма KeyMap32), както и не мога да видя на "още" допълнителните старобълг. букви, които сложи скоро Петко, макар че той любезно ми написа за 2 начина по които би трябвало да се настроят. Може би имаш някаква идея? --Иван 08:57, 16 юни 2005 (UTC)
Ами, и аз ги вмъквам оттам. Но това става много лесно — само щракам върху символа и готово, той е вмъкнат. Новите не ги виждаш, защото най-вероятно не ти се е актуализирал съответният файл. Я посети следния адрес: [3] и натисни F5, като ти се отвори новата страница. Може и CTRL+F5 или пък CTRL+R, зависи какъв ти е браузърът. —Борислав 09:21, 16 юни 2005 (UTC)
Пращам мейл с обяснения не за тук. --Иван 10:12, 16 юни 2005 (UTC)


[редактиране] МедияУики, изкуствен интелект

УикиКод: буквален (WYSIWYG) или код? Говореше се едно време, че примерно тиретата (маркирани с "--" в кода) ще се правят автоматично от някоя следваща версия на МедияУики. Това е възможно и за кавичките и др. Мисля че ще е добре да се консултираме с разработчиците (wikitech-l) какви са плановете. Все пак УикиКодът до голяма степен се развива като език за оформление, а не буквално съдържание. Иначе май ще има доста усложнения по изпипването на автоматичните замествания, например:

  • всеки един от нежеланите низове (било то ", --, (tm) или [0-9] C ...) може да се използва буквално (демонстрация на типография, текст за въвеждане в компютър, номер на кола/сериен номер/модел "123 C", и др.)
  • Иван каза: "Не стигат пет, трябват поне 555" — тук дясната кавичка, как се разпознава като такава?
  • уикикодът трябва донякъде да се парсва: примерно интервал пред реда не е единственият начин за <pre> (а за някои неща въобще не се и ползва този таг, а само <tt>/<nowiki> или и двете, или нито едно от тях).

... Като цяло не съм сигурен, че си струва, тези козметични грешки да се разглеждат отделно от нормалните тайпота, които по принцип се оправят само с човешка намеса (поне частична, като наблюдение на спел-чекъра), поради принципните проблеми с изкуствения интелект. --Станислав 16:47, 23 фев 2005 (UTC)

Едва ли в скоро време нещо подобно ще влезе в софтуера, защото е много трудно да бъде напаснато към всички типографии, но знае ли човек... Парсване при замяна не се прави — работата се върши от регулярни изрази, като отделни блокове не се пипат (виж по-горе). В началото ще следя всяка статия, т.е. ще пускам бота, когато имам време и по-малко. След това ще се опитам да преценя дали може да му се има доверие — може и да се провали (точно заради тези сурови низове, които не трябва да се пипат). Точно за кавичките ползвам регулярен израз, взет от ru:Википедия:Викификатор (само леко го промених — /([(\s\|\'"_>])"([^"]+)([^\s"(])"/$1„$2$3“/). --Борислав 17:46, 23 фев 2005 (UTC)
За парсването, казах „донякъде“: имам предвид, че освен простата замяна на рег. израз е нужно уики-документа поне в някаква степен да бъде "осъзнат" от програмата: това се налага например, защото тагът pre трябва да се зачита (както всъщност сега видях си отбелязал по-горе). Самото му зачитане също не става коректно само с изпускане на низове "<pre>...</pre>", защото самият низ "<pre>" може да е в pre (тагът в уики, не HTML), nowiki, коментар, които също трябва да се третират правилно и т.н. Софтуерът може би скоро няма да поддържа тирета, но, като гледам wikitech-l, май скоро ще има парсър, който би улеснил някои неща? (Не че е необходим пълен парсър за тази операция.) Във всеки случай е хубаво да се прегледат и уточнят search/replace-двойките тук, и контекста в който се пускат.
За неща като кавичките има няколко принципни проблема:
  1. Не могат да се осигурят всички случаи (примерно при горния израз, едно (правилно или неправилно) използване на символа " между кавички (пак ") приключва търсенето (с или без заместване); частично правилно снабдените с кавички изрази се пропускат; интервал, отбелязан като „" "“, не се коригира, и пр.). Следва ли тогава да се прави замяна, ако това може да доведе до неконсистентно ползване на кавички/др. символи в една статия?
  2. Прекалено чести са случаите на (принципно грешна) употреба на символи със специално значение извън code, pre и пр. Както казах горе се случва и „неправилно“ ползване за демонстравини цели. Не всички математически изрази ги пишем в math. Голяма част от цитатите е добре да се оставят както са... Не са ли това достатъчно причини за преглеждането на тези замени от човек?
Специално за кавичките: досега си мислех, че «» са външните кавички? А как една програма ще разпознава външни/вътрешни, след като в стандартно въведения текст няма вътрешни/външни „"“. Ако се гледат апострофите, обградени с „"“, няма да може да стане (само) чрез глобално заместване на регулярен израз...
Абсолютно съм „за“ който иска да прави полуавтоматични промени, но мисля, че ще е грешка, ако се пуснат ботове да поправят препинателни знаци без надзор, колкото и да са изпробвани. След като водещи компании не могат (като хората) да вградят такова нещо в офис-пакетите си... --Станислав 21:15, 23 фев 2005 (UTC)
Да, доста грешки могат да станат, затова почти не се надявам, че някога Бгбот сам ще замества знаците. Кавичките ще ги следя най-зорко, а описателните кодове може и да ги махна, ако са прекалено проблемни. Вътрешните кавички се заменят при повторно минаване — при първото вътрешните са заменени от обли, а външните си остават прави, при второто външните стават обли, а вътрешните — ъглови. Ако разполагаш с повече информация относно кавичките, ще се радвам да я видя. --Борислав 23:49, 23 фев 2005 (UTC)
Нямам информация за кавичките; даже като консултирах уж-четивото си за препинателните знаци в българския (едно приложение към тълковен речник) трябваше да установя, че не само не прави разлика между ъглови и заоблени, ами най-безцеременно си ползва английски кавички. тц :-) --Станислав 00:08, 24 фев 2005 (UTC)
За рег.-израза, имах предвид, че в стандартният текст няма вътрешни/външни ", в смисъл не се ползват, защото няма как да се различат (или поне съм с такова впечатление останал). Ползва се апостроф (който пак може да се оправи както казваш с двойно минаване де, но отваря още места за грешки). --Станислав 00:14, 24 фев 2005 (UTC)
Кавичките успявам да ги разпозная като вътрешни, независимо че е все един и същ знак. Засега не правя замяна на апострофи. --Борислав 06:44, 24 фев 2005 (UTC)

[редактиране] Нотация на числата по SI

На Потребител беседа:Smartech се изписа един дълъг и до голяма степен безсмислен разговор, в който става дума за преобразуване на числа от американска нотация (цялата част, групирана по три цифри, разделени със запетая, десетичен разделител точка, дробната част и тя групирана по три цифри, разделени с интервал) в българска, БДС, европейска или SI, при които десетичният разделител е запетая, цифрите в цялата част се разделят на групи с интервал, а тези в дробната част не се групират.

Спас Колев твърди, че с малка добавка в бота това е осъществимо. Ако ботът преминава през всички статии, смятам, че това не е толкова лесно, тъй като има числа, които вече са в SI нотация и не виждам как бота може да разграничи, например 12,345 (дванайсет хиляди триста четиридесет и пет) от 12,345 (дванайсет цяло и триста четиридесет и пет хилядни).

Може би е добре да се направи списък статии, в които е сигурно, че числата са само в американска нотация -- тогава преобразуването е наистина тривиално.

В някои от статиите би било също добре да се замени дефиса с &minus; и някъде "x" с &times;. За последното имам някакви съмнения, че трябва да се обсъди, защото не съм наясно дали този начин на представяне на умножение се използва в България и доколко. --Емил Петков 08:09, 16 юни 2005 (UTC)

Ами, бота съм го пуснал в безсрочен отпуск. Ако някой желае, може да се заеме с това. Относно списъка: така ще е най-добре. —Борислав 08:25, 16 юни 2005 (UTC)
Ще разгледам идеята да се намеся на по-професионално равнище. Очаквайте включване. --Емил Петков 08:29, 16 юни 2005 (UTC)
Като ти е бил безмислен разговора какво се натискаш сега Smartech 15:21, 16 юни 2005 (UTC)
Въобще не се натискам дори. Спокойно можеш ти да напишеш кода за ботчето. :-) --Емил Петков 15:29, 16 юни 2005 (UTC)