• Актуальнае
  • Медыяправа
  • Карыснае
  • Накірункі працы і кампаніі
  • Агляды і маніторынгі
  • Рэкамендацыі па бяспецы калег

    З Корпусу беларускай мовы прыбралі публікацыі незалежных медыяў

    Праз паўгода бяздзеяння часткова аднавіў працу Беларускі N-корпус. Афіцыйнай прычынай спынення працы называліся тэхнічныя праблемы, але выглядае, што праект стаў ахвярай палітычнай цэнзуры. З корпусу зніклі амаль 90% тэкстаў, у тым ліку публікацыі нелазежных беларускіх СМІ, піша «Наша Ніва».

    Беларускі N‑корпус нечакана спыніў сваю працу ў ліпені 2023 года. На адпаведнай старонцы было размешчана паведамленне пра тое, што ў распрацоўшчыкаў «узніклі праблемы з корпусам»:

    «На жаль, атрымалася так, што мы не можам яго падтрымліваць далей з розных прычын. Рухавік корпуса застаецца пад вольнай ліцэнзіяй. Астатнія праекты будуць працягвацца як і раней».

    Больш дакладных тлумачэнняў не было ні на самім сайце, ні ў сацсетках, захоўвалі публічнае маўчанне і мовазнаўцы-стваральнікі Корпуса.

    Як стала пасля вядома, афіцыйнай прычынай была названая «недастатковая магутнасць сервераў». Але, відаць, адной гэтай прычынай спыненне працы не абмяжоўваецца.

    Корпус складаўся з некалькіх падкорпусаў: асноўнага, неразабраных тэкстаў, газет і сайтаў, беларускіх Вікіпедый абодвух правапісаў. Такім чынам Корпус уключаў велізарную колькасць сучасных тэкстаў на беларускай мове, у тым ліку публікацыі беларускамоўных СМІ, прадукцыя большасці з якіх была прызнаная рэжымам Лукашэнкі «экстрэмісцкімі» матэрыяламі. Менавіта падкорпус газет і сайтаў першым знік з выдачы яшчэ да поўнага адключэння Корпуса. 

    Няспыннае пашырэнне «забароненай» прадукцыі працягвала значна скарачаць кола сучасных тэкстаў на беларускай мове, якія можа выкарыстоўваць у Корпусе, а канвеернасць прызнання ўсяго «экстрэмісцкім», рабіла немагчымым пастаяннае адсочванне і ўнясенне адпаведных зменаў у велізарную базу. 

    Крамольную для рэжыму па сэнсе і падачы інфармацыю маглі змяшчаць і тэксты без «экстрэмісцкага» статусу. Цэнзураванне зместу тэкстаў не з’яўляецца задачай Корпуса і супярэчыць яго сутнасці, фізічна і тэхнічна немагчыма выявіць небяспечныя фрагменты ў мільярдзе словаўжыванняў. 

    У такім разе спыненне працы Корпуса з меркаванняў уласнай бяспекі выглядае цалкам лагічным.

    Праца Корпуса была адноўлена 19 студзеня, але ў моцна скарочаным выглядзе. Калі ў пачатку 2023 года агулам корпус налічаў каля 1 млрд слоў, то сёння засталося толькі 124 млн, або 12%. 

    З аднаго боку, гэта добра кладзецца ў афіцыйную версію пра магутнасці сервераў. Але ў адноўленым Корпусе не проста скараціліся, а цалкам зніклі цэлыя падкорпусы: Корпус неапрацаваных тэкстаў (907 млн слоў), які ўключаў тэксты з сайтаў kamunikat.org (465 млн слоў) і knihi.com (432 млн слоў), канкарданс беларускай мовы XIX ст., які ўключаў практычна ўсе захаваныя творы мастацкай літаратуры, напісаныя ў названы перыяд на беларускай мове (287 тыс. слоў), і корпус абедзвюх беларускіх Вікіпедый (124 млн слоў).

    Гэтыя змены лёгка патлумачыць: Вікіпедыя застаецца свабодным і непадцэнзурным рэсурсам, канкарданс XIX ст. змяшчае антырасійскія творы Дуніна-Марцінкевіча, Багушэвіча, Каратынскага і іншых дзеячаў, якія або прызнаныя экстрэмісцкімі, або з’яўляюцца аб’ектам нападкаў прарасійскіх блогераў, а сайт kamunikat.org заблакаваны па рашэнні Міністэрства інфармацыі.

    Адроджаны корпус вэб-рэсурсаў сёння ўключае толькі сайты дзяржаўных «БелТА», газеты «Звязда», Белтэлерадыёкампаніі і афіцыйны сайт Лукашэнкі, цалкам ігнаруючы велізарны і разнастайны масіў тэкстаў, які дзесяцігоддзямі ствараўся незалежнымі медыя. Агулам атрымалася 106 млн слоў — кропля на месцы колішняга мора.

    Магчыма, корпус яшчэ будзе дапоўнены іншымі матэрыяламі, але многія туды ўжо не вернуцца праз ідэалогію сённяшняга беларускага рэжыму.

    Чытайце яшчэ:

    Штучны інтэлект пакуль не заменіць журналістаў, затое можа ім дапамагчы. Даем лайфхакі

    Сярод 20 беларускіх экспертаў, у дачыненні да якіх адкрытая «спецвытворчасць», — тры прадстаўнікі медыясферы

    В Беларуси решили бороться с VPN, чтобы ограничить доступ к независимым источникам информации

    Самыя важныя навіны і матэрыялы ў нашым Тэлеграм-канале — падпісвайцеся!
    @bajmedia
    Найбольш чытанае
    Кожны чацвер мы дасылаем на электронную пошту магчымасці (гранты, вакансіі, конкурсы, стыпендыі), анонсы мерапрыемстваў (лекцыі, дыскусіі, прэзентацыі), а таксама самыя важныя навіны і тэндэнцыі ў свеце медыя.
    Падпісваючыся на рассылку, вы згаджаецеся з Палітыкай канфідэнцыйнасці