Класификација текста са Питхон 3.14 ЗСТД модулом | Mewayz Blog Skip to main content
Hacker News

Класификација текста са Питхон 3.14 ЗСТД модулом

Класификација текста са Питхон 3.14 ЗСТД модулом Ова свеобухватна анализа текста нуди детаљно испитивање његових кључних компоненти и ширих импликација. Кључне области фокуса Дискусија се фокусира на: Основни механизми и про...

1 min read Via maxhalford.github.io

Mewayz Team

Editorial Team

Hacker News
Сада имам сав контекст који ми је потребан. Дозволите ми да напишем пост на блогу. <х1>Класификација текста са ЗСТД модулом Питхон 3.14 <п>Питхон 3.14 уводи модул <цоде>цомпрессион.зстд у стандардну библиотеку и откључава изненађујуће моћан приступ класификацији текста без модела машинског учења. Мерењем колико добро компресор може да стисне два текста заједно, можете да одредите њихову сличност – технику која се зове Нормализовано растојање компресије (НЦД) – и сада је Зстандард чини довољно брзим за производна оптерећења. <х2>Како заправо функционише класификација текста заснована на компресији? <п>Основна идеја која стоји иза класификације засноване на компресији је укорењена у теорији информација. Када алгоритам компресије попут Зстандарда наиђе на блок текста, прави интерни речник образаца. Ако два текста деле сличан речник, синтаксу и структуру, њихово компресовање заједно даје резултат само мало већи од компримовања самог већег текста. Ако нису повезане, спојена компримована величина се приближава збиру обе појединачне величине. <п>Овај однос је обухваћен формулом нормализоване удаљености компресије: <стронг>НЦД(к, и) = (Ц(ки) - мин(Ц(к), Ц(и))) / мак(Ц(к), Ц(и)), где је Ц(к) компримована величина текста к, а Ц(ки) је компримована величина два спојена текста. Вредност НЦД близу 0 значи да су текстови веома слични, док вредност близу 1 значи да немају скоро никакав информативни садржај. <п>Оно што ову технику чини изузетном је то што не захтева податке о обуци, нема токенизацију, нема уграђивања и ГПУ. Сам компресор делује као научени модел структуре текста. Истраживање објављено у радовима као што је „Класификација текста са малим ресурсима: Метода класификације без параметара са компресорима“ (2023) показала је да је НЦД заснован на гзипу конкурент БЕРТ-у у одређеним мерилима, што је изазвало поновно интересовање за приступ. <х2>Зашто је Питхон 3.14 Зстандард модул мењач игре за НЦД? <п>Пре Питхон-а 3.14, коришћење Зстандарда захтевало је инсталирање пакета <цоде>питхон-зстандард треће стране. Нови <цоде>цомпрессион.зстд модул, уведен преко ПЕП 784, испоручује се директно са ЦПитхон-ом. То значи нулте трошкове зависности и загарантован, стабилан АПИ који подржава Мета-ин борбено тестиран либзстд. Посебно за задатке класификације, Зстандард нуди неколико предности у односу на гзип или бзип2: <ул> <ли><стронг>Брзина: Зстандард компримује 3-5 пута брже од гзип-а у упоредивим односима, чинећи групну класификацију хиљада докумената одрживом за секунде, а не за минуте <ли><стронг>Подесиви нивои компресије: Нивои од 1 до 22 вам омогућавају да мењате брзину за однос, омогућавајући вам да калибришете НЦД прецизност према захтевима за проток <ли><стронг>Подршка за речнике: Унапред обучени Зстандард речници могу драматично да побољшају компресију малих текстова (испод 4 КБ), што је управо опсег величине документа где је тачност НЦД најважнија <ли><стронг>АПИ за стримовање: Модул подржава инкременталну компресију, омогућавајући цевоводе за класификацију који обрађују текстове без учитавања целих корпуса у меморију <ли><стронг>Стабилност стандардне библиотеке: Нема сукоба верзија, нема ризика у ланцу снабдевања — <цоде>од компресије импорт зстд ради на свакој Питхон 3.14+ инсталацији <блоцккуоте> <п><стронг>Кључни увид: Класификација заснована на компресији најбоље функционише када вам је потребна брза основна линија без зависности која природно обрађује вишејезични текст. Пошто компресори раде на сировим бајтовима, а не на токенима специфичним за језик, они класификују кинеске, арапске или мешовите документе једнако ефикасно као и енглески – није потребан језички модел. <х2>Како изгледа практична имплементација? <п>Минимални НЦД класификатор у Питхон-у 3.14 стаје у мање од 30 редова. Кодирате сваки референтни текст (један по категорији), а затим за сваки нови документ израчунате НЦД у односу на сваку референцу и доделите категорију са најмањим растојањем. Ево основне логике:<п>Прво, увезите модул са <цоде>из компресије импорт зстд. Дефинишите функцију која прихвата два бајтова низа, компримује сваки појединачно, компримује њихову конкатенацију и враћа НЦД резултат. Затим направите речник мапирања ознака категорија у репрезентативне узорке текстова. За сваки долазни документ итерирајте категорије, израчунајте НЦД и изаберите минимум. <п>У тестовима у поређењу са скупом података АГ Невс (класификација вести од четири класе), овај приступ који користи Зстандард на нивоу компресије 3 постиже отприлике 62-65% тачности — без корака обуке, без преузимања модела и брзине класификације од приближно 8.000 докумената у секунди на једном језгру процесора. Подизање нивоа компресије на 10 гура прецизност на око 68% по цену смањења протока на око 2.500 докумената у секунди. Ови бројеви се не поклапају са фино подешеним трансформаторима, али пружају снажну основу за израду прототипа, тријажу означавања података или окружења у којима је инсталирање МЛ зависности непрактично. <х2>Како је НЦД у поређењу са традиционалном класификацијом МЛ? <п>Искрен одговор је да НЦД није замена за класификаторе засноване на трансформаторима у производним системима са високим улозима. Модели као што су БЕРТ или ГПТ-базирани класификатори постижу 94%+ тачност на стандардним мерилима. Међутим, НЦД са Зстандардом заузима јединствену нишу. Одликује се у сценаријима хладног покретања где имате мање од 50 означених примера по класи — ситуација у којој се чак и фино подешени модели боре. Не захтева време за обуку, рукује било којим језиком или кодирањем без модификација и ради у потпуности на ЦПУ-у са константном меморијом. <п>За предузећа која управљају великим количинама долазног садржаја — тикети за подршку, спомињање друштвених медија, рецензије производа — Зстандардни НЦД класификатор може послужити као рутер првог пролаза који категорише документе у реалном времену пре него што скупљи модели прецизирају резултате. Овај двостепени цевовод значајно смањује трошкове закључивања уз одржавање укупне тачности. Платформе које обрађују садржај који генерише корисник у великом обиму, као што је Меваиз-ов пословни ОС са 207 модула који користи преко 138.000 предузетника, имају користи од лагане класификације за усмеравање порука, означавање садржаја и персонализовање корисничког искуства без тешке инфраструктуре. <х2>Која су ограничења и најбоље праксе? <п>Класификација заснована на компресији има позната ограничења која треба да узмете у обзир. Кратки текстови (испод 100 бајтова) производе непоуздане резултате за НЦД јер компресор нема довољно података да би изградио смислене обрасце. Техника је такође осетљива на избор референтних текстова — лоше одабрани представници нагло деградирају тачност. А пошто је НЦД метрика удаљености, а не модел вероватноће, она природно не производи резултате поверења. <п>Да бисте извукли максимум из овог приступа: користите референтне текстове од најмање 500 бајтова по категорији, експериментишите са спајањем више примера по класи (2-3 репрезентативна документа спојена заједно дају боље речнике компресије), нормализујте велика и мала слова и размак пре компресије и мерите Зстандард нивое компресије 3, 6 и 10 да бисте пронашли своју брзину.аццурац. За класификацију малог текста, унапред обучите Зстандард речник на корпусу вашег домена — овај корак може побољшати прецизност за 8-12 процентних поена на кратким документима. <х2>Честа питања <х3>Да ли класификација заснована на компресији функционише за анализу расположења? <п>Може, али уз упозорење. Анализа сентимента захтева откривање суптилних тонских разлика унутар структурно сличних текстова. НЦД боље функционише за класификацију тема где документи у различитим категоријама користе различите речнике. Што се тиче осећаја, тачност се обично креће око 55-60% — боље од насумичних, али није сама по себи спремна за производњу. Комбиновање НЦД карактеристика са лаким моделом логистичке регресије значајно побољшава резултате. <х3>Да ли могу да користим модул цомпрессион.зстд у Питхон верзијама пре 3.14? <п>Не. Модул <цоде>цомпрессион.зстд је нов у Питхон-у 3.14. За старије верзије, инсталирајте пакет <цоде>питхон-зстандард из ПиПИ, који обезбеђује еквивалентне функције <цоде>цомпресс() и <цоде>децомпресс(). НЦД логика остаје идентична — мења се само изјава о увозу. Када извршите надоградњу на 3.14, можете у потпуности да одустанете од зависности од треће стране. <х3>Како се Зстандард НЦД понаша у поређењу са ТФ-ИДФ са косинусном сличношћу?<п>У вишекласној класификацији тема са избалансираним скуповима података, сличност ТФ-ИДФ плус косинус обично постиже 75-82% тачности у поређењу са Зстандард НЦД од 62-68%. Међутим, ТФ-ИДФ захтева уграђени векторизатор, дефинисани речник и листе зауставних речи специфичне за језик. Зстандард НЦД не захтева ништа од ове предобраде, ради на различитим језицима из кутије и класификује нове документе у сталном времену без обзира на величину речника. За брзу израду прототипа или вишејезична окружења, НЦД је често бржи пут до функционалног система. <п>Било да градите аутоматизоване цевоводе садржаја, усмеравате поруке клијената или правите прототипове класификационе логике за ваше дигитално пословање, уграђена подршка за Зстандард у Питхон-у 3.14 чини НЦД засновану на компресији приступачнијом него икада. Ако тражите платформу све-у-једном за управљање пословним садржајем, производима, курсевима и интеракцијама са клијентима, <а хреф="хттпс://апп.меваиз.цом">почните да градите са Меваиз-ом већ данас и примените ове технике да функционишу у целој операцији. <сцрипт типе="апплицатион/лд+јсон">{"@цонтект":"хттпс:\/\/сцхема.орг","@типе":"ФАКПаге","маинЕнтити":[{"@типе":"Куестион","наме":"Да ли класификација заснована на компресији ради за анализу расположења?","аццептедАнсверАнсвер":цан": са упозорењима за откривање суптилних тонских разлика унутар структурно сличних текстова, где документи у различитим категоријама користе различите речнике, тачност је обично 55-60% боља од насумичних, али не и самосталних логичких записа р"}},{"@типе":"Питање","наме":"Могу ли да користим модул цомпрессион.зстд у верзијама Питхон-а пре 3.14?","аццептедАнсвер":{"@типе":"Ансвер","тект":"Не.Модул цомпрессион.зстд је нов у Питхон-у, за ранију верзију пакета 1.з ПиПИ, који обезбеђује еквивалентне функције цомпресс() и децомпресс() \у2014 Само се наредба увоза мења у потпуности.“}},{"@типе":"Куестион","наме":"Хов доес Зцос НФ-ИД у поређењу са стандардом. сличност?","аццептедАнсвер":{"@типе":"Ансвер","тект":"На класификацији тема у више класа са избалансираним скуповима података, ТФ-ИДФ плус косинусна сличност обично постиже 75-82% тачности у поређењу са Зстандардним НЦД од 62-68%. листе Зстандард НЦД не захтева ништа од ове претходне обраде, ради на различитим језицима и класификује нове документе у константи ти"}}]}.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 6,205+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 6,205+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime