Automatikus szöveg összefoglaló – Lincoln, Bevezetés az automatikus összefoglalóba – Az adatblog
Blog az adatokról, a mesterséges intelligenciáról és a projektjeimről
Contents
- 1 Blog az adatokról, a mesterséges intelligenciáról és a projektjeimről
- 1.1 Automatikus szöveg összefoglaló
- 1.2 Modellképzés
- 1.3 Blog az adatokról, a mesterséges intelligenciáról és a projektjeimről.
- 1.4 A különféle összefoglaló típusú
- 1.5 Az AI és a neurális hálózatok forradalmasítják az automatikus összefoglalót
- 1.6 Példa egy hibrid eszközre: potara
- 1.7 Mi a jó automatikus összefoglaló ?
Az automatikus összefoglaló az, hogy hosszú szöveget, vagy akár szövegeket készítsen, és egy sokkal rövidebb szöveget generáljon, amely az információk többségét tartalmazza. Egyszerű ? Nem sok. Először is meg kell értenie, hogy az információ milyen fontos. Ezután képesnek kell lennünk arra, hogy megfelelően kinyerjük őket, átszervezzük őket, mindegyik nyelvtani szövegben és emberi beavatkozás nélkül. És ez anélkül, hogy meg nem számít a lehetséges összefoglalók nagyszámára !
Automatikus szöveg összefoglaló
A textúra gyűjtésének és tárolásának robbanásával egyre inkább jelen van a releváns információk ebből a tömegből történő elemzésének és kinyerésének szükségessége.
Ezenkívül az automatikus természetes nyelvfeldolgozás (TALN) mély tanulási modelljeinek fellendülése megkönnyítette a szöveges adatok felhasználását az operatív kérdésekben. Az automatikus szöveges összefoglaló, ugyanúgy, mint a válaszadó kérdés, a hasonlósági elemzés, a dokumentum osztályozása és a TALN -hez kapcsolódó egyéb feladatok részét képezik.
Ebben az összefüggésben a Laboratóriumi innováció De Lincoln úgy döntött, hogy munkát végez az automatikus szöveg összefoglalóján. Ezek a munkák lehetővé tették a nyelvhez rendelkezésre álló automatikus összefoglaló modellek referenciaértékének létrehozását Francia, hogy saját modellünket okozzuk, és végül a gyártásba tegyük.
Modellképzés
Adat
Mielőtt elindíthatnánk a munkánkat, először adatbázist kellett készítenünk az automatikus összefoglaló modellek elsajátításához. Számos francia híroldalról visszanyertük a sajtóelemeket. Ez az alap ~ 60K cikket tartalmaz, és folyamatosan frissítve van.
A legkorszerűbb
Az automatikus összefoglaló algoritmusok két kategóriába sorolhatók: Összegzések kitermelő és összefoglalók abstraktív. A keretben kitermelő, Az összefoglalókat a szövegből kinyert mondatokból építették, míg az összefoglalók abstraktív új mondatokból származnak.
Az automatikus összefoglaló modellek meglehetősen gyakoriak az angol nyelven, de francia nyelven sokkal kevésbé vannak.
Mutatók
A modellek értékeléséhez a következő mutatókat használtuk:
Piros: Kétségtelen, hogy az összefoglaló feladatokban leggyakrabban a mérés, a visszahívás-orientált alulértékelés az értékeléshez (Lin, 2004) kiszámítja a hasonló N-grammok számát az értékelt összefoglaló és az emberi referencia-összefoglaló között.
Meteor: A fordítás értékelésének mutatója explicit rendeléssel (Banerjee és Lavie, 2005) az automatikus fordítási eredmények értékelésére tervezték. Ez a pontosság harmonikus átlagán alapul, és visszahívja az unigramokat, a visszahívásnak, amelynek súlya nagyobb, mint a pontosság. A meteor gyakran használják az automatikus összefoglaló kiadványokban (lásd et al., 2017; Dong et al., 2019), a piros mellett.
Újdonság: Észrevették, hogy néhány absztrakt modell túl sokat nyugszik az extrakción (lásd et al., 2017; Krysci ‘nski et al.’, 2018). Ezért gyakorivá vált az új N-grammok százalékos arányának mérése a létrehozott összefoglalókban.
Forrás: Fordítás az MLSUM papírból [2].
A modellek telepítése
A modellképzéshez a Cloud Azure ML szolgáltatást használtuk, amely teljes környezetet biztosít a modellek képzéséhez, megfigyeléséhez és telepítéséhez.
Pontosabban használtuk a Python SDK -t, amely lehetővé teszi a teljes Azureml környezet programozási módon történő kezelését, a “Jobok” elindításától a modellek telepítéséig.
A végső modellünket azonban egy konténerizált lombik alkalmazásba foglaltuk, majd a CI/CD csővezetékeken keresztül egy Kubernetes klaszteren telepítjük
Az eredmények
Mindenekelőtt több kísérletet tettünk, amelyek a modelleket 10K cikkekre vezettük, megváltoztatva a modell kezdetén megadott tokenek számát (512 vagy 1024) és különböző architektúrákat.
Első megfigyelés: A piros és a meteor mutatók nem tűnnek nagyon alkalmasnak modelleink teljesítményértékelésére. Ezért úgy döntöttünk, hogy összehasonlításunkat csak az újdonság pontszámára alapozzuk, és kiválasztottuk építészet Az abstraktív összefoglalók előnyben részesítése.
Miután a modellünk képzését 700 ezer tételre tolta, jelentősen javítottuk az eredményeket, és validáltuk az alábbiakban található első verziót, amelyet az alábbiakban találunk.
Figyelempontok
A teljesítményen túl ez a kísérlet lehetővé tette számunkra, hogy kiemeljünk néhányat határok Automatikus összefoglaló:
Jelenleg a szöveg méretei a típusú modellek méretében Átalakít korlátozza a GPU -k memóriájának kapacitása. A memória költsége négyzetesen, a szöveg méretével bemenetként, ez valódi problémát jelent az automatikus összefoglaló feladatainak, ahol az összefoglalandó szöveg gyakran elég hosszú.
Nagyon nehéz megtalálni a releváns mutatókat a szöveges generációs feladatok értékeléséhez.
Légy óvatos az elszívó súlya : Számos problémával is találkoztunk önmagukban az adatokkal kapcsolatos problémákkal. A fő probléma az, hogy a cikk cikke gyakran parafrazum volt, vagy akár a cikk első mondatának másolatát is. Ennek az a következménye, hogy modelleinket arra ösztönözzük, hogy extrahálóbbak legyenek, mint az abstraktívak, ha egyszerűen visszaküldték a cikk első mondatait. Ezért szükség volt egy kurációs munkára a problémát okozó cikkek törlésével, hogy elkerülje az ilyen torzításokat.
Blog az adatokról, a mesterséges intelligenciáról és a projektjeimről.
Az automatikus összefoglaló az, hogy hosszú szöveget, vagy akár szövegeket készítsen, és egy sokkal rövidebb szöveget generáljon, amely az információk többségét tartalmazza. Egyszerű ? Nem sok. Először is meg kell értenie, hogy az információ milyen fontos. Ezután képesnek kell lennünk arra, hogy megfelelően kinyerjük őket, átszervezzük őket, mindegyik nyelvtani szövegben és emberi beavatkozás nélkül. És ez anélkül, hogy meg nem számít a lehetséges összefoglalók nagyszámára !
Körülbelül egy éve tudtam dolgozni ezen az izgalmas témán, közvetlenül a doktori fokozat előtt.
Tehát készítsünk áttekintést erről a témáról, létrehozva a létező különféle összefoglalók típusát, mielőtt két típusú rendszert kissé részletesebben lakunk: az AI -ből és a neurális hálózatokból, és azok, amelyek inkább az optimális extrahálásra koncentrálnak. információ.
A különféle összefoglaló típusú
Amikor az összefoglalóról beszélünk, gyakran gondolunk egy könyv hátlapjára vagy a film forgatókönyvének leírására. Általában elkerülik a cél elrontását, amikor pontosan ezt kérhetjük a klasszikus automatikus összefoglaló eszközét: az intrika elmondása, hogy az összefoglaló elegendő legyen az alapvető elemek megismeréséhez. Itt van Mono-dokumentum összefoglalók, Vagyis csak egyetlen dokumentumot (film, könyv, cikk, …) foglalunk össze.
Éppen ellenkezőleg, szeretnénk a Többdokumentális összefoglaló, Hogy gyakrabban találkozzunk a sajtó -áttekintés összefüggésében: Összefoglalót akarunk kapni a legfontosabb információkról, amint azt a különféle sajtószervezetek jelentették.
Miután eldöntöttük az adatok típusát, amelyet összefoglalni, mono vagy multokumentumra törekszünk, a két megközelítés között választhatunk: akitermelő, amely az információk kinyeréséből áll, mielőtt visszahelyezi az összefoglaló létrehozását és a megközelítést generációs, amely új mondatok létrehozásából áll, amelyek eredetileg nem jelennek meg a dokumentumokban, hogy folyékonyabb és FREer összefoglalót kapjanak.
Ezen kritériumok mellett az összefoglalók különféle stílusai vannak, amelyeket itt nem fogunk megközelíteni: frissítési összefoglalók, amelyek egy új dokumentumban szereplő információk összefoglalásából állnak, és amelyet eddig nem soroltak fel, összefoglalva, amely a pontos szög elfogadásából áll. a felhasználó által adott ..
Az AI és a neurális hálózatok forradalmasítják az automatikus összefoglalót
A -2010 -es évek közepéig az összefoglalók többsége kitermelő volt. Ezekben az algoritmusokban azonban nagy a sokféleség, amely a teljes mondatok kiválasztásától és kinyerésétől kezdve a pontos információk kinyeréséig, azután az előzetesen elkészített lyukakban felsorolt szövegekből, az úgynevezett sablonokig terjedhet. Az ideghálózatokon alapuló új megközelítések megérkezése jelentősen megváltoztatta a helyzetet. Ezek az algoritmusok sokkal hatékonyabbak, mint az előzőek, hogy nyelvtani és folyékony szöveget generáljanak, például azt, amit meg lehet tenni ezzel a GPT -demo -val.
A neurális hálózatok azonban nagy mennyiségű adatot igényelnek, és viszonylag nem szabadok legyenek. Tökéletesen dolgoznak olyan megjegyzések generálásában, amelyekben a valódiság kevés jelentőséggel bír, de határozottan ellentmondásos vagy egyszerűen helytelen információkat generálhat, ami például a sajtócikkek összefoglalásainak összefüggésében problematikus, például. Számos kutatási cikket érdekel az ideghálózatok ezen “hallucinációja”.
Példa egy hibrid eszközre: potara
Az automatikus összefoglaló volt az első kutatási alany, amelyben érdekeltem, és lehetőségem volt a mestermás során, hogy egy hibrid rendszert extraháljon/generációval egy többdokumentum megközelítéshez, vagyis összefoglalja a beszélő dokumentumkészletet. ugyanazon téma.
Az ötlet az volt, hogy egy klasszikus kitermelésből kezdjék el, nevezetesen a legfontosabb mondatok azonosítására és az összefoglaló létrehozásához történő összeállítására. Ennek a megközelítésnek a problémája az, hogy a legfontosabb mondatokat gyakran tovább lehet javítani. Például egy elnöki elmozdulásról szóló cikkben az “Emmanuel Macron találkozott az amerikai társa, és megvitatta a közgazdaságtanot”. A “Emmanuel Macron Met Joe Biden és a Gazdaság megvitatása” című részben javítható. Az újságírók gondosan elkerülik a próbákat, gyakran találkozunk az ilyen jelenséggel.
Ennek a hibának a leküzdése érdekében azonosíthatjuk a különféle dokumentumokban jelen lévő hasonló mondatokat, és megpróbálhatjuk őket egyesíteni, hogy jobb mondatot kapjunk. ANSI, a következő két mondatból:
- Emmanuel Macron találkozott amerikai társaival Washingtonban, és hosszasan beszélt a közgazdaságtanról.
- A francia elnök találkozott Joe Bidennel és megvitatta a közgazdaságtanot.
Készíthetünk egy rövid és informatív mondatot:
- Emmanuel Macron találkozott Joe Bidennel Washingtonban, és megvitatta a közgazdaságtanot.
Számos lépésre van szükség az eredmény eléréséhez: hasonló mondatok megtalálása, a legjobb fúzió megtalálása, a fúzió ellenőrzése, hogy a fúzió sokkal jobb, mint egy eredeti mondat. Számos technológiában vesznek részt: a Word2 ideghálózatokkal, hogy hasonló mondatokat találjanak, a COCCURENCE grafikonokat, hogy egyesítsék őket, az ILP optimalizálására a legjobb fúziók kiválasztására.
Ha többet szeretne látni, a Potara nyílt forráskódú, de egy ideje nem tartja fenn. Ez a projekt nevezetesen kiadásom során kirakatként szolgált, és ezért dokumentációval, tesztekkel, folyamatos integrációval, PYPI -n történő telepítéssel, ..
Mi a jó automatikus összefoglaló ?
Ha bizonyos kritériumok nyilvánvalónak és viszonylag egyszerűnek tűnnek (például a mondatok nyelvtikai jellege), mások sokkal összetettebbek. Annak eldöntése, hogy mi a szöveg legfontosabb információja már önmagában nagyon szubjektív feladat. Értékelje meg a felhasznált szavak folyékonyságát, a megfelelő választását, visszatér a kiadáshoz, és ne beszéljünk arról a politikai orientációról, amelyet az összefoglaló megtehet !
Az ideghálózatokon alapuló új, generációs modellek valószínűleg pejoratív ítéleteket vagy minősítőket (vagy felhasználói barátságos) vezetnek be, amelyet a filmkritikus létrehozásakor keresnek, de sokkal kevésbé, amikor egy elnökjelölt programjáról beszélnek !
Az automatikus összefoglaló tehát a kutatásban nagyon aktív téma, és egy pillanatra is lehet, különös tekintettel az algoritmus eredményének irányítására, pontosan egy adott érzésre, egy adott stílusra, egy politikai színezésre. Az iparban csak elkezdi belépni a nagyon konkrét vezetőkbe (például a találkozók összefoglalása).
Elnök 2022: Az Ön adatainak !
3 Példák a 2022 -es elnökválasztásra végrehajtandó adatprojektekre.