Wikipedie:Žádost o komentář/Velké jazykové modely – komplexní diskuse
Popis problému
[editovat | editovat zdroj]Co se týče velkých jazykových modelů, jako je GPT Chat, asi nemá cenu je nějak blíže představovat. Onen generátor od podzimu více či méně „uchvátil“ svět, byť jeho výstupy nejsou zdaleka dokonalé. Není třeba ani dodávat to, že se tento problém Wikipedie přímo týká.
Bohužel shledávám, že lidi chápou jazykové modely jako skutečnou inteligenci – tedy třeba v dobré víře přebírají jejich obsah, což však Wikipedii naopak může poškodit. Příkladem budiž článek Tana pruhovaná: chybně je prakticky vše, od rozměrů a počtu zubů po areál výskytu (z druhu, co žije na Borneu, byl vytvořen druh žijící prakticky v celém orientu). Poutavé jsou též fabulace o lovu hadů... Uživatelka přičemž netušila, že je něco špatně, pracovala v dobré vůli!
Poslední příklad budiž Diskuse:Tři zlaté klíče – text byl falešně ozdrojován a že jde o výstup GPT jsem odhalil pouze díky specifické stylistice onoho programu. Další nalezené články mohu v případě potřeby doložit, sbírá je i kolega @Matěj Suchánek:.
Stojíme tedy před kruciálním problémem, jenž může převrátit podstatu Wikipedie naruby. Připomínám, že mem pro používání Chat GPT se úspěšně šíří, studenti nad tím tleskají, Internet nás každý den zásobuje dílem nadšenými a dílem katastrofickými články, jak AI nahradí pracovní pozice, příp. zničí lidstvo. Zavírat před tím oči a nejednat rychle znamená připravit si půdu pro skutečně vážné problémy – progres těchto nástrojů postupuje v řádech měsíců.
Dovedu si představit situaci, kdy výstupy Chat GPT budou natolik dobré, že budou pro naše potřeby splňovat Turingův test. A následně i situaci, kdy tu budou nadšení lidé plodit spousty článků pochybného původu (třeba i v dobré vůli). Současná patrola, která i v případě prostých vulgarit spoléhá jen na dobrovolnou lidskou práci, na toto nikdy nemůže stačit. Už třeba 30 nových neprověřených článků/den je podle mých zkušeností strop, co lze jakž takž prověřit.
- Nabízejí se tedy otázky
- Jak se oficiálně vymezíme ke generátorům na bázi AI? Máme mou zásluhou zmínku ve WP:Věrohodné zdroje, ale to nestačí. Musíme vytvořit návod na bázi en:Wikipedia:Large language models – nesmíme zpátečnicky říct fuj, ale zvolit efektivní koevoluci.
- Jak generované texty odhalovat? Existují nějaké protinástroje? Ví o tom naši „Wikitechnici“? Můžeme je mít k dispozici? Budeme je zaručeně potřebovat!
- Jak se do budoucna budeme chovat k neověřeným textům? Budeme tvrdě vyžadovat zdrojování řádkovými referencemi u delších hesel (třeba prostřednictvím
{{Urgentně ověřit}}
), když víme, že mohou být generována (a bude jich třeba generováno velké procento)? Škodiče to neodradí, ale lidem přispívajícím sem v dobré vůle může ukázat správný směr. Toto je reálné dilema, jež třeba již za rok můžeme řešit. - Zavedeme už konečně nějaké automatické patrolářské programy? Svět se vyvíjí, ale údržba cswiki zůstává v mezích internetové prehistorie. Primitivní údržbu, jako jsou reverty běžných vandalismů, by zvládly vyladěné automatické programy (následné bloky školních vandalů nechť ještě správci ještě posvěcují, později ať se dělá automaticky třeba i toto). Na enwiki patrolářští roboti pracují již dávno, ještě z dob před boomem AI. Jako správce říkám, že bych byl pro ulehčit správcům břemeno primitivních činností, aby mohli využít svůj potenciál efektivněji. Nechť hyperaktivně celý den nerevertují editace, ale procházejí spíš nové články a problematické revize. Opět – je na našich technicích určit, co je možné a co je nemožné. Ale momentálně nám kromě toho ORES, co filtruje editace, nic v patrollingu nepomáhá.
- Jaký je postoj WMF? Co plánuje s Wikipedií třeba v horizontu deseti let, abychom byli konkurenceschopní? Ví to někdo?
Čas v tomto případě, myslím, chvátá. OJJ, Diskuse 8. 6. 2023, 10:57 (CEST)
Související diskuse
[editovat | editovat zdroj]- GPT Chat a pravidlo po vzoru enwiki?
- Diskuse k Wikipedii:Věrohodné zdroje#Velké jazykové modely – implementace do věrohodných zdrojů
- Wikipedie:Pod lípou#Umělá inteligence na české Wikipedii
- spíše filosofické debaty na Wikipedie:Pod lípou (u krbu)
- en:Wikipedia:Large language models + en:Wikipedia talk:Large language models
- Článek na Živě.cz
Ping
[editovat | editovat zdroj]Byrokrati: @Martin Urbanec, Tchoř, Draceane, JAn Dudík:
Pár dalších, co se kolem ochomýtlo: @Kacir, Harold, Svenkaj, Matěj Suchánek:@Jan Spousta, Osidor, KPX8, Mario7:@Blahma, Radek Linner, Podroužek: OJJ, Diskuse 8. 6. 2023, 10:57 (CEST)
Rozcestník o využití AI na Wikipedii
[editovat | editovat zdroj]- Wikipedie:Využití umělé inteligence na Wikipedii - nově přidal--Jan Spousta (diskuse) 15. 5. 2024, 10:59 (CEST)
Komentáře
[editovat | editovat zdroj]Jan Spousta
[editovat | editovat zdroj]Zas ale abychom nepřestřelili na druhou stranu. Překlady a kompilace dělají LLM docela dobře. Viz článek De Administrando Imperio, který @Harold: opakovaně navrhl na odložené smazání, protože se autor přiznal ve shrnutí editace k použití LLM. Díval jsem se teď schválně a text je v zásadě v pořádku - nešel jsem tam při paralelním čtení s anglickým originálem jen jednu věcnou chybu, a sice záměnu edice ve středověké řečtině za překlad do novořečtiny. Je to podobné jako se strojově asistovanými překlady. Znalému a schopnému uživateli to pomůže dosáhnout ještě vyšší kvality či rychlosti práce, zatímco pro neznalého nebo neschopného je to jen podnět k vytváření zbytečných blábolů. Otázka je, jak tyto dvě kategorie uživatelů odlišit.--Jan Spousta (diskuse) 8. 6. 2023, 14:26 (CEST)
- @Jan Spousta: To se bohužel pleteš. Dotyčný uživatel, co založil inkriminovaný článek, je dlouhodobě problematický, defacto má zákaz editace. Kdysi zde psal, že porušoval AP, tedy i info o použití GPT mohla být jedna z forem trollingu a nástroj nemusel být vůbec užit. Viz i osobní útoky z nyní blokovaného rozsahu. Toto doporučuji vůbec nebrat v potaz, tam byla urgentní šablona vložena spíš pro forma. OJJ, Diskuse 8. 6. 2023, 14:38 (CEST)
- @OJJ: Aha :-) Ale stejně je možné, že si tu někdo něco takového zkusí i bez trollingu a v zásadě to dopadne dobře.--Jan Spousta (diskuse) 8. 6. 2023, 14:41 (CEST)
- @Jan Spousta: On tenhle kolega píše hesla obecně dobrá a IMO sám. Jakási revolta či nenávist ke správcovskému sboru bohužel občas vyústí v toto. Doporučuji sem vůbec nemíchat.
- GPT jinak zatím produkuje spíš zavádějící obsah; viz příklady nahoře. Z hlediska Wikipedie je pak problém v jeho neověřitelnosti... a otázkou je, jak takové věci do budoucna poznat, kolik jich bude, jak vyžadovat citace atp. OJJ, Diskuse 8. 6. 2023, 14:47 (CEST)
- @OJJ: Aha :-) Ale stejně je možné, že si tu někdo něco takového zkusí i bez trollingu a v zásadě to dopadne dobře.--Jan Spousta (diskuse) 8. 6. 2023, 14:41 (CEST)
- Spojení s Fanouškem kopané jsem si u daného článku zprvu vůbec neuvědomil (jak jsem soukromě psal OJJovi), byť jsem už dřív zaznamenal, že z podobných IP adres tu dlouhodobě zakládá další články (napsal bych něco o tom, jak si tu dlouhodobě chováme a hýčkáme trolly a jiná nezpůsobilá individua jenom proto, že zakládají články, ale asi je to zbytečné...). Nehledě na autorství mi vzhledem k deklarovanému užití bota ve shrnutí přišlo potřebné, aby daný článek někdo odborně posoudil. Popravdě, nevím, co je za problém, když někdo aspoň jednou za čas má snahu o dodržování WP:OV a WP:VZ, tedy v zásadě o to, aby v článku nebyly ptákoviny, v tomto případě vymyšlené nějakou "inteligencí". Každopádně díky za kontrolu, sice zdroje žádné, ale aspoň to tedy odpovídá en:. --Harold (diskuse) 8. 6. 2023, 15:10 (CEST)
- Dovolím si vstoupit do diskuse. Touto cestou by se Wikipedie určitě vydávat neměla a ani to kdovíjak tolerovat. Práce tohoto typu rozhodně není vhodná a uvést pouhou šablonu překlad opravdu nestačí. Minimálně si tedy tento článek "zasloužil" šablonu neověřeno, jako pak vložil Harold, a měl ji tam dát @Jan Spousta. Jenže Jan Spousta plodí podobné články celkem běžně a nikdo ho jaksi neupozornil na to, že takto nebo takto dneska články opravdu vypadat nemají. Jindy články i celkem ozdrojuje, tak nevím, proč to nedělá vždy. Teď trochu odbočím, protože všechno souvisí se vším. Nebudu tu raději rozebírat, nakolik je ideální narychlo něco přeložit z jiné mutace a pouze ty zdroje přemístit, ale není rozhodně v pořádku, aby jiný (a nemyslím sebe) byl za takový přístup a na nedostatečné zdrojování kritizován, a dalšímu to procházelo bez povšimnutí. Tak si opět zaděláváme na ono toxické prostředí. Sám zkušený Jan Spousta coby též organizátor akcí by se nad sebou měl zamyslet, a jít pokud možno příkladem, aniž by na to musel být upozorněn.
- Dále moc nechápu, co se tady tak obsáhle řeší. Přeci jakýkoli výstup z oné "chytré technologie" je pro Wikipedii zkrátka nevhodný, protože tím (takovým přístupem) zcela ignorujeme jedno ze závazných pravidel projektu, klíčový pilíř, jakým je ověřitelnost - samotný výklad je sice všelijaký až zjednodušený, ale z praxe jistě dobře víme, že zkrátka jakákoli informace odněkud pochází a tak je dobré ten zdroj (pro jistotu, pro dobro věci) uvádět, a informace tak sám ověřovat. Nehledě na to, že práce s využitím velkých jazykových modelů má k té encyklopedické skutečně daleko. Tyto extra rychlé, spíše zbrklé, výtvory by se měly jednoduše zakazovat a nebo akceptovat zcela výjimečně. Jestli tu ale ve výsledku budeme nechávat články, které sice po jazykové stránce a letmé kontrole ujdou, ale každý z nich bude olepený šablonou neověřeno, to bude také k popukání. Nicméně oceňuji snahu to nějak pořešit a upřímně doufám, že se už nebude pořád jen ustupovat a jaksi podporovat lenost a jednoduchost, neboť pak se skutečně stane to, na co velmi správně upozornil třeba i Martin Urbanec (viz níže). S takovým přístupem editorů se naše Wikipedie dost možná porazí i sama. --Tobartos (diskuse) 9. 6. 2023, 09:27 (CEST)
- @Tobartos: Že je to nevhodné už jsme de iure zavedli: WP:VZ. Teď se musí vyřešit, jak s tím naložíme dál. Jak to odhalovat a tak podobně.
- Znovu podotýkám, cswiki stojí jen na dobrovolných lidských kapacitách. Každý začínající editor už nyní může začít vkládat spoustu generovaných textů. To, že jde o generované texty, musí důmyslně odhalovat dobrovolníci, přičemž se dá očekávat, že za čas bude jazykový projev generátorů jen a jen lepší. Mám z vlastních hesel zkušenosti s tím, kolik hovadin propustily i recenze WikiProjektu Kvalita. Pokud sem někdo bude doplňovat hoaxy v masivnějším měřítku, můžeme to tu rovnou zabalit. Ten stroj Ti dokonce text i ozdrojuje, aniž by z těch zdrojů čerpal. A znovu, nebavíme se o nějakých zloduších, co budou chtít Wiki poškodit; spousta lidí to může dělat v dobré vůli, jako kolegyně u tany.
- Proto jsem tady taky zmínil Martina z WMF, Matěje a spol. Pokud existují protinástroje, které dokáží výstupy detekovat (zaručeně je budou mít univerzity), zaručeně se chci zasadit o to, aby je měla i Wikipedie. Stejně tak i další automatizaci, aby se daly lidské síly využít efektivněji. Resp. jsme správci největší encyklopedie světa, tak si to už přiznejme a zasaďme se o to, aby nám dali skutečně elitní nástroje, jako mají jiní internetoví giganti. OJJ, Diskuse 9. 6. 2023, 09:57 (CEST)
- @OJJ: Ano, vím o tom. Apeloval jsem spíš na ty, co mají stále tak nějak odlišný názor a domnívají se, že v tom lze nalézt nějaké pozitivum. Nelze! Nemůžeme najít jaksi zdravé nebo rozumné pozitivum tam, kde si chce člověk práci na encyklopedickém článku na Wikipedii především či v prvé řadě ulehčit, natož takovým způsobem. Ať už se na to podíváme jakkoliv. Srovnání s občasnými lidskými chybami, kterých se dopouštějí i odborníci, není v tomto případě na místě. Jde o ten přístup, ze kterého vychází, že i když nějakou chybu uděláš, nebo recenzenti přehlédnou, vytváříš veskrze hojný počet obsáhlých a kvalitních článků, řádně ozdrojovaných. Zatímco v opačném případě bychom sice mohli vytvořit spoustu článku jednoduše a rychle, ale kde je kvalita a nějaká důvěryhodnost, v každém z nich?
- A už vůbec by to neměl tolerovat zkušený kolega (pokud mu tedy skutečně jde o prosperitu Wikipedie) a nebo tím takovým rádoby wikipedistům nabízet jakousi ochranu, tedy možnost, že to projde (bez nějaké zásadní nápravy). Máme již sice velmi pěkně napsáno, proč je to nevhodné a co je případně potřeba (teorii), ale v praxi začíná být situace opět jiná (viz třeba právě reakce Jana Spousty). Nechci to nějak přehánět, ale dosti mě zase děsí ten přístup, některých.
- Držím palce. --Tobartos (diskuse) 9. 6. 2023, 11:52 (CEST)
- @Tobartos: Přeložit něco z jiné jazykové mutace je v pořádku, pokud článek má šablonu uvádějící, odkud to bylo přeloženo. Což moje články, které kritizujete, mají. Dokonce uvádějí literaturu, i když cizojazyčnou. (Zejména v případě pana Essera česká nejspíš ani neexistuje.) Nemyslím, že by to byly články vzorové, ale ověřené jsou a myslím si, že je lepší, když česká Wikipedie má o zajímavé osobnosti nebo důležitém uměleckém díle aspoň něco, než aby neměla nic. Přemrštěné nároky na začínající článek, jaké prosazujete (aby rovnou byl dokonale ozdrojovaný) by Wikipedii zabily. Dopadli bychom jako encyklopedie Nupedia, která také požadovala dokonalé články a po pár letech skončila s tím, že jich měla hotových 24. Princip Wikipedie je jiný: na počátku může článek být poměrně nekvalitní, a když ho někdo chce mít lepší, tak si k němu prostě sedne, dohledá literaturu a tvoří. Což můžete klidně udělat i vy, pokud chcete, anebo je můžete nechat být, a když to někomu bude stát za to, tak je vylepší - a když ne, prostě zůstanou aspoň takto, sice ne dokonalé, ale užitečné aspoň pro první seznámení s tématem.--Jan Spousta (diskuse) 9. 6. 2023, 12:10 (CEST)
- @Jan Spousta: Z principu to rozhodně není v pořádku, pouze akceptovatelné, což je rozdíl. Článek, pokud je v pořádku a splňuje jakýsi standard, vypadá docela jinak.
- Nupedia není dobrý, srovnatelný příklad, neboť teprve tam šlo o opravdu přemrštěné nároky. Za takové bych uvádění zdrojů určitě nepovažoval. To už je v dnešní době celkem běžný a docela nutný standard. Sice chápu, kam tím míříte, ale vážně máte ten pocit, že Wikipedie (především její popularita a obecně ochota lidí, natož erudovaných lidí, na projektu spolupracovat) přežívá díky méně kvalitním editorům a nebo snad velkému množství méně kvalitních až nekvalitních článků? A nebo snad díky takovému obrazu nebo názoru, že občas, za jistých okolností, to tady může vypadat všelijak? Já bych řekl, že právě ta nekonzistence ničí Wikipedii ze všeho nejvíce. A když se bavíme konkrétně o těch článcích, přece i v kratším článku bych si chtěl být jistý, že je nějakým způsobem ověřen, což šablona překlad a prostá kopie článku z jiné jazykové mutace zrovna moc nezaručí. Nezaručí ji ani Vaše slova nebo znalosti, jejíž hloubku neznáme a nebo si ji nemůžeme nijak ověřit.
- Na to bych chtěl ještě navázat. Vy se dost často prezentujete jako učebnicový autor, který se striktně řídí psanými pravidly nebo doporučeními, a kritizujete jiné, jak si pravidla trochu jinak vykládají, nebo jsou možná až zbytečně přísní. Nicméně např. v případě článku De Administrando Imperio jste nově stanovené pravidlo (doporučení) docela obešel. Píše se v něm totiž, že: Výstupy podobných programů nicméně mohou obsahovat chybné či zavádějící informace, zahrnovat vlastní výzkum nebo porušovat autorská práva. Z tohoto důvodu se velké jazykové modely nepokládají za věrohodný zdroj a jimi generované texty lze publikovat teprve po jejich důkladném ověření a podložení věrohodnými zdroji, přičemž za ověřitelnost vloženého textu nese zodpovědnost jeho vkladatel. Neověřené texty vygenerované prostřednictvím velkých jazykových modelů budou posuzovány jako neozdrojovaná tvrzení a mohou být smazány. A Vy jste článek ponechal v této podobě, aniž byste tam alespoň vložil šablonu neověřeno. Ale je tohle snad úděl Wikipedie - encyklopedie? Mít tu pak případně desítky takových olepených článků, které nakonec budou čtenářům spíše k ničemu? Nehledě na reputaci. Nemůžeme jenom tak počítat s tím, že tu snad máme slušnou kapacitu lidí, z různých oborů, kteří se o to brzo postarají a řádně to opraví. Realita je a byla by úplně jiná, jak je již naznačováno v jiných komentářích. --Tobartos (diskuse) 9. 6. 2023, 16:29 (CEST)
- @Tobartos: Ano, myslím si a snažím se vám vysvětlit, že Wikipedie přežívá i díky méně kvalitním editorům a velkému množství méně kvalitních až nekvalitních článků. Kvalitní editoři vznikají jedině tak, že se postupně vypracují z těch méně kvalitních (nikdo učený z nebe nespad). A u těch článků je to podobné: je lepší mít o nějakém encyklopedicky významném tématu aspoň pahýl, než nemít vůbec nic. I pahýl člověk nasměruje, dá mu možnost nahlédnout do interwiki, sdělí hlavní myšlenku.
- Co se týče De adm. imp., tak jsem - jak jsem i uvedl - kontroloval přeložený článek srovnáním s anglickým originálem, a to včetně toho, že je ten originál zdrojovaný. Samozřejmě jsem ty zdroje nešel shánět do knihovny, to bych asi ani v Praze nedokázal, ale ověřil jsem, že tam jsou a že vypadají rozumně. Tím jsem naplnil požadavek o podložení věrohodnými zdroji. Aspoň já mám za to, že pokud je podložený originál a pokud je ověřena kvalita překladu, tak je tím ověřený i překlad.
- A jako učebnicový autor nevystupuji, jsou tady mnohem lepší a plodnější autoři než já. Ale máte pravdu, že pravidla považuji za dost důležitá. Nemáme tu žádného osvíceného diktátora, který by rozhodoval, takže se musíme rozhodovat podle pravidel. Pravidla je přitom potřeba vykládat podobně jako dobří soudci vykládají zákony, podle jejich smyslu a ne tak, aby to poškodilo celý projekt. Smyslem pravidla Ověřitelnost je, aby ve Wikipedii nebyly bláboly, ne to, aby za každou půlvětou byly tři reference.--Jan Spousta (diskuse) 9. 6. 2023, 17:20 (CEST)
- @Jan Spousta: A já se Vám snažím naznačit, že Wikipedie není ani charita nebo nějaký sranda projekt, ale encyklopedie, kterou využívá miliony čtenářů denně. Na to je třeba myslet. Kvalitního wikipedistu určitě nevychováme tak, že ho za špatně odvedenou nebo za záměrně odfláknutou práci ještě poplácáme po zádech (ať už jen náznakem), neboli buďme rádi alespoň za něco a za někoho nového. Samozřejmě, že nováček hned všechno neumí a nezná, ale je třeba ukázat mu tu správnou cestu, kterou by se měl vydat, aby se skutečně kvalitním editorem vůbec mohl stát. Nicméně, my se tu nebavíme ani tak o nováčcích, ale o Vás. A uvedený příkladný článek (viz Johannes Esser) rozhodně není Váš jediný výtvor v nevalné kvalitě, v poslední době. Po jazykové stránce a možná i odborné jsou nejspíš Vaše články v pořádku, ale co ten kýžený zbytek.
- A ano, smyslem pravidla Ověřitelnost je, aby ve Wikipedii nebyly bláboly, ale na které můžeme přijít právě i díky tomu, že u informací nebo za celým odstavcem nebude jediný zdroj, nebo tam bude zdroj nevhodný či klamavý. Ostatně jak jinak lze v malém počtu lidí něco takového uhlídat. A Vy coby zkušený editor byste měl jít zkrátka příkladem, na nic se nevymlouvat a pravidla pokud možno nezesměšňovat. Opravdu tu po Vás nikdo nechce, abyste za každou půlvětou prsknul tři reference. Máme tu však zavedenou nějakou praxi, k níž patří i to, že pokud překládáme článek z cizojazyčné Wikipedie, uvádíme šablonu překlad a zároveň převádíme zdroje, které se v originálním článku nachází, nebo je případně nahrazujeme jinými. --Tobartos (diskuse) 9. 6. 2023, 19:03 (CEST)
- @Tobartos: Dovoluji si upozornit, že v origináním článku de:Johannes Esser (Mediziner) jsou z hlediska ověřitelnosti uvedeny dva zdroje, ISBN 90-400-9123-4 a ISBN 90-5235-160-0, a dále šablona odpovídající naším Autoritním datům. Přesně ty samé dva zdroje a šablonu Autoritní data jsem proto umístil také do českého překladu. Kromě toho mi tam pak robot přidal šablonu Překlad, což dělá automaticky, jelikož používám zdejší překladač. Takže jsem do písmene vyhověl tomu, co říkáte, že bych měl dělat. Přesto mě kritizujete, jako bych to nedělal. Z toho usuzuji, že vaše kritika se neopírá o snahu mi pomoci a není založena na faktech. Proto mi odpusťte, že na vaše další příspěvky již nebudu reagovat. Mějte hezký večer.--Jan Spousta (diskuse) 9. 6. 2023, 22:03 (CEST)
Kacir
[editovat | editovat zdroj]Přidávání obsahu generovaného chatboty vnímám jako velký problém, zejména pokud dojde ke zdokonalení tvorby obsahu AI a neschopnosti člověka takto vytvořený text rozpoznat. Jak už OJJ ukázal, zavádějící obsah je v heslech podpořen falešným zdrojováním. Noví editoři tedy už dnes nemají problém takové články zakládat a žádnou potřebu ověřovat, čím Wikipedii vlastně obohatili.
- Podporuji založení stránky dle WP:LLM.
- Pokud by existovala možnost automatické kontroly wikiboty, jsem pro (nástroje k odhalování textu napsaného AI existují).
- Vkladatele s prokázaným falešným zdrojováním a zavádějícím obsahem bych z hlediska ochrany projektu blokoval. Fakticky se jedná o typ špatně odhalitelného lstivého vandalismu v kombinaci s hoaxy.
--Kacir 8. 6. 2023, 14:48 (CEST)
Matěj Suchánek
[editovat | editovat zdroj]Veškeré svoje poznatky k wiki vs. AI sbírám na stránce Wikipedista:Matěj Suchánek/Wikipedie a AI.
Ad klíče: Jak se přišlo na to, že jde o text od AI? Text z článku odstranil jiný kolega, byla k tomu článku nějaká diskuse?
Ad bod 4: AutoMod je zvažován, tým nadace sbírá zpětnou vazbu. Pracuje mimochodem s hypotézou, která přesně odpovídá tvému ulehčit správcům břemeno primitivních činností, aby mohli využít svůj potenciál efektivněji. Jinak tento bod s LLM přímo nesouvisí (tomu, proč je součástí této diskuse, ale rozumím).
Ad bod 5: Nadace se k AI vyjadřuje v (připravovaném) plánu pro fiskální rok 2023/24, zejména v části Vnější trendy.
--Matěj Suchánek (diskuse) 8. 6. 2023, 16:34 (CEST)
- Díky @Matěji! Dle mého v AI oblasti hrozí dvě rizika, každé ovlivňující naši budoucnost jiným způsobem:
- Čtenáři: Začnou-li čtenáři ve velkém čerpat své informace z ChatGPT a podobných nástrojů, snadno hrozí, že na Wikipedii zapomenou, resp. budou ji považovat za překonanou, což by mohlo způsobit velké problémy (jak z hlediska počtu čtenářů, editorů nebo dárců). To by byl problém pro všechny strany, protože ChatGPT et al. samy čerpají mj. z Wikipedie (či dalších projektů s kolaborativně tvořeným obsahem).
- Editoři: Začnou-li editoři ve velkém vkládat články vygenerované ChatGPT et al., hrozí zaplevelení Wikipedie nekvalitním obsahem (resp. smyšlenkami), což by způsobilo problém z hlediska kvality obsahu Wikipedie (a ve finále i v její používanosti, pochopitelně).
- K Matějovu odkazu doplňuji ještě odkaz na podrobnější plán (resp. draft; finální podoba bude pravděpodobně zveřejněna v červenci). Myslím, že tento odkaz odpovídá na první skupinu problémů, méně pak na ten druhý, který předpokládám měl @OJJ na mysli především.
- Můžu v příštím týdnu zkusit zjistit podrobnější informace, a vložit je sem jako samostatnou sekci -- takhle zatím to, co mě napadá z hlavy. Zdraví, --Martin Urbanec (diskuse) 8. 6. 2023, 20:50 (CEST)
- @Matěj Suchánek: Kolega Lovec pávů je vedoucí toho kurzu, proto jsem to řešil s ním. S knihou má očekávám i zkušenosti, takže ví, že to asi přesně neodpovídá zadání...
- Ale to je přesně hřebík na hlavičku. Jak víme? Nevíme! Lze to jen vydedukovat... Právě proto bych ocenil nějaké protinástroje, které alespoň s určitou pravděpodobnostní shodou určí riziko výstupu z GPT, na něž se bude dát zaměřit. Skutečné výstupy těch kecacích modelů pak rozmetám poměrně snadno – problém ale bude jejich množství a skutečnost, že každý člověk má jen dvě oči, 8 hodin spánku a 8 hodin práce... OJJ, Diskuse 9. 6. 2023, 10:06 (CEST)
- @Matěj Suchánek: @OJJ: Jak říká kolega OJJ, za současného stavu není samotné rozpoznání vygenerovaného textu, když už ho máme před sebou, až tak obtížné. Jedna věc je stylistická úroveň, strojené a často podivně vyhýbavé formulace, díky kterým lze často AI text snadno identifikovat na první pohled (a to i v oblastech, ve kterých se člověk nevyzná). V tuto chvíli by asi opravdu stačilo automatické upozorňování na podezřelé části článků. Otázkou je, jak to bude vypadat za několik let, obávám se, že nápodoba člověkem formulovaného textu pokročí i v češtině tak daleko, že už nebude možné ani rozeznání pomocí analytických nástrojů, natožpak metodou „kouknu a vidím“, jak to děláme teď. Automatické upozorňování na podezřelé příspěvky zní hezky, ale definitivní spásu bych v něm spíše nehledal.
- Druhá věc je pak obsahová nepřesnost až nesmyslnost generovaných textů, kdy ovšem často dojde k vytvoření na první pohled důvěryhodných, pravděpodobně znějících informací. Ukázkou budiž starší podoba článku o románu Zatoulaná píseň. Zde byl článek po upozornění již napraven. Rozpoznávání prostřednictvím obsahových nepřesností je nicméně problematičtější z toho hlediska, že vyžaduje znalého editora, aby vůbec pojal podezření, a někdy ani to nestačí – autorka takový román klidně mohla napsat a AI se prozradí až v okamžiku, kdy někdo v rámci ověřování dílo skutečně otevře a pokusí se vyhledat například jména postav či míst. V případě, kdy se píše o něčem, kde se vlastní jména neobjevují, je prohřešek podle mého názoru závažnější (protože obtížněji vyhmátnutelný). Falešné zdrojování je problém, který souvisí jen částečně, to se může objevit i u člověkem napsaného textu, byť jistě v menší kvantitě. Důsledné vyžadování referencí je určitou cestou, protože umožní ověřit, zda informace odpovídá, bez složitého hledání. Nicméně v okamžiku, kdy se odkazuje na fyzicky nedostupný dokument, je samozřejmě takové ověření i tak náročné. Časem nás nejspíše čeká zákaz citování knih a článku, které nejsou dostupné v digitalizovaných archivech.
- Blokování uživatelů je v tomto případě asi logický krok, za předpokladu, že bude rozlišeno úmyslné poškozování a případy, kdy se uživatel opravdu domnívá, že informace, které dostal od GPT, jsou přesné a odpovídají tomu, co by se v literatuře dočetl, kdyby nebyl líný. V takovém případě je namístě nejprve upozornění a vysvětlení (nejlépe s odkazem na pravidlo, které se, jak jsem vyrozuměl, připravuje). --Lovec pávů (diskuse) 9. 6. 2023, 14:57 (CEST)
- @OJJ: Hledal jsem po internetu a narazil jsem na množství nástrojů, které tvrdí, že jsou schopny text vytvořený AI odhalit. (Některé uvádějí přímo „od AI“, jiné zmiňují hlavně (Chat)GPT.) S těmi, které jsou volně přístupné, jsem zkusil experimentovat. Šlo o tyto čtyři:
- https://platform.openai.com/ai-text-classifier - ten pochází přímo od OpenAI, tedy provozovatele ChatGPT
- https://contentatscale.ai/ai-content-detector/
- https://www.zerogpt.com/
- https://gptzero.me/
- Každý z nich jsem nechal vyhodnotit tyto čtyři záchyty: [1][2][3][4].
- Nástroj od OpenAI na první tři zareagoval výsledkem „possibly AI-generated“, na poslední z nich (který je evidentně strojovým překladem) pak „likely AI-generated“.
- Druhý nástroj (contentatscale.ai) na každý z textů zareagoval výstupem „Highly likely to be Human!“. Nástroj pravděpodobně neumí pracovat s češtinou.
- ZeroGPT o prvním z textů prohlásil, že 100% pochází z GPT. V druhém textu odhalil pouze pasáž „Celé jejich tělo [...] až černé barvy.“, ve třetím textu několik pasáží. O čtvrtém textu prohlásil, že je psán člověkem. (Zde může hrát roli skutečnost, že text možná byl ChatGPT vygenerován v angličtině a poté strojově přeložen.)
- Poslední nástroj o všech textech prohlásil: „Your text is likely to be written entirely by a human.“ Opět může být problémem čeština.
- Nechám-li ještě nástroj od OpenAI a ZeroGPT vyhodnotit i Zatoulanou píseň, oba shodně odhalí, že text pochází od AI. (Takže dobrý postřeh!)
- Tedy abych odpověděl na bod 2, ano, takové nástroje existují, ale určitě nebudou dokonalé. A pozor, testoval jsem je pouze na přítomnost chyb druhého druhu. --Matěj Suchánek (diskuse) 12. 6. 2023, 13:25 (CEST)
- @OJJ, Matěj Suchánek: Nový nález, s typickými frázemi (+ ChatGPT je dokonce uveden v refu). Osobně si myslím, že je to celé vygenerované, nehledě na spornou encyklopedickou významnost i charakter celkového obsahu dle WP:CWN#Wikipedie není sbírkou nahodilých informací (2. bod) (viz též Gerald "Gery" K. Karapatka (Q1929542)). 1. nástroj: likely AI-generated, 2. nástroj: 100%. Highly likely to be Human!, 3. nástroj: 42.91% AI GPT*, 4. nástroj: likely to be written entirely by a human. --Harold (diskuse) 12. 6. 2023, 13:51 (CEST)
- Dnešek byl zdá se vůbec bohatý: [5][6][7]. To vše je nejspíš z ChatGPT. --Matěj Suchánek (diskuse) 12. 6. 2023, 19:03 (CEST)
- @OJJ, Matěj Suchánek: Nový nález, s typickými frázemi (+ ChatGPT je dokonce uveden v refu). Osobně si myslím, že je to celé vygenerované, nehledě na spornou encyklopedickou významnost i charakter celkového obsahu dle WP:CWN#Wikipedie není sbírkou nahodilých informací (2. bod) (viz též Gerald "Gery" K. Karapatka (Q1929542)). 1. nástroj: likely AI-generated, 2. nástroj: 100%. Highly likely to be Human!, 3. nástroj: 42.91% AI GPT*, 4. nástroj: likely to be written entirely by a human. --Harold (diskuse) 12. 6. 2023, 13:51 (CEST)
Osidor
[editovat | editovat zdroj]V první řadě bych chtěl poděkovat panu OJJ, který zformuloval konkrétní problémy a požadavky, a v neposlední řadě i divákům v poslední řadě, kteří vesměs celkem stroze píší, že se není čeho obávat, že Wikipedie nevisí ve vzduchoprázdnu a sama má aktivní nástroje, jak se vyrovnat s nástrahami nové doby, neboť sama je součástí problému. Tento názor sdílím též. Poněkud obšírněji, uvedu proč. [fejsbuková šipečka a tři obrázkové vykřičníky]:
Po „trumpovské“ době post-faktické jsme konečně vstoupili do doby NE-FAKTICKÉ. Pětileté období plné clickbaitů, ragebaitů, záměrně hloupých titulků a rozdělování zpráv na „autoritami ověřené informace“ a „dezinformace“ (cca 2017–2021) naučilo čtenáře, že na skutečnosti (či dokonce tzv. pravdě) vlastně nezáleží.
Důsledkem toho je, že uživatelé internetu již prakticky neklikají na URL odkazy (které – kdysi dávno – byly stavebním pilířem a hlavní funkcí internetu), aby se nedozvěděli nějakou hloupost, něco, co je akorát naštve nebo je přesměruje do Nigérie. Na titulek „Dělejte tohle, abyste nechytli tamto“ už neklikne ani ten nejnaivnější stařec. Jak potom vlastně můžeme očekávat, že na obyčejné odkazy (např. „Petr Pavel“), které vedou z vyhledávače do Wikipedie, vůbec někdo klikne? Přece jen, je to navíc – jak tvrdila média – „kontroverzní politik“, člen KSČ, NATO, P1 a BMW R 1250 GS; co značka, to kontroverze. A na kontroverzní věci je (jak nás opět poučují média) lépe neklikat. Člověk by se ještě mohl dozvědět něco, co dávno ví, něco, co vědět nechtěl, něco, co mu vezme život, čas a peníze, něco nečekaného (neuvěříte, co přišlo pak!), nebo přinejmenším něco, kvůli čemu mu napíchnou telefon, auto, byt a psa (ještě víc, než doposud).
Naštěstí pro všechny – v těchto nebezpečných vodách „kontroverzního“ internetu již operují společnosti, které „detekují kontroverzi“ a jsou schopny v předstihu změnit sílu a pořadí stránek, které se uživateli zobrazí, a zavčasu ho odkloní do bezpečného přístavu Youtube nebo nějakého prověřeného korporátního média.
Např. takový 115kilobajtový článek o Petru Pavlovi by průměrný uživatel internetu stejně akorát rychle přeskroloval odshora dolů a po třech vteřinách jej zavřel, aniž by spatřil jedinou reklamu na SodaStream, Netflix, Rheinmetall AG, nebo libovolný evropský či vojenský úřad. Zcela zbytečně promrhané tři vteřiny…
Trend odklonit neklikající uživatele ze „starých“ stránek, ke kterým se museli proklikat, je jasně patrný. Wikipedie se jej ostatně aktivně účastní, jak je popsáno v plánu „Future Audiences“. Zestručněné útržky informací k tématu, které člověka zajímají, k němu budou propasírovány zábavnou formou do reklamy na Youtube, do datové schránky, nebo na noční oblohu. Informace na uživatele vypadne ještě dřív, než pocítí nutkání vyhledat ji. „Wow, takhle to je! To jsem přesně hledal!“ vyhrkne v úžasu, když mu Starlinky na oblohu napíšou, koho by měl volit.
Jakýkoli prostý historický nebo logický fakt může někoho urazit, do společnosti vnáší zmatek (neboť lidé si jej mohou nesprávně vyložit), někdo jej může nedovoleně využít ke svému prospěchu, může ohrozit naši evropskou bezpečnost v boji proti nesvobodným východním despociím. Ale skutečnost „přechroupaná“ roboty a podávaná v malých, zábavných dávkách, neškodí v jakémkoli množství. Je neškodná.
Starý nudný encyklopedický přístup k publikování nějaké informace („Dříve se myslelo A, poté se experti přiklonili k B, nezávislé studie ale již prokazují C“) již déle nestačí, neboť nad každým bohatě ozdrojovaným vývodem – A, B i C – se dnes vznáší kacířská otázka „A koho to zajímá?“ (případně „A bude levnější chleba?“).
I na Wikipedii tedy postupem doby převáží nový přístup. Příliš konkrétní, zbytečná a zbytečně konkrétní data nebudou mít v nových článcích místo. „Strojově zpracované informace“ sesumírované roboty budou mnohem kratší, stravitelnější; informace zůstane v podstatě nevyřčena, aby nemohla nikoho pohněvat, ale mezi řádky bude jasně naznačeno: C. Nové články na Wikipedii už pravděpodobně nebudou statické, ale dynamicky generované na míru konkrétnímu uživateli. Budou proměnlivé i v závislosti na místě a času, aby každý čtenář mohl porozumět informaci svým způsobem, přesně podle svých schopností a potřeb.
Je celkem možné, že Wikipedie bude, v nadcházejícím „přechodném“ období, dočasně rozdělena na „Starý-“ a „Nový zákon“, tj. na články sepsané výhradně lidmi, a na ty strojové. Později, po 5–10 letech, se vše sleje v „Nový zákon“.
Nemějme tedy o Wikipedii nejmenší obavy. Roboti a „jazykové modely“ ji nepřicházejí zničit; přicházejí, aby jí pomohly k dalšímu rozkvětu. Její roboti a algoritmy, i navázané „fact-checkingové“ a „anti-kontroverzní“ instituce mohou novým informacím pro nové lidi pouze prospět. (A co taky jiného.)
Napíše-li vbrzku nějaký zlý robot (samozřejmě s IP adresou nepřátelské země) např. „Děd Petra Fialy se narodil ve Lvově, odtud pramení jeho vřelý vztah k Ukrajině“, jiný robot ihned shledá přítomnost kontroverze, označí informaci za štvavý výplod hybridní propagandy, a z Wikipedie ji smaže.
Napíše-li naopak nějaký hodný robot, že „Praotec Čech byl zároveň Přemysl a Václav Havel, a narodil se v Bruselu, o čemž belgičtí experti již nepochybují,“ jiný wiki-robot u této informace poznačí pouze malý otazník, neboť vše vypadá celkem logicky, ne-kontroverzně, a konsenzuálně, a přepošle to lidskému správci k dořešení. Ten shledá, že je to vskutku pravda, které lidé mohou věřit, tedy pravda konsenzuální, a jen z toho snad vyškrtne toho Havla… Osidor (diskuse) 9. 6. 2023, 12:56 (CEST)
- @Osidor: Vůbec nerozumím o čem píšeš. --Podroužek (diskuse) 25. 6. 2023, 11:49 (CEST)
Podroužek
[editovat | editovat zdroj]Souhlasím s @OJJ: že musíme být připraveni.
- Souhlasím s vytvořením návodu dle enwiki
- Pokud existují, tak co nejdřív používat
- Tvrdě vyžadovat ozdrojování (to by mnělo být samozřejmostí už dnes)
- Patrolářské programy pro rutinní práci by se hodily
Doufám že se někam pohneme a nezůstane jen u této diskuse. --Podroužek (diskuse) 25. 6. 2023, 11:49 (CEST)
J. Kepler
[editovat | editovat zdroj]Měl jsem už nějaké poznámky delší dobu sepsané, ale ne úplně ucelené. Je to tak rozsáhlé téma, že nikdy nedokážeme pokrýt celý problém, pouze jeho jednotlivosti. Tak aspoň něco, co mi teď dává smysl:
Snad všichni se shodneme na tom, že je velmi vhodné vytvořit pokyny pro využívání LLM. Domnívám se, že by v takovém návodu měly být vyjmenovány případy, pro které je užití LLM vhodné / smysluplné. Taky by měly být vyjmenovány problémy LLM (manipulativní texty, neprůhlednost zdrojů a algoritmů atd.). Pokud nechceme nové doporučení (na enwiki je to jako úvaha), tak bych přemýšlel o (dalším) rozšíření WP:VZ a v doporučení Ověřitelnost.
Konkrétně bych byl pro pravidlo, aby editor v případě použití LLM použití přiznal - požadovat uvedení minimálně názvu (verze) modelu, ideálně i prompt. Uvádět by to šlo buď do shrnutí, nebo do diskuse. Ten, kdo by užití LLM nepřiznal, a text by se ukázal jako… neověřený blábol, by mohl být (na základě závažnosti) zablokován. Jako restriktivní opatření proti škodičům, kteří prostřednictvím LLM a nepravdivých/manipulativních textů narušují projekt, se mi jako smysluplné jeví přidat zmínku do Wikipedie:Blokování#Narušování_Wikipedie.
Věci jako automatické patrolářské programy by vzniknout měly. Domnívám se ale, že na to jsme příliš nevýznamný projekt. Ale nevím, třeba se tím Nadace zabývá… --Ján Kepler (diskuse) 22. 1. 2024, 12:21 (CET)
- Zabývá: mw:Automoderator. --Matěj Suchánek (diskuse) 23. 1. 2024, 09:49 (CET)
- Pro to by byla dobrá nějaká šablona typu
{{překlad}}
, jen připravena pro LLM. Zagothal (diskuse) 17. 12. 2024, 22:24 (CET)
Zagothal
[editovat | editovat zdroj]Osobně považuji používání LLM pro generování obsahu za mnohem nebezpečnější než překlady a hned ze dvou důvodů. U překladu známe zdrojovou informaci, a tedy je to zkontrolovatelné přímo. A za druhé u generovaného textu je těžké zkontrolovat pravdivost. A u překladů máme už z dob, kdy jsem na Wikipedii začínal, přísnou politiku. Musíme ji zavést i u generovaného kódu. A k tomu pochopitelně i informační stránku. A na konec ukázka, jak přesvědčivě může generovaný text znít. Dal jsem Copilotovi dotaz Řekni, proč je nevhodné na Wikipedii používat text vygenerovaný strojově, třeba tebou?
„ | Používání strojově generovaného textu na Wikipedii je nevhodné z několika důvodů:
Spolehlivost a přesnost: Strojově generovaný text nemusí vždy být přesný nebo spolehlivý. Wikipedie klade důraz na ověřitelné a přesné informace, které jsou podloženy důvěryhodnými zdroji. Autorská práva: Text generovaný umělou inteligencí může obsahovat části, které jsou chráněny autorskými právy, což by mohlo vést k porušení těchto práv. Kvalita a styl: Lidský přístup k psaní zajišťuje, že text je srozumitelný, konzistentní a odpovídá stylu Wikipedie. Strojově generovaný text může postrádat tuto úroveň kvality a konzistence. Odpovědnost a transparentnost: Wikipedie vyžaduje, aby autoři byli odpovědní za svůj obsah a aby bylo jasné, kdo text napsal. U strojově generovaného textu je těžké určit odpovědnost a transparentnost. Máš nějaké další otázky ohledně Wikipedie nebo něčeho jiného? 😊 |
“ |
— Copilot |
S pozdravem Zagothal (diskuse) 17. 12. 2024, 22:37 (CET)
Robins7
[editovat | editovat zdroj]No… Osobně vidím největší riziko v problému LLM (AI) vs. Wikipedie v tom, jak obrovský potenciál vytváří pro velice snadné zahlcení patroly a zaplevelení celé Wikipedie nevyhovujícími a neověřenými texty. Obecně nevidím AI pro Wikipedii jako existenční riziko nebo cokoliv podobného, spíš jako další druh starostí.
- Proč je to problém
To, proč to představuje problém, není v těch textech samotných – takové mohl plodit kdokoliv a kdykoliv a existující pravidla si s tím musela umět poradit. Problém je právě v tom, jak velice snadné je začít těmito texty Wikipedii bombardovat. Vandalské články a experimenty jsou pěstí na oko a přesto, že dokáží být vytrvalí, s takovými se efektivně vypořádáváme denně. Dalo by se namítat, že stejné riziko představují hromadně zkopírovaná copyvia. Ta však lze, pokud jsou z internetu, poměrně jednoduše odhalit. A pokud nejsou, vkladatel pravděpodobně nebude tak vytrvalý a odhodlaný, aby přepisoval deset publikací za den. Kdežto LLM jsou schopny obojího, rychlosti i neprůhlednosti – chrlit kvanta, na první pohled ne nutně nejhoršího, ale po bližším prozkoumání neověřeného, zavádějícího nebo jinak problematického, textu.
- V čem situace není nová
Proto bych z principu ke generovaným textům nepřistupoval jinak než k jakýmkoliv jiným. Jednoduše musejí splňovat všechny klasické náležitosti, z nejdůležitějších samozřejmě WP:ES, WP:O a WP:NPOV. Opakované vkládání problematických textů jednoduše brát jako narušování Wikipedie a náležitě s tím nakládat stejně tak, jako s opakovaným vkládání vlastnoručně psaných nevyhovujících textů.
- Odhalování
Nejhorší na tom je, že každý model je může psát úplně jiné. Konkrétně ChatGPT se dá docela dobře vyčmuchat už z dálky. S ostatními takové zkušenosti zatím nemám. Ale všude jsme prozatím odkázáni pouze na ono „čmuchání“ a snad ani jiná cesta moc nevede – případný kontra-nástroj by nám nejspíš neřekl o moc víc, než co si dokážeme domyslet sami, že je x% pravděpodobnost, že text pochází od toho a toho modelu (pokud ne, a k něčemu zásadnějšímu by mohl být, rád se to dozvím). Snad jedině formou něčeho na styl editačního filtru a výsledné značky, která by nám aspoň poukázala na nejžhavější kandidáty a někoho třeba i od vložení textu odradila.
Tady jsem zatím bohužel bez konkrétních návrhů nebo nápadů, jak tomu pomoci jinak, než prostě ještě větší důsledností při prověřování takových výplodů. Je to ale záhul pro patrolu a dlouhodobě neudržitelné.
- Postupy
Řešil bych proto opakované slepé vkládání AI textů jako novou formu nežádoucích editací, na které bych ale byl, vzhledem k potenciálu problému, přísný. S již vloženými a hlavně odhalenými texty se myslím dokáže WP:OS vypořádat vcelku dobře (UU a/nebo UO to myslím vždycky jistí). Údržbovou šablonu {{Napsáno umělou inteligencí}}
bych naopak nadále užíval jako specifickou kombinaci {{Upravit}}
a {{Neověřeno}}
právě pro případy neurgentních problémů AI textu.
Důležité je prostě zamezit onomu přehlcení, jinak tady asi není moc co k vymýšlení. Tím se dostávám k otázce nového pravidla. Myslím, že už se to někde psalo, a souhlasím s tím, že by bylo fajn tu stránku z enwiki prostě začít překládat, a co z toho ve finále vyleze, jestli nějaké doporučení nebo jen obecně přijímaná stránka, je druhotné. Mimo to bych určitě napsal nějakou informativní stránku (asi v JP Nápověda), na kterou by byli odkazování vkladatelé takových textů. A po vzoru několika podobných, bych vytvořil šablonu upozorňující uživatele na tento druh nežádoucích editací, abychom si ulehčili vysvětlování. V těchto dvou případech to asi prostě zkusím vytvořit a opět uvidíme, co z toho bude, nevidím moc, na co čekat nebo co na tom řešit.
Takže zatím asi tak, vsadím se, že mě k tomu občas ještě něco napadne, takže kdyžtak připíšu. --Robins7 (diskuse) 25. 12. 2024, 03:06 (CET)