Pakeha: De bestsellercode / NRC

‘Het raadsel van de literatuur’ De boekenmarkt heeft bestsellers steeds harder nodig. Wat wil de lezer het liefst lezen? Algoritmen zeggen: geweld en mannen.

5 maart 2020 om 21:07

Kan een algoritme de nieuwe Zeven zussen van Lucinda Riley of Grand Hotel Europa van Ilja Leonard Pfeijffer voorspellen? Zoals alchemisten de Steen der Wijzen zochten, zo zijn literatuurwetenschappers en uitgevers benieuwd naar de mogelijkheden van kunstmatige intelligentie. De bestseller van het jaar herkennen, dat wil iedereen. Maar wat de ingrediënten van een bestseller zijn is nog altijd een mysterie.
Een bestsellervoorspeller zou een uitkomst zijn voor de boekenbranche, waar de winstmarges laag zijn en waar het aantal verkochte boeken vorig jaar met 4 procent is gedaald. In 2019 domineerde de bestseller nog sterker de markt dan in voorgaande jaren: zo’n 280 fictietitels waren verantwoordelijk voor 50 procent van de omzet uit fictie, terwijl dat er vier jaar eerder nog ruim 400 waren.
Het Huygens Instituut in Amsterdam doet sinds enkele jaren onderzoek naar ‘het raadsel van de literatuur’. Met kunstmatige intelligentie proberen hoogleraar Computationele Literatuurwetenschap Karina van Dalen-Oskam en Joris van Zundert, onderzoeker humanities computing, het begin van een antwoord te vinden op de eeuwige vraag: wat is literatuur?

Een eerste experiment

In 2016 voerden zij een eerste experiment uit met de boeken van uitgeefconcern WPG, waaronder De Bezige Bij, Cargo en Thomas Rap vallen. Aan de hand van verkoopcijfers over de periode 2011-2016 – welk boek was een commercieel succes en welk niet – trainden zij hun algoritme. Ze voerden de teksten in het model, en dat telde van elk woord hoe vaak het voorkwam. Het resultaat was belangwekkend: het algoritme kon voor 78 procent van de titels juist voorspellen of ze bestsellerpotentie hadden.
Waar die potentie in zit, is nog grotendeels onbekend. Wat wel al duidelijk werd, is dat boeken die over mannen gaan hoger scoorden. „Mannenberoepen, mannennamen, alles wat masculien is drijft een boek omhoog in de ranglijst”, zegt Van Zundert. „Dit experiment is een eerste babystapje om teksten meetbaar te maken. We zijn alleen nog op woordniveau bezig, nog niet met de volgorde van woorden.”

Zie ook ons dossier De Formule, over hoe algoritmes ons dagelijks leven bepalen. NRC keek mee met het vervolgonderzoek. „Het liefst gebruiken we alle boeken die worden gepubliceerd”, zegt Van Dalen-Oskam. Maar daarvoor zouden ze toestemming van uitgevers en auteurs nodig hebben. Het werden 7.116 titels, van tien uitgeverijen, verkocht in de afgelopen vijf jaar. Het is een fractie van wat er in totaal is verkocht, maar ruim genoeg om mee te werken. Uitgeverijen wilden de verkoopcijfers voor zichzelf houden of zagen praktische belemmeringen.
Er waren ook auteurs met bezwaren, onder wie Ilja Leonard Pfeijffer. „Iedereen kan alles onderzoeken, maar de grote fout die jullie maakten is dat je me om toestemming vroeg dat te mogen doen. Daarnaast vraag ik me af of het zinvol is parameters los te laten op literatuur. Ik vind het zelfs gevaarlijk. Je genereert de illusie dat je aan knoppen kunt draaien, maar elke vorm van een norm creëert een valse zekerheid.”
Aan het werk van de deelnemende uitgeverijen is goed te zien hoe groot het belang van bestsellers is voor het boekenvak. Onder de ruim 7.000 titels waren er slechts 143 die meer dan 13.500 exemplaren verkochten, de grens die het algoritme hanteert voor een bestseller. Ongeveer 10 procent verkocht meer dan 2.000 exemplaren. Het merendeel van de titels is dus geen vetpot – van een groot aandeel boeken werden er nog geen 50 verkocht, met als dieptepunt 23 exemplaren – en kan alleen verschijnen door de winst die met bestsellers wordt gemaakt.
DAt er onder de 143 bestsellers slechts 22 Nederlandstalige romans zitten, verbaast Mark Pieters, uitgever van Van Oorschot, niet. „Zo’n 25 jaar geleden kon je van een onbekende Nederlandse schrijver gemakkelijk 3.000 exemplaren verkopen. Als dat je nu lukt, heb je het echt goed gedaan. Met een debutant kun je bijna niet meer in de media terecht.”
Nog een observatie waarvoor Pieters geen algoritme nodig heeft: „Auteurs van nu zoeken het steeds vaker dicht bij huis, de autofictie. Ze vertellen vaker dan voorheen hun eigen verhaal in romanvorm. Dat wordt kennelijk erg gewaardeerd.” Özcan Akyol (die zelf hoog scoort wat bestsellerpotentie betreft) noemde dit soort werken deze week nog ‘romans over glutenintolerantie’. Verhalen die juist niet dicht bij de lezer staan, onwaarschijnlijke elementen bevatten of waarvan het moeite kost om je in de hoofdpersoon te verplaatsen, zijn veel minder in trek dan vroeger.

Opbeurend plot

Dichtbij de lezer staan, makkelijk leesbaar zijn, een opbeurend plot hebben: in de regel denken we dat zulke kenmerken een bestseller verklaren. Bestsellerauteurs maken het de lezer zo makkelijk mogelijk, is de gangbare gedachte. Uit het nieuwe onderzoek van het Huygens Instituut blijkt dat daar wel kanttekeningen bij te plaatsen zijn.
Zo staat het woordgebruik in het literair hoog aangeslagen boek Vrijheid van Jonathan Franzen net zo dicht bij het woordgebruik van een bestseller als dat van Suzanne Vermeers thriller Mont Blanc. Beide boeken hebben volgens het algoritme bestsellerpotentieel. Iets soortgelijks gaat op voor De ontdekking van de hemel van Harry Mulisch. Het algoritme plaatst het woordgebruik hierin even dicht bij een bestseller als dat in de avonturenroman Verwoeste Zielen van de Duitse veelschrijver en Mulisch’ generatiegenoot Konsalik.

Lees ook dit verhaal over universele narratieven in literatuur. Het algoritme vertelt of een tekst dichtbij de kenmerken van een bestseller staat, maar niet wat die kenmerken zijn. Een nieuw vermoeden hebben de onderzoekers al wel, op basis van dit experiment. Van Zundert: „Ik weet nog niet hoe sterk de link is, maar er is duidelijk een verband tussen het woordgebruik in bestsellers en geweld, zowel fysiek als mentaal. Als de hoofdpersoon een politiechef is bijvoorbeeld, drijft dat een tekst omhoog in de ranglijst van bestsellerpotentieel. Eerlijk gezegd vind ik dat een beetje zorgelijk, want je zou wat meer subtiliteit verwachten.”
Ter illustratie citeert Van Zundert uit Troebel Water van de Amerikaanse thrillerauteur John Sandford. Dit is volgens het algoritme het boek met het hoogste bestsellerpotentieel (al verkocht het niet als zodanig). ‘Een hulpsheriff met een verbanddoos gaf Virgil een prop watten om op zijn neus te drukken. Hij haalde zijn karabijn uit het bos en wees een van de hulp-sheriffs de plek waar hij Slibes geweer kon vinden.’
„Dit zegt niet direct dat geweld gegarandeerd een hogere plek oplevert”, zegt Van Dalen-Oskam. „Deze uitkomst hangt samen met het materiaal dat we hebben gekregen, en dat hangt weer af van de keuzes in het uitgeefproces. We weten niet welke manuscripten uitgevers hebben afgewezen. Dat kunnen gewoon slechte teksten geweest zijn, maar ze kunnen ook over minder mannelijke onderwerpen zijn gegaan.”

Smaken veranderen

Het nieuwe experiment laat ook zien hoe smaken veranderen door de tijd. In 2016 schaarde het algoritme de sm-trilogie van E.L. James nog onder de vermoedelijke nonsellers, nu eindigen de boeken bij de potentiële bestsellers. Ulysses van James Joyce uit 1922, misschien wel de meest geprezen klassieker die er is, is voor het algoritme nauwelijks te verteren. Ook van een Nederlandse klassieker als Max Havelaar (1860) moet het weinig hebben.
De kans bestaat dan ook dat bij een volgende proef over pakweg vijf of tien jaar het bestsellerpotentieel van masculiene boeken blijkt te zijn afgenomen, domweg vanwege het succes van Lucinda Riley, die vrouwen de hoofdrol geeft. Alle vijf delen van haar Zeven-zussenreeks die vorig jaar op de markt waren, eindigden in de top-10 van de bestverkochte boeken in Nederland. Uitgever Mark Pieters van Van Oorschot legt uit wat een dergelijk verkoopsucces betekent: „Als ik het verkoopsucces van één van deze delen had gehad, had ik het komende jaar bijna niets anders meer hoeven doen.”
Er zijn ook bestsellers waarvan het woordgebruik volgens het algoritme juist afwijkt van de bestsellernorm, waaronder De gevleugelde en Kolja van Arthur Japin en Alfred Birneys De tolk van Java. In het laatste geval gaf het winnen van de Libris Literatuurprijs het boek een flinke zet.

Bijna alle werken die Arnon Grunberg schreef bij Nijgh & Van Ditmar hebben volgens dit experiment bestsellerpotentieel.

Bij Japin is er iets anders aan de hand, vermoedt zijn uitgever Peter Nijssen van de Arbeiderspers. „Bij een bestsellerauteur telt statuur mee voor het verkoopsucces. Dat is bij Japin zeker het geval. Zijn lezers houden van de vaste ingrediënten in zijn boeken: een historische setting, de beau monde en hoofdpersonages met een handicap die de positie van een eenling hebben in een moeilijke wereld. Japins taalgebruik kan afwijken omdat hij uit de toneel- en filmwereld komt. Dat zie je terug in zijn dialogen: kort en levendig. Terwijl de beschrijvingen eromheen juist zeer esthetiserend zijn. Als hij moet kiezen of hij iets blauw of turquoise noemt, kiest hij standaard voor turquoise.”
Bijna alle werken die Arnon Grunberg schreef bij Nijgh & Van Ditmar (zijn andere uitgever Lebowski zag af van deelname) hebben volgens dit experiment bestsellerpotentieel. Het geldt vooral voor De heilige Antonio, het Boekenweekgeschenk van 1998. Dat roept de vraag op of hij zich bij het schrijven van het geschenk meer bezighield met het brede publiek dan bij zijn andere werken.
„Nee”, mailt Grunberg terug. „Dat was helemaal geen bewuste keuze omdat het een Boekenweekgeschenk zou zijn. Het komt veeleer door de vorm en de stijl die weer uit het verhaal voortkomen. […] In deze novelle ging het onder andere om de vraag wat thuis is, een schrijver moet natuurlijk nooit zijn eigen werk analyseren maar soit, en wat het betekent niet geheel thuis te zijn in een taal.”
Hij zegt ook: „Ik wil gehoord worden, net als Multatuli voeg ik er onbescheiden aan toe, maar net als hij veracht ik het publiek, waartoe ik ook de CPNB reken, met grote innigheid en maak ik mij geen enkele illusie over de aard van het publiek: ‘Gy, die uw profeten laat leven, om ze langer te martelen!’ Ik probeer zo min mogelijk een toegankelijke hoer te zijn, maar voor zover de schrijver ook een profeet is ligt het in de aard van de profeet tussen het gemarteld worden door gehoord te willen worden.”
De Huygens-onderzoekers hebben zoveel vragen voor vervolgonderzoek dat ze er nog jaren mee voort kunnen. Van Dalen-Oskam: „Ik zou het liefst alle manuscripten die bij uitgevers binnenkomen vergelijken met wat er gepubliceerd wordt. Zo kun je zien hoe uitgevers selecteren op onderwerp, complexiteit, mannelijk of vrouwelijk personage, perspectief, de hoeveelheid dialoog. Dat zijn allemaal elementen waarvan je wilt weten of die mede bepalen hoe een boek overkomt bij lezers en of het kans heeft om gewaardeerd te worden.”

Commerciële toepassingen

De grote vraag is of deze technologie ook commerciële toepassingen krijgt, een vrees bij veel auteurs. Toen WPG-directeur Patrick Swart daar in 2017 in NRC over filosofeerde, kreeg hij een storm van kritiek over zich heen. Inmiddels zijn er meer uitgevers die belangstelling hebben, onder wie de Nederlandse uitgever van Lucinda Riley, Sander Knol van Xander Uitgevers.
„Algoritmes zullen nooit redacteuren vervangen”, denkt hij. „De relatie tussen een auteur en een redacteur heeft vele dimensies. Maar je kunt er wel veel van leren. Lezers vinden het bijvoorbeeld lastig om te zeggen wat ze waarderen in stijl of taalgebruik. Vaak zeggen ze ‘ik vind de stijl zo mooi’, zonder dat ze kunnen uitleggen waarom. Niet dat je met stijl of taal alleen een boek maakt, laat staan een bestseller. Maar een algoritme kan ondersteunen en daarom ben ik geïnteresseerd.”
Hoogleraar Van Dalen-Oskam denkt dat algoritmes uitgevers kunnen gaan helpen met een grove selectie van manuscripten die anders te weinig aandacht krijgen. „Wie weet helpt het om de pareltjes van de afvalbak te redden.”
Je moet er niet aan denken dat uitgevers puur op basis van dit soort software gaan selecteren, zeggen beide onderzoekers. Van Zundert: „Dan werk je aan een self-fulfilling prophecy. Je kunt precies zien welk taalgebruik hoort bij de bestsellers van de afgelopen vijf jaar. Doen we dat taalgebruik na, dan zal het ongetwijfeld best goed verkopen, maar dan krijg je eenheidsworst. Simpel gezegd: dan schrijven alle auteurs over een paar jaar verhalen die lijken op Karen Slaughter.”

Met medewerking Marijn Koolen en de KB.

Pakeha

vrijdag 6 maart 2020

De bestsellercode / NRC

Een eerste experiment

Opbeurend plot

Smaken veranderen

Commerciële toepassingen

Geen opmerkingen:

Een reactie posten