Stemmer i elektroakustisk musikk

– opplevelse, beskrivelse og visualisering
Lørdag, 7 September, 2013

Hvordan opplever vi og skaper mening fra stemmelyder i elektroakustisk musikk? Hvordan kan slike opplevelser beskrives og forklares? Hvilke faktorer har innflytelse på disse opplevelsene? Disse tre spørsmålene var utgangspunktet for PhD-avhandlingen som jeg forsvarte i mai 2010 med tittelen Experiencing Voices in Electroacoustic Music (Bergsland 2010). I denne artikkelen tenkte jeg å grovt skissere de to sentrale rammeverkene jeg satte opp i avhandlingen, nemlig opplevelsesdomener («experiential domains») og maksimal–mininimal-modellen («maximal–minimal model»). I tillegg ønsker jeg å vise hvordan disse rammeverkene kan fungere som verktøy i møtet med musikk, og hvordan de kan danne utgangspunktet for å evaluere og deretter visualisere opplevelsen av et musikkstykke. Dette ønsker jeg å gjøre ved å ta for meg et utdrag fra Paul Lanskys Six Fantasies on a Poem by Thomas Campion. I et artikkelformat som dette vil jeg imidlertid i liten grad kunne gjøre rede for det teoretiske grunnlaget for rammeverkene eller eksemplifisere poenger, og lesere som er interessert i å se nærmere på dette inviteres til å lese avhandlingen.


Opplevelsesdomener

Da jeg skulle ta tak i spørsmålene jeg presenterte innledningsvis, ble det relativt snart klart for meg at det ville være nødvendig å gruppere ulike aspekter som kunne knyttes til stemmen slik den kunne høres i mange stykker akusmatisk elektroakustisk musikk, som var fokus for avhandlingsarbeidet mitt. Med bakgrunn i teorier både fra analytisk og teoretisk orientert litteratur om elektroakustisk musikk og litteratur fra stemmefeltet, satte jeg så opp et sett med det jeg kalte opplevelsesdomener, som jeg definerte som egenskaper eller aspekter av en opplevelse som vi tenderer å gruppere sammen fordi de er knyttet til noe felles, har felles funksjon eller relasjon (ibid.: 21–22). Denne måten å gruppere aspekter av opplevelsen på knyttet jeg både til det fenomenologiske begrepet om intensjonalitet og til psykologiens studier av oppmerksomhet; begge disse begrepene er relaterte til vår evne til å fokusere på noe bestemt, og da som oftest på bekostning av noe annet (se for eksempel Driver 2001 og Føllesdal 1989).

Innledningsvis måtte jeg avgjøre om jeg skulle utdype opplevelsesdomenene jeg kalte kropp og sinn (som peker på ens indre kroppslige, mentale og følelsesmessige reaksjoner på det vi lytter til) og det verkeksterne (det som kan knyttes til det fysiske rommet vi lytter i, høyttalere og avspillingsutstyr og konfigurering og plassering av dette, samt andre eksterne faktorer knyttet til lyttesituasjonen).[1] Selv om det i mange tilfelle er vanskelig å sette opp et vanntett skille mellom disse opplevelsesdomenene og det vi opplever som verkinterne aspekter, måtte jeg avstå fra å gå for mye inn på førstnevnte på grunn av oppgavens omfang.

For de verkinterne opplevelsesdomenene utarbeidet jeg en taksonomi basert på avgrensingen mellom ikke-vokale- og vokale opplevelsesdomener. De ikke-vokale opplevelsesdomenene, på den ene siden, utgjøres av: lydlige kvaliteter og strukturer, egenskaper ofte beskrevet som «lyden i seg selv» eller abstrakte egenskaper, som en motsats til kilderelaterte egenskaper[2] (strukturelle egenskaper på et mer overordnet plan var også inkludert her, selv om jeg ikke behandlet disse særlig detaljert i avhandlingen); teknologi, komponering og mediering, omfatter det vi tilskriver teknologiene knyttet til opptak, generering, prosessering, organisering og mediering samt forestillingen om den eller de som har anvendt disse; rom og omgivelser, inkluderer mer eller mindre definerte egenskaper til det rommet eller de omgivelsene vi opplever at stemmen er lokalisert i. De vokale opplevelsesdomenene, på den andre siden, består av: vokale gester, egenskaper som oppleves som direkte relatert til kropp og lydproduksjon, og innbefatter fysiologiske organer og hvordan de fungerer når lyden produseres; identitet, kvasi-permanente egenskaper som kjønn, alder, etnisitet og sosio-økonomisk bakgrunn; affekt/emosjonsrelatert, egenskaper som emosjoner, stemninger, affektutbrudd og interpersonlige holdninger som ikke formidles verbalt; lingvistisk, verbale aspekter og meningaspekter knyttet til disse.[3]

Hver av disse opplevelsesdomenene ble knyttet til en relevant teoretisk diskurs i henholdsvis litteraturen om elektroakustisk musikk for de ikke-vokale domenene, og empirisk orientert stemmeforskning for de vokale domenene.[4] Ved å sette opp opplevelsesdomenene på denne måten kunne jeg innlemme og integrere mange kategorier og begreper fra to ulike fagfelt i ett enkelt teoretisk rammeverk. Ved hjelp av disse og mange av underkategoriene og nivåene jeg etablerte i avhandlingen, som jeg riktignok ikke har rom til å gå inn på i en artikkel i dette formatet, hadde jeg et godt utgangspunkt for å begynne å beskrive opplevelsen av stemme i elektroakustisk musikk.


Maksimal og minimal stemme

I prosessen med å etablere det teoretiske rammeverket for opplevelsen av stemme i elektroakustisk musikk merket jeg likevel at jeg kjente et behov for ikke bare å definere kategorier og ulike typer betydning meningen kunne bære. I tillegg ble det klart for meg at opplevelsen av stemme ofte spilte på hvor nært eller eventuelt fjernt den lå fra en kommuniserende talestemme, slik vi opplever den i dagliglivet. Etter å ha gjort en del teoretiske sonderinger i eget fagfelt, samt i radio- og litteraturfeltet, ble jeg klar over at den tydelige og informative talestemmen var et referansepunkt som ble betraktet som sentralt i flere andre teoretiske diskurser (Bossis, Wesling & Slawek, Børset, Norman, Dyson). I tillegg hadde noen av disse diskursene satt opp en motpol som på alle måter negerte det dette referansepunktet representerte. Dette var bakgrunnen for at jeg utformet det jeg har kalt for maksimal–minimal-modellen, med begreper jeg lånte fra Wesling og Slawek. I denne modellen utgjorde maksimal stemme det sentrale referansepunktet, forenklet definert som en typisk informativ talestemme, lik de man ofte hører i offentlig radio. Motpolen, minimal stemme, er på sin side vanligvis kraftig manipulert og abstrakt og definerer en sone mellom det som er stemme og det som ikke er det. Det tenkte rommet mellom disse definerer et radialt kontinuum mellom en sentral sone, som utgjøres av makismal stemme, og en perifer sone, som utgjøres av minimal stemme.

Det ble imidlertid snart tydelig for meg at både den maksimale stemmen og dens motpol kunne beskrives enda mer spesifikt ved hjelp av ulike faktorer, eller som jeg etter hvert kom til å kalle dem; premisser. Dermed begynte jeg et arbeid med å sette opp disse premissene, som jeg betraktet som en slags delvis interrelaterte dimensjoner langs hvis akser jeg kunne definere rommet mellom maksimal og minimal stemme. Premissene jeg endte opp med i den ferdige modellen var som følger: oppmerksomhetsfokus (det semantiske nivået av det lingvistiske opplevelsesdomenet får vedvarende og maksimal oppmerksomhet); informasjonstetthet (informasjonstettheten er optimal for prosessering og dekoding av verbale strukturer); naturlighet (lyden har maksimal likhet med en produsert av et menneske og dets stemmeapparat); nærvær (lytteren opplever et delt «her og nå» med en vokal persona); klar meningsdannelse (lytteren kan konstruere mening med en høy grad av klarhet, mao. med spesifisitet, sikkerhet og koherens); egenskaper står fram (vokale lyder og egenskaper står fram perseptuelt både i seg selv og relativ til andre lyder og egenskaper, opprinnelig «feature salience»); integrasjon av lydstrøm (stemmelyden er integrert i en koherent og kontinuerlig lydstrøm, opprinnelig «stream integration»).

Hver av disse premissene kan sees som betingelser som kan oppfylles i ulik grad og når de alle er oppfylt er resultatet det jeg har definert som maksimal stemme. Og motsatt, når de er oppfylt i minimal grad, definerer de sammen minimal stemme. I avhandlingen har jeg drøftet hver av disse premissene separat slik at hver av dem er gitt en teoretisk basis samtidig som de er relatert til et sett med faktorer som angir hvordan noe kan lokaliseres langs kontinuumet fra maksimal til minimal.[5] Dette utgjør utgangspunktet for et sett med relativt detaljerte kriterier for å plassere noe langs kontinuumet fra maksimal til minimal. I disse kriteriene har jeg i særlig grad vist hvordan lytterens bakgrunn, kunnskap og erfaring samt lyttebetingelsene (for eksempel hvor mange ganger et stykke er lyttet til, om det er lyttet til i en strekk eller med pauser, osv.) er viktige for evalueringen.

Med bakgrunn i Lakoffs begreper om klustermodeller og Godøys forståelse av akser som et verktøy for relasjonell tenkning har jeg brukt disse premissene for å lage en visuell modell (se figur 1), der de ulike premissene er angitt som et sett med akser som løper fra et sentrum ut mot en periferi (Lakoff, 1987; Godøy, 1997).


Lydskrift_2013_3_AB_Illustrasjon_1

Figur 1: Maksimal–minimal-modellen


Denne modellen kan også anvendes som et konkret verktøy i en evaluering av opplevelsen av kortere eller lengre utdrag fra elektroakustiske verk med stemme. Med utgangspunkt i kriteriene for de ulike premissene kan man gjøre en vurdering av hvor man befinner seg på aksen mellom maksimal og minimal. For å lette både vurderingen og en eventuell sammenlikning med andre musikkstykker har jeg tenkt meg en gradering i fem verdier: maksimal; maksimal-middels; middels; middels-minimal; minimal.[6] Evalueringene man gjør i tråd med modellen og disse fem verdiene kan så visualiseres på to ulike måter som man kan se i videoen nedenfor (figur 2), der lydeksemplet er gjengitt sammen med et spektrogram og de to evalueringstypene.

Den øverste bygger på den aksiale modellen slik den ble presentert i figur 1. Ved å merke av et punkt på aksen tilsvarende en av de fem verdikategoriene kan man få til sammen syv punkter plassert på hver sin akse. Ved å trekke en linje mellom disse punktene og deretter la denne linjen avgrense et område inn mot sentrum av figuren, kan man få fram grafiske former som på ulike vis sier noe om den samlete evalueringen for alle de syv premissene. Både størrelse og form kan gi et inntrykk av hvorvidt evalueringene generelt tenderer mot det maksimale eller det minimale og hvorvidt evalueringene for de ulike premissene spriker eller er mer ensartet. Hvis vi igjen tar en titt på videoen nedenfor (figur 2), ser vi at man gjennom denne representasjonsformen kan gjøre vurderinger på mange ulike tidspunkt i et utdrag, og dermed ha muligheten til å sidestille slike former. Dermed kan man relativt enkelt sammenlikne formene og få et inntrykk av en utvikling over tid.

I den andre typen visuell representasjon som vi kan se rett ovenfor spektrogrammet i videoen, vises imidlertid endringene over tid mye mer direkte; linjene som representerer evalueringene er gitt ulike farger i tråd med nøkkelen helt til venstre i bildet på starten av videoen. Her er imidlertid ulempen at de ulike linjene delvis kan maskere hverandre, og denne komplementariteten mellom tydelighet i den temporale variasjonen og tydelighet for de individuelle premissene er noe av grunnen til at jeg har valgt å kombinere to typer av representasjoner.


Lanskys Six Fantasies on a Poem by Thomas Campion

For å anskueliggjøre hvordan de nevnte rammeverkene og visuelle representasjonene kan brukes i en evaluering av musikk har jeg valgt et utdrag fra satsen «her ritual» fra Paul Lanskys Six Fantasies on a Poem by Thomas Campion, en computermusikklassiker fra 1979. Som tittelen angir er stykket laget som seks fantasier over et dikt uten tittel av den engelske renessansepoeten Thomas Campion. I hver av de fem av de seks fantasiene bruker Lansky en analyse-resyntese-teknikk kalt LPC, lineær prediktiv koding, til å transformere stemmen til Hannah MacKey, Lanskys kone, som leser Campions dikt. LPC-teknikkens splitting av stemmesignalet i en kilde- og en filterkomponent har bidratt til at Lansky nokså fritt har kunne manipulere intonasjonskurve og artikulasjonshastighet, og med muligheten til å legge flere versjoner oppå hverandre har han kunnet lage en sats, «her presence», med inverterte og utstrekte intonasjonskurver som spiller opp mot hverandre og en sats, «her song», med fyldige vokalharmonier i jazzstil. Noen satser inneholder også prosessering med kamfilter og klanger generert med additiv syntese, og det er en sats der førstnevnte dominerer jeg nå skal gå nærmere inn på.

 

Sorry, you need to install flash to see this content.

Figur 2: utdrag fra Paul Lanskys «Six Fantasies on a Poem by Thomas Campion» (klikk for å starte avspillingen)

 

I den tredje satsen, «her reflection», er de ulike vokale frasene, som stort sett samsvarer med ett eller av og til et halvt vers i diktet, til dels av svært ulik karakter og umiddelbart synes de å dekke en relativt stor del av kontinuumet mellom maksimal og minimal stemme. Hvis man betrakter satsen under ett synes frasene å havne i fire kategorier, a, b, c og d, noe jeg har angitt på akusmografien i videoen med forskjellige farger på de avrundede tekstboksene rett overfor spektrogrammet. Mens noen av frasene er karakterisert av at de består av tette og resonante klangmasser – her synes jeg å kjenne igjen effekten av et høyt antall parallelle kamfilter med ulike resonante frekvenser – mens andre knapt er prosessert med unntak av litt romklang og ekko.

For å evaluere de ulike frasene i utdraget jeg har valgt meg, har jeg tatt utgangspunkt i en introspektiv analyse av min egen lytteopplevelse, der jeg som tidligere nevnt har prøvd å være bevisst både på hvordan mine egne kunnskaper informerer lyttingen og hvordan gjentatt lytting kan være med på å endre opplevelsen.


Oppmerksomhet

Hvis jeg begynner med det første premisset i maksimal–minimal-modellen, oppmerksomhetsfokus, har jeg særlig lagt vekt på i hvilken grad de ulike frasene har trukket oppmerksomheten min mot det språklige innholdet (her: det semantiske nivået i det lingvistiske opplevelsesdomenet). Den første observasjonen er at det er stor forskjell på gjenkjenneligheten av det verbale innholdet i de ulike frasene. Noe overraskende fant jeg at etter å ha gjort meg kjent med diktet gjennom å lytte gjentatt til hele stykket – også inkludert siste sats, der diktet presenteres utransformert – at vanskelighetene med å kjenne igjen det verbale innholdet kunne overvinnes. Jeg fant at jeg ofte tok den svært lave forståeligheten som en utfordring. Jeg rettet ofte oppmerksomheten min mot de vage restene av vokal artikulasjon mens de resonante klangteppene som syntes å ligge over dette ble betraktet som en distraksjon. I tråd med kriteriene jeg hadde satt opp for dette premisset, førte dette til at jeg havnet på evalueringer mellom middels og middels-minimal. Mot slutten av mange av frasene beveget mange av evalueringene seg mot det minimale, på grunn av at resonansene i mange tilfeller bidrar til maskering eller utvisking, slik at det ikke lenger blir noen vokale egenskaper igjen å fokusere på, noe som har resultert i evalueringer som gradvis faller mot det minimale.

I kontrast til dette står frasen som er merket «But still (1)». I denne frasen er identiteten til den vokale persona og detaljene i vokal artikulasjon som man tidligere bare har fått et vagt inntrykk av, presentert med en klarhet og tydelighet som man ikke har hørt før i stykket. Det som særlig fanger oppmerksomheten min er identitetsdomenet, siden identiteten til den vokale persona nå er presentert mye klarere enn tidligere, vokal gest-domenet og det lingvistiske domenet, da disse egenskapene nå presenteres på en mye mindre tvetydig måte enn tidligere og fordi de mildt aksentueres av den plutselige klarheten og mangelen på manipulasjon. For meg skaper den relativt store kontrakten mellom denne frasen og de forutgående svært manipulerte frasene en utheving som også overføres til det semantiske nivået. Dermed blir det en situasjon der man deler oppmerksomheten mellom det semantiske nivået av det lingvistiske domenet, noe som i tråd med kriteriene i avhandlingen gir en evaluering av denne frasen som maksimal-middels. Frasen merket «But still (3)», som er identisk med «But still (1)» bare at den etterfølges av en kjede med utdøende ekkoer, er evaluert som litt lavere og som fallende mot slutten av frasen. Dette fordi ordene «but still» har blitt hørt to ganger allerede og den nøyaktige repetisjonen vil gjøre den mindre interessant og oppmerksomhetsgripende. Halen med tydelig kunstige ekkoer gjør at jeg flytter oppmerksomheten mer mot lydlige kvaliteter-domenet og teknologi, komponering og mediering-domenet mot slutten av frasen i det ekkoene toner ut.


Informasjonstetthet

Informasjonstetthet er, som jeg utdyper i avhandlingens sjette kapittel, i høy grad relatert til begreper som redundans, forutsigbarhet og kompleksitet. Fordi avslutningen av mange av frasene i dette utdraget er en konstant klangmasse som gradvis og langsomt toner ut, representerer de også en relativt høy grad av forutsigbarhet, og dermed en lav informasjonstetthet. Resultatet er at mange frasene er fallende i avslutningsfasen.

I denne satsen er det imidlertid momenter som bidrar til en økende informasjonstetthet. Her er det for eksempel en mye høyere grad av kompleksitet enn de forutgående fantasiene, med store kontraster fra frase til frase, relativt mange frasetyper og en lavere grad av regelbundet orden enn i de øvrige fantasiene. I den grad vi finner repetisjon som bidrar til å trekke evalueringene i motsatt retning, er det i form av gjentakelse av hele eller deler av vers fra diktet, selv om redusert tekstforståelse i mange tilfeller gjør det vanskelig å identifisere dette.

Hvis vi tar for oss frasene mer lokalt, er det relativt store variasjoner i kompleksitetsgraden. Spesielt for frasetypene b og c er det bare et minimum av vokale egenskaper man kan identifisere, da det meste av egenskaper relatert til så vel fonasjon som artikulasjon ikke er til stede. I motsetning til dette er både «But still (1)» og «But still (3)» mye tettere opp til normal tale og bærer derfor mer informasjon.

Ser vi utdraget som en helhet opplever jeg at informasjonstettheten er lavere enn i de to forutgående fantasiene, særlig på grunn av en lavere kompleksitetsgrad. I betraktning av at det på et høyere strukturelt nivå har en noe høyere kompleksitetsgrad, har jeg evaluert frasene med lavest informasjonstetthet til middels eller noe under. Imidlertid skiller «But still (1)» og «But still (3)» seg klart ut her ved å ha en informasjonstetthet som ligger opp til normal tale og disse har jeg derfor evaluert som maksimale eller tett opptil.


Naturlighet

I denne satsen er det relativt stor kontrast mellom evalueringen av de ulike frasetypene. For de fleste av frasene høres det ut som stemmen enten akkompagneres eller erstattes av det jeg oppfatter som resonanser som eksiteres av stemmen, men som er utenfor den, kanskje som noe som befinner seg i omgivelsene eller rommet der den vokale personen befinner seg. Her angir jeg bakgrunnen for mine evalueringer av de fire ulike frasetypene i utdraget:[7]

Frasetype a: Både «Purely loving (1)» og «Knowes no discord (1)» høres ut som om de gradvis drukner i resonanser, som jeg delvis hører som en slags tung romklang og delvis som en resonans med lav tonehøyde. Naturligheten er derfor evaluert som rundt middels for starten av disse frasene, og mot minimal mot slutten av dem.

Frasetype b: For disse frasene opplever jeg en svær lav grad av likhet med den menneskelige stemmen. Det eneste ved disse frasene som minner om stemme er artikulasjonskomponentene, og disse er i sin tur knapt gjenkjennelige. Jeg antar at det bare er når man kjenner diktet på forhånd at man klarer å gjenkjenne tekstinnholdet for disse frasene, og uten denne linken til det verbale innholdet er det knapt så man kjenner igjen at dette er relatert til vokal produksjon i det hele tatt. Jeg har derfor evaluert frasene i denne kategorien som minimale.

Frasetype c: Likheten til menneskelig vokal produksjon  for «But still (2)» er høyere enn for frasetypene a og b. Det som her på mange måter likner hvisking er imidlertid gjort til gjenstand for en form for tidsmessig utflyting som gjør at jeg her vil evaluere frasen som middels-minimal.

Frasetype d: Frasen «But still (1)» framstår som en umanipulert kvinnestemme, noe som har gjort at jeg har evaluert den som maksimal. For «But still (3)» gjør imidlertid kjeden av uttonende syntetiske ekko at det blir klart at dette er en manipulert sekvens. Derfor har jeg vurdert denne som maksimal på begynnelsen og at den faller mot middels mot slutten av frasen. For frasen «Only beawty knows no …» er det imidlertid en høy grad av overlapp mellom de individuelle repetisjonene og en svært langsom uttoning, noe som gir dem en indistinkt og svært prosessert karakter. Jeg har derfor vurdert denne som minimal.


Nærvær

På samme måten som for naturlighet er det stor variasjon når det gjelder evalueringene av nærvær, og jeg har også her valgt å kommentere vurderingene for de fire ulike frasetypene:

Frasetype a: Som for naturlighet har jeg vurdert opplevd nærvær for «Purely loving (1)» og «Knowes no discord (1)» til å være middels for den første delen av frasen. Siden nærvær har en tendens til å henge igjen på tross av at stemmen ikke faktisk er til stede, faller evalueringene ikke så mye som for naturlighet når resonansene gradvis drukner det vokale. De ender derfor opp på middels-minimal.

Frasetype b: Den fjerne likheten med talt artikulasjon skaper en situasjon der lyden nesten blir stående som en spøkelsesaktig og illusorisk projeksjon, bare med et svakt avtrykk av det som en gang var en stemme. Jeg har derfor vurdert den som minimal.

Frasetype c: For «But still (2)» opplever jeg at nærvær er markert høyere enn for frasetype b. Det er fremdeles en situasjon der man først og fremst hører resonanser eksitert av stemmen, men her er resonansene rikere og tettere, slik at den nesten høres ut som en hviskende stemme. Jeg har derfor vurdert frasen som middels-minimal.

Frasetype d: Den umanipulerte frasen «But still (1)» skaper et svært kort øyeblikk en følelse av noe som ligger tett opp til maksimalt nærvær. Frasen er svært kort, så følelsen er nesten over så snart man har kjent den, og det er grunnen til at jeg ikke har vurdert den som helt opp til maksimal. Noen sekunder etter, med frasen «But still (3)», får man en gjentakelse med en hale av ekkoer etter seg. Selv om man her ved å sammenligne frasene vil høre at vi har med en eksakt repetisjon å gjøre, vil det ikke oppleves som en mekanisk repetisjon fordi vi har så pass mye mellomstilt materiale som gjør at den mer oppleves som en menneskelig initiert gjentakelse. I hvert fall før kjedene av ekkoer setter inn, vil vurderingen av nærvær for «But still (3)» ligge på samme nivå som «But still (1)». Kjeden av uttonende ekkoer for «Only beawty knows no …» er imidlertid mer tydelig kunstige, i tillegg til at det lave lydnivået får dem til å virke som om de befinner seg langt unna. Jeg har derfor vurdert frasen som minimal.

I all hovedsak er det den eksplisitte transformasjonen som påvirker evalueringen for nærvær i denne satsen, med mange fraser som framstår som sterkt manipulert. For flere av frasene gir prosesseringen også et inntrykk av romlig distanse, som nok bidrar til å påvirke evalueringene her.


Klar meningsdannelse

I diskusjonen av kriterier for evaluering av dette premisset i avhandlingen, viser jeg til en rekke faktorer som kan spille inn. Det er imidlertid to som har særlig betydning for utdraget fra her reflection:

Klarhet for det lingvistiske domenet: For frasene «Purely loving (2)» og «Knowes no discord (2)» er bottom-up-klarheten, dvs. en type verbal dekoding som ikke er betinget av innlærte forventninger til det man lytter til, men i stedet avhenger av hvor tydelig ulike akustiske parameter står fram, svært lav. Her er kun et par av fonemene gjenkjennelige uten tvetydighet. For «But still (1)» og «But still (3)» er denne svært høy, mens det for «Purely loving (1)», «Knowes no discord (1)» og «But still (2)» er noe midt i mellom. Disse forskjellene i bottom-up klarhet kan ses tydelig i den grafiske representasjonen i videoen (figur 2). Den reduserte bottom-up-klarheten balanseres delvis imidlertid delvis av repetisjon. Alle frasene i denne satsen har jeg tidligere i hørt i versjoner som for en stor del har vært forståelige. Videre gjentas de fleste frasene i denne satsen en eller flere ganger, så de minst forståelige tjener på å gjentas i mer forståelige versjoner. Dette er en av grunnene til at jeg ikke gir frasene med lavest bottom-up-klarhet minimal evaluering.

Kontekstuell spesifisitet: Frasene i denne satsen er svært ulike når det gjelder i hvor stor grad egenskaper knytter til identitet kan knyttes til dem. Det er helt klart vanskelig å knytte identitetsegenskaper til frasene av type b, siden disse ligger svært langt fra en menneskelig stemme. For «But still (2)» kan muligens det språklige gjenkjennes, men kjønn og alder er likefullt tvetydige. For frasene av type b kjenner jeg igjen at det dreier seg om en voksen kvinne, men siden avslutningen av disse frasene har en lavere bottom-up-klarhet, er egenskapene knyttet til sosiokulturell bakgrunn mer tvetydige. De viktigste egenskapene knyttet til identitet for «But still (1)» og «But still (3)» er begge utvetydige og relativt spesifikke.


Egenskaper står fram

Måten mange av lydene i her reflection skaper en del utfordringer når det gjelder evalueringen av i hvor stor grad de har egenskaper som står fram (eng: feature salience). Dette er fordi dette premisset ble definert med utgangspunkt i forholdet mellom selve stemmelyden og andre lyder. I denne satsen er denne distinksjonen langt fra klar, fordi det i mange tilfeller er vanskelig å trekke skillelinjene mellom stemmen og resonansene den synes å eksitere. Dette er særlig tilfelle med frasene av type b og c. Derfor har jeg i stedet fokusert på i hvor stor grad de vokale egenskapene står fram, sammenliknet med egenskapene som peker i en annen retning. Her vil jeg se på hvordan de ulike frasetypene med dette som utgangspunkt:

Frasetype a: I begynnelsen av «Purely loving (1)» og «Knowes no discord (1)» gjør en delvis maskering at jeg har evaluert disse frasene som middels eller der omkring. Ettersom denne maskeringen øker mot avslutningen av frasene, faller også evalueringen mot minimal mot slutten.

Frasetype b: For «Purely loving (2)» og «Knowes no discord (2)» er det kun et minimum av vokale egenskaper som kan gjenkjennes (kun et par vokaler pluss «s»-en i «discord»), og dette gjør at disse frasene evalueres som minimale.

Frasetype c: For «But still (2)» har jeg vurdert dette premisset til å være middels-minimal på grunn av den relativt høye graden av toveis selvmaskering[8] og de symbalaktige resonansene som dominerer frasen og som i svært liten grad kan relateres til stemmen.

Frasetype d: Både «But still (1)» og «But still (3)» er evaluert som maksimale for dette premisset. «Only beawty knows no …» har både lav lydstyrke og har en relativt høy grad av selvmaskering på grunn av de overlappende fragmentene i frasen. Frasen er derfor evaluert som middels-minimal.


Integrasjon av lydstrøm

Også for evalueringen av det siste premisset skal jeg fokusere på de relativt store forskjellene mellom de ulike frasetypene:

Frasetype a: Ved ansatsen av frasene av denne typen er det en relativt klar separasjon mellom en vokal og en ikke-vokal lydstrøm (komponenten med en relativt lav tonehøyde). I løpet av disse frasene blander den vokale lydstrømmen seg gradvis mer og mer med den resonerende lydmassen. Siden denne blandete lydstrømmen er tvetydig når det gjelder opphav, har jeg evaluert den som middels.

Frasetype b: Disse frasene er bare integrert i en liten grad, og man kan nokså enkelt skille ut individuelle spektrale komponenter i disse frasene, bl.a. fordi de har asynkrone ansatser og ikke er harmonisk relatert til hverandre. Like fullt finner vi at modulasjonen i den spektrale omhylningskurven har likhetstrekk med artikulasjonskomponenten i tale, og sammen med det faktum at varighet og inntonings- og uttoningshastighet tross alt er relativt like hos komponentene, gjør det at jeg har valgt å evaluere frasene av denne typen som middels-minimal.

Frasetype c: På grunn av den tette distribusjonen av komponenter i «But still (2)» er det vanskeligere å skille ut enkeltkomponenter her og oppfatte disse som separate lydstrømmer. «But still (2)» oppleves derfor som mer integrert enn frasene av type b. Derfor er disse vurdert som middels.

Frasetype d: Både «But still (1)» og «But still (3)» er uakkompagnerte, umanipulerte og med lite romklang og disse oppleves derfor som godt integrert med en utvetydig lydkilde. Disse frasene er derfor vurdert som maksimale. De uttonende ekkoene i «Only beawty knows no …» er mindre integrerte da de synes å hoppe fra side til side i stereobildet.


Avsluttende bemerkninger

Selv om det er vanskelig å få fram alt det som ligger bak evalueringene vi nettopp har vært igjennom, både i form av teori, underliggende faktorer og kriterier, og av vurderinger i forhold til metode og lyttesituasjon, håper jeg likevel at jeg har klart å gi et inntrykk av hvordan jeg forsøkte å svare på spørsmålene i innledningen. Jeg håper derfor at denne smakebiten av avhandlingsarbeidet mitt kan gi interesserte lesere støtet til å gå i dybden på dette ved å lese avhandlingen i sin helhet. I den er også mange av begrepene og kategoriene jeg har introdusert her, presentert med fyldige teorireferanser og lydeksempler. På den måten håper jeg at leseren kan få ta del i fascinasjonen jeg har for stemmer i elektroakustisk musikk og hvordan jeg har møtt disse som lytter.


Referanser

Bergsland, A. 2010. Experiencing Voices in Electroacoustic Music.  Dept. of Music. Trondheim: NTNU.
Chion, M. 1991. L'art des sons fixés – ou La Musique Concrètement. Fontaine: Editions Metamkine / Nota Bene / Sono Concept.
Driver, J. 2001. A selective review of selective attention research from the past century. British Journal of Psychology 92(1): 53–78.
Emmerson, S. 1986. The relation of language to materials. In S. Emmerson (ed.) The language of electroacoustic music. London: Macmillan.
Føllesdal, D. 1989. Fenomenologien – en tilnærming til det subjektive. In L. Bliksrud and A. Aarnes (eds.) Spor etter mennesket. Oslo: Aschehoug.
Godøy, R.I. 1997. Formalization and epistemology. Oslo: Universitetsforlaget.
Lakoff, G. 1987. Women, fire and dangerous things: what categories reveal about the mind. Chicago: Chicago University Press.
Smalley, D. 1986. Spectro-morphology and structural processes. . In S. Emmerson (ed.) The language of electroacoustic music. Baisingstoke: The Macmillan Press.
Smalley, D. 1993. Defining Transformations. Interface 22: 279–300.
Smalley, D. 1997. Spectromorphology: explaining sound-shapes. Organised Sound 2(2): 107–126.




[1] Jfr. for eksempel Chions begrep om eksternt rom (Chion 1991) og det Smalley (2007) og Ekeberg (2002) kaller lytterom («listening space»)

[2] Dette korresponderer med distinksjonen som for eksempel Smalley gjør mellom «spectromorphological»  og «source-bonded» (Smalley 1986; Smalley 1993; Smalley 1997) og Emmerson gjør mellom «aural» og «mimetic discourse» (Emmerson 1986)

[3] I avhandlingen deler jeg dette domenet videre inn i fire nivå; det fonetiske, det leksikalske, det syntaktiske/grammatiske samt det semantiske nivået

[4] Det blir for omfattende i denne sammenhengen å gå inn på de ulike kategoriene og teoriene de er knyttet til. Den interesserte leser henvises til Bergsland 2010: 21–130

[5] Se kapitlene 6–12 for en gjennomgang av de ulike premissene

[6] Denne inndelingen er rent praktisk fundert. I den grad man er i stand til å gjøre en distinksjon med et høyere eller lavere antall verdier langs aksen er dette i høyeste grad en mulighet

[7] Mangelen på vokale egenskaper for flere av disse frasetypene begrenser utvalget av faktorer som kan ha påvirket evalueringene. For frasetypene b og c er det bare egenskapene relatert til artikulasjon som kan relateres til menneskelig vokal produksjon og som derfor kan evalueres. For frasetype a blir både egenskapene for artikulasjon og fonasjon gradvis tilslørt i løpet av frasenes varighet. Som for frasene «Only beawty knows no …» og «But still (3)» hører dem som en type teknologiske artifakter assosiert med kunstig forsinkelse (delay)

[8] Dette er en type maskering der forutgående og etterfølgende aspekter av lyden maskerer hverandre. Se Bergsland 2010: 280 for en mer inngående forklaring og henvisning til lydeksempel