您現(xiàn)在的位置:首頁(yè) > 教學(xué)論文 > 大學(xué)音樂(lè)論文 >

樂(lè)譜數(shù)字化的新途徑 ―― 計(jì)算機(jī)光學(xué)樂(lè)譜識(shí)別技術(shù)

作者:劉曉翔 張樹(shù)生 朱玉璋   來(lái)源 :中小學(xué)音樂(lè)教育網(wǎng)   發(fā)布時(shí)間:2018-01-17   點(diǎn)擊:

 

樂(lè)譜數(shù)字化的新途徑 ―― 計(jì)算機(jī)光學(xué)樂(lè)譜識(shí)別技術(shù)

西北工業(yè)大學(xué) 劉曉翔 張樹(shù)生 西安音樂(lè)學(xué)院 朱玉璋

稿源:中音網(wǎng)

     摘 要 計(jì)算機(jī)光學(xué)樂(lè)譜識(shí)別(Optical Music Recognition,OMR)是計(jì)算機(jī)技術(shù)在音樂(lè)領(lǐng)域的發(fā)展和應(yīng)用,它利用圖像處理、模式識(shí)別、文檔圖像分析等相關(guān)技術(shù),把樂(lè)譜圖像自動(dòng)轉(zhuǎn)化成通用的數(shù)字音樂(lè)格式。OMR技術(shù)為紙質(zhì)樂(lè)譜數(shù)字化提供了一個(gè)智能、高效的新途徑,在計(jì)算機(jī)音樂(lè)、計(jì)算機(jī)輔助音樂(lè)教學(xué)、數(shù)字音樂(lè)圖書館等眾多領(lǐng)域有著廣泛的應(yīng)用前景。
     關(guān)鍵詞: 光學(xué)樂(lè)譜識(shí)別,數(shù)字化,數(shù)字音樂(lè)圖書館
     1 問(wèn)題的提出
     信息技術(shù)改變著社會(huì)生產(chǎn)和人類生活的各個(gè)方面,人類社會(huì)正在步入一個(gè)數(shù)字化時(shí)代。現(xiàn)代計(jì)算機(jī)科學(xué)與音樂(lè)藝術(shù)的結(jié)合產(chǎn)生了計(jì)算機(jī)音樂(lè),它的出現(xiàn)不僅體現(xiàn)了計(jì)算機(jī)技術(shù)的一次革命,而且給人類的音樂(lè)活動(dòng)帶來(lái)了生產(chǎn)方式的根本變革,人們對(duì)音樂(lè)的創(chuàng)作、演奏、傳播從傳統(tǒng)的手工作業(yè)方式一躍而為高科技方式。
     樂(lè)譜的發(fā)明是人類音樂(lè)史上的里程碑,它的出現(xiàn)使人們可以在一個(gè)相對(duì)標(biāo)準(zhǔn)的平臺(tái)上進(jìn)行音樂(lè)的交流和傳承。古往今來(lái)的優(yōu)秀音樂(lè)作品大都以紙質(zhì)樂(lè)譜的形式保留下來(lái),直至今天,紙質(zhì)樂(lè)譜仍是表達(dá)和描述音樂(lè)作品的主要載體。
     基于以上的時(shí)代背景與事實(shí),那些長(zhǎng)期涉足于計(jì)算機(jī)音樂(lè)的人士便迫切地提出了這樣一個(gè)問(wèn)題:讓“紙質(zhì)樂(lè)譜進(jìn)入計(jì)算機(jī),計(jì)算機(jī)讀懂樂(lè)譜”,能夠?qū)崿F(xiàn)嗎?
     在計(jì)算機(jī)音樂(lè)發(fā)展的近幾十年中,各種音序編輯軟件層出不窮,如Encore、Cakewalk等,這類軟件的出現(xiàn)告訴人們,“樂(lè)譜進(jìn)入計(jì)算機(jī)”已經(jīng)不成為問(wèn)題。然而,利用音序編輯軟件進(jìn)行樂(lè)譜數(shù)字化是一種純手工人的方式,即手工錄入――校對(duì)――修改的方法,錄入人員必須具有一定的音樂(lè)專業(yè)知識(shí),而且輸入工作量大、效率低。因此,在紙質(zhì)樂(lè)譜數(shù)字化的進(jìn)程中,不可避免地產(chǎn)生了低速的音樂(lè)信息輸入與高速信息處理之間的矛盾。于是,一些計(jì)算機(jī)學(xué)者和專家們開(kāi)始尋求一條紙質(zhì)樂(lè)譜數(shù)字化的新途徑,力圖突破純手工的樂(lè)譜數(shù)字化瓶頸,自動(dòng)完成樂(lè)譜向數(shù)字音樂(lè)的智能轉(zhuǎn)化,即實(shí)現(xiàn)真正意義的“計(jì)算機(jī)讀懂樂(lè)譜”。經(jīng)過(guò)十幾年的研究和探索,計(jì)算機(jī)光學(xué)樂(lè)譜識(shí)別(Optical Music Recognition,以下簡(jiǎn)稱OMR)技術(shù)應(yīng)運(yùn)而生。
     2 光學(xué)樂(lè)譜識(shí)別技術(shù)的應(yīng)用
     OMR技術(shù)是將紙質(zhì)樂(lè)譜由掃描儀輸入到計(jì)算機(jī),經(jīng)過(guò)處理,把樂(lè)譜圖像自動(dòng)轉(zhuǎn)化為計(jì)算機(jī)能“讀懂”的數(shù)字音樂(lè)--標(biāo)準(zhǔn)音樂(lè)格式文件(如midi格式)。這數(shù)字音樂(lè)文件與采集聲音數(shù)據(jù)的音頻文件(如WAV格式)不同,它的原理是“記譜”,記錄的正是樂(lè)譜所表達(dá)的音樂(lè)內(nèi)容。在計(jì)算機(jī)軟、硬件強(qiáng)大功能的配合下,人們可以輕松地對(duì)其進(jìn)行編輯、加工、打印、傳播或?qū)崟r(shí)演奏。OMR技術(shù)為紙質(zhì)樂(lè)譜數(shù)字化提供了一個(gè)智能、高效的新途徑,有著極為廣泛的應(yīng)用前景,以下我們重點(diǎn)從計(jì)算機(jī)輔助音樂(lè)教學(xué)和數(shù)字音樂(lè)圖書館建設(shè)兩方面介紹OMR技術(shù)在其中的應(yīng)用:
     1)計(jì)算機(jī)輔助音樂(lè)教學(xué)
     在由應(yīng)試教育向素質(zhì)教育轉(zhuǎn)軌并不斷發(fā)展的今天,多媒體電腦音樂(lè)走進(jìn)課堂已成為時(shí)代發(fā)展和音樂(lè)教育的需要。一臺(tái)集成OMR系統(tǒng)、midi音樂(lè)系統(tǒng)的多媒體電腦即可代替?zhèn)鹘y(tǒng)的“課本+黑板+鋼琴音樂(lè)教學(xué)模式。通常,音樂(lè)教師在黑板上寫出的譜例在學(xué)生心中難以形成音響的聽(tīng)覺(jué)聯(lián)想,而鋼琴上彈出的聲音轉(zhuǎn)瞬即逝。借助OMR系統(tǒng),教師則可在課堂上即時(shí)地將課本上的譜例生成midi文件,利用其非常直觀的樂(lè)譜顯示功能以及實(shí)時(shí)性、動(dòng)態(tài)性的特點(diǎn),將譜例與實(shí)踐音響同步展現(xiàn)在學(xué)生面前,并可迅速重新演奏或演奏樂(lè)譜中的任一片斷,使學(xué)生的聽(tīng)覺(jué)與視覺(jué)形象融為一體,從而激發(fā)學(xué)生的學(xué)習(xí)興趣。
     2)數(shù)字音樂(lè)圖書館
     隨著數(shù)字圖書館的蓬勃發(fā)展,數(shù)字音樂(lè)圖書館也悄然興起。如同音樂(lè)文獻(xiàn)資源建設(shè)是傳統(tǒng)音樂(lè)圖書館的基礎(chǔ)性業(yè)務(wù)工作一樣,獲取大量的數(shù)字化音樂(lè)內(nèi)容是建設(shè)數(shù)字化音樂(lè)圖書館的核心內(nèi)容。在建設(shè)過(guò)程中,必然會(huì)面臨的一個(gè)突出問(wèn)題就是已有音樂(lè)資源的數(shù)字化問(wèn)題。傳統(tǒng)音樂(lè)資源最主要的對(duì)象是印刷型紙介質(zhì)樂(lè)譜,快速準(zhǔn)確地將傳統(tǒng)圖書館保存的紙質(zhì)樂(lè)譜資源數(shù)字化便成為建設(shè)數(shù)字音樂(lè)圖書館的當(dāng)務(wù)之急。
     紙質(zhì)樂(lè)譜的數(shù)字化有兩種形式:一種是采用光學(xué)掃描壓縮存貯樂(lè)譜圖像,存貯格式有TIFF、JPEG、GIF等多種。另一種是根據(jù)樂(lè)譜描述的音樂(lè)內(nèi)容將其轉(zhuǎn)化成數(shù)字化音樂(lè)文件,如midi文件。同樣作為數(shù)據(jù)資源,數(shù)字化音樂(lè)文件具有存貯空間小、表現(xiàn)方式靈活、檢索方便快速等許多圖像文件無(wú)法比擬的優(yōu)勢(shì),是數(shù)字音樂(lè)圖書館在Internet環(huán)境下理想的數(shù)據(jù)載體。
     音樂(lè)圖書館所藏的樂(lè)譜數(shù)以萬(wàn)計(jì),如此浩大的電子化工程,若單純靠傳統(tǒng)的人工錄入,將是漫長(zhǎng)和繁重的工作,既費(fèi)時(shí)又昂貴。所以,建立一個(gè)快速準(zhǔn)確、重碼率低的樂(lè)譜輸入方案,是進(jìn)行大批量樂(lè)譜數(shù)字化的關(guān)鍵。OMR技術(shù)正為數(shù)字音樂(lè)圖書館解決樂(lè)譜數(shù)字化難題提供一套完整便捷的解決方案。國(guó)內(nèi)外,光學(xué)字符識(shí)別(Optical Character Recognition,簡(jiǎn)稱OMR)技術(shù)在數(shù)字圖書館文獻(xiàn)錄入的應(yīng)用已經(jīng)獲得了巨大的成功。同樣,在數(shù)字音樂(lè)圖書館領(lǐng)域,OMR擁有著巨大的市場(chǎng)潛力和價(jià)值。
     國(guó)外已經(jīng)意識(shí)到OMR對(duì)數(shù)字音樂(lè)圖書館建設(shè)潛在的巨大作用。1994年9月,美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)正式公布了一項(xiàng)為期四年投入2440萬(wàn)美元的“數(shù)字圖書館首創(chuàng)計(jì)劃”(Digital Library Initiative)。1998年,由國(guó)家科學(xué)基金會(huì)(NSF)、國(guó)家人文學(xué)資助會(huì)(NEH)等機(jī)構(gòu)聯(lián)合資助數(shù)字圖書館倡議第二階段。在中標(biāo)的47個(gè)項(xiàng)目中有3項(xiàng)是關(guān)于數(shù)字音樂(lè)圖書館的研究和開(kāi)發(fā)[4],其中以O(shè)MR為技術(shù)支持的研究項(xiàng)目有美國(guó)馬薩諸塞大學(xué)的連機(jī)音樂(lè)識(shí)別和查詢系統(tǒng)(OMRAS),瓊斯?霍普金斯大學(xué)的Lester S. Levy數(shù)字化活頁(yè)樂(lè)譜藏品錄入與查詢系統(tǒng)。此外,在新西蘭,瓦卡托大學(xué)為新西蘭數(shù)字圖書館開(kāi)發(fā)了樂(lè)譜聯(lián)機(jī)識(shí)別系統(tǒng)和基于音樂(lè)內(nèi)容檢索的查詢系統(tǒng)(MELody inDEX)。值得關(guān)注的是,以上系統(tǒng)的樂(lè)譜錄入方案均采用的是OMR技術(shù)。
     由于國(guó)內(nèi)數(shù)字音樂(lè)圖書館的建設(shè)才剛剛起步,目前尚未見(jiàn)到OMR應(yīng)用于數(shù)字音樂(lè)圖書館的文獻(xiàn)和報(bào)道。但由以上分析可以看到,早日研究和開(kāi)發(fā)出國(guó)內(nèi)自己的OMR系統(tǒng),不僅對(duì)于我國(guó)未來(lái)數(shù)字音樂(lè)圖書館的建設(shè)和推廣具有及其重要的意義,而且勢(shì)在必行。
     3 國(guó)內(nèi)外光學(xué)樂(lè)譜識(shí)別技術(shù)研究現(xiàn)狀
     國(guó)外有關(guān)OMR的研究起始于60年代后期,當(dāng)時(shí)由于技術(shù)條件和硬件設(shè)備的限制,所研究的內(nèi)容也是非常有限的。到了70年代,隨著光學(xué)掃描儀的出現(xiàn)和機(jī)器性能的提升,OMR才真正已經(jīng)引起眾多學(xué)者的廣泛注意。進(jìn)入80年代后,隨著計(jì)算機(jī)圖形圖像技術(shù)的不斷發(fā)展與成熟,研究?jī)?nèi)容越來(lái)越深入,其研究成果也逐步進(jìn)入實(shí)用階段。目前已經(jīng)出臺(tái)的商品化OMR軟件系統(tǒng)有:OMeR、midiScan、SmartScore、SharpEye Music Reader、PhotoScore等。對(duì)于常見(jiàn)的印刷體五線譜樂(lè)譜,它們的識(shí)別率均在90%以上,同時(shí)提供強(qiáng)大的后期編輯、打印功能,最終識(shí)別結(jié)果可導(dǎo)出為midi、Niff、Music XML等數(shù)字音樂(lè)文件。
     在我國(guó),一方面由于計(jì)算機(jī)音樂(lè)發(fā)展起步晚,計(jì)算機(jī)音樂(lè)只是少數(shù)音樂(lè)工作者的“專利”,社會(huì)缺乏計(jì)算機(jī)識(shí)別樂(lè)譜的需要;另一方面,由于國(guó)內(nèi)高校的學(xué)科設(shè)置綜合化程度、學(xué)科交叉的跨度與國(guó)外有著相當(dāng)大的差距,長(zhǎng)期以來(lái),從事計(jì)算機(jī)音樂(lè)研究的專業(yè)人才嚴(yán)重缺乏。因此,OMR技術(shù)在國(guó)內(nèi)的系統(tǒng)研究和實(shí)踐工作幾乎為空白。目前,西北工業(yè)大學(xué)與西安音樂(lè)學(xué)院合作正在開(kāi)展印刷體光學(xué)樂(lè)譜識(shí)別技術(shù)的研究。隨著我國(guó)大規(guī)模傳統(tǒng)資源數(shù)字化進(jìn)程的推進(jìn),數(shù)字化音樂(lè)教育與圖書館界國(guó)際交流與合作的增加與擴(kuò)大,OMR技術(shù)必將逐步受到國(guó)內(nèi)學(xué)者與研究機(jī)構(gòu)的重視。相信在不遠(yuǎn)的將來(lái),OMR技術(shù)將在我國(guó)數(shù)字化音樂(lè)教育與數(shù)字音樂(lè)圖書館的建設(shè)中發(fā)揮巨大的作用,縮小我國(guó)計(jì)算機(jī)音樂(lè)在應(yīng)用高新技術(shù)方面與國(guó)外的差距。
     4 光學(xué)樂(lè)譜識(shí)別技術(shù)原理簡(jiǎn)介
     OMR是一項(xiàng)綜合應(yīng)用數(shù)字圖像處理、模式識(shí)別、人工智能、音樂(lè)理論等多門相關(guān)學(xué)科的交叉技術(shù),其目的就是要讓計(jì)算機(jī)“讀懂” 樂(lè)譜。一個(gè)完整OMR系統(tǒng)主要由五大模塊組成:樂(lè)譜掃描輸入與預(yù)處理、譜線定位與刪除、音符基元識(shí)別、音符基元重組及語(yǔ)義理解,其處理流程如圖1所示。
     
     圖1. OMR系統(tǒng)處理流程示意圖
     (1) 樂(lè)譜掃描輸入與預(yù)處理
     將紙質(zhì)樂(lè)譜經(jīng)掃描儀輸入計(jì)算機(jī)生成樂(lè)譜圖像,并對(duì)掃描圖像中的噪聲、局部變形等缺陷進(jìn)行消除和彌補(bǔ)。
     (2) 譜線定位與刪除
     針對(duì)樂(lè)譜圖像絕大多數(shù)符號(hào)和標(biāo)記都疊加在譜線上這一特征,在提取和識(shí)別音符對(duì)象前首先對(duì)譜線進(jìn)行定位和刪除,這樣可將各種音樂(lè)符號(hào)從譜線中分離出來(lái),以排除譜線在識(shí)別音符過(guò)程中造成的巨大干擾。
     (3) 音符基元識(shí)別
     譜線刪除后的樂(lè)譜圖像可視作一幅僅由音符基元組成的圖集。所謂音符基元就是由各種音樂(lè)符號(hào)分解得到的最小符號(hào)圖形,它們通常是符頭、符干、符尾、升降號(hào)、譜號(hào)、休止符等,這些圖形的有效組合即構(gòu)成了具有音樂(lè)語(yǔ)義的音符對(duì)象。識(shí)別音符基元的目的就是經(jīng)過(guò)計(jì)算機(jī)的模式識(shí)別處理,使計(jì)算機(jī)能“認(rèn)識(shí)和區(qū)分”這些最小音樂(lè)符號(hào)。
     (4) 音符基元重組
     利用樂(lè)譜知識(shí)規(guī)則將音符基元重新組合成特征音符對(duì)象。其功能是通過(guò)基于知識(shí)的意愿重組技術(shù),將人所具備的音樂(lè)知識(shí)“傳授”給計(jì)算機(jī),使計(jì)算機(jī)能模擬“識(shí)譜”這樣一個(gè)人為學(xué)習(xí)過(guò)程。
     (5) 音符語(yǔ)義理解
     對(duì)音符對(duì)象所代表的音樂(lè)語(yǔ)義進(jìn)行解釋,生成語(yǔ)義編碼,最后根據(jù)語(yǔ)義編碼將識(shí)別結(jié)果輸出成音樂(lè)格式文件。
     從總體考慮,OMR系統(tǒng)應(yīng)是一個(gè)基于樂(lè)譜的專家系統(tǒng),該系統(tǒng)應(yīng)具有音樂(lè)工作者閱讀和書寫樂(lè)譜的智能,不僅需要有音符特征判斷的規(guī)則和算法,而且需要音樂(lè)理論知識(shí)和經(jīng)驗(yàn)。最近這方面的努力向著更為成熟、復(fù)雜、綜合的方向發(fā)展,人工智能、神經(jīng)網(wǎng)絡(luò)與專家系統(tǒng)技術(shù)在OMR系統(tǒng)中的深入應(yīng)用將是未來(lái)OMR技術(shù)的發(fā)展趨勢(shì)。
     參考文獻(xiàn):
     [1] D. Blistein and H. Baird. A Critical Survey of Music Image Analysis. In: Springer-Verlag, editor, Structured Document Image Analysis, pages 405-434, Eds. H. S. Baird, H. Bunke, K. Yamamoto,1992.
     [2] R.J. McNab, L.A. Smith, I.H. Witten, C.L. Henderson, and S.J. Cunningham. Towards the digital music library: tune retrieval from acoustic input. In Proc Digital Libraries, pages 11-18, 1996
     [3] "大規(guī)模文獻(xiàn)數(shù)字化的實(shí)踐與數(shù)字圖書館建設(shè)"
     [4] "數(shù)字圖書館在美國(guó)的研究與發(fā)展現(xiàn)狀"

站內(nèi)搜索: 高級(jí)搜索
中小學(xué)音樂(lè)教育網(wǎng)
中小學(xué)音樂(lè)教育網(wǎng) 版權(quán)所有,未經(jīng)授權(quán)禁止復(fù)制或鏡像 網(wǎng)站備案編號(hào):蘇ICP備08000963號(hào)
版權(quán)申明:本站文章部分來(lái)自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)留言說(shuō)明,我們收到后立即刪除或添加版權(quán)
建議使用IE6.0及以上版本 在1024*768及以上分辨率下瀏覽,QQ:3999112
中小學(xué)音樂(lè)教育網(wǎng)