音頻檔案的重錄方法及裝置

音頻檔案的重錄方法及裝置

《音頻檔案的重錄方法及裝置》是廣州酷狗計算機科技有限公司於2015年11月23日申請的專利,該專利的公布號為CN106782627A,授權公布日為2017年5月31日,發明人是馮穗豫。該發明屬於終端技術領域。

《音頻檔案的重錄方法及裝置》所述方法包括:獲取第一時間,第一時間為待重錄人聲片段的起始時間;根據第一時間,播放已錄製的第一人聲片段,第一人聲片段以第一時間為結束時間;當到達第一時間時,採集用戶的第一人聲數據,得到第二人聲片段;對第一人聲片段和第二人聲片段進行處理,得到重錄音頻檔案。該發明無需將音譜檔案錄製多次,通過播放待重錄人聲片段之前的人聲片段,使得用戶在重新錄製待重錄人聲片段時,能夠聆聽之前所錄製的人聲片段,以調整氣息、與麥克風的距離、音色等,基於採集到的歌唱數據,移動終端剪輯、拼接得到的音頻檔案聽感效果較佳,聽者察覺不出拼接的痕跡。

2021年11月,《音頻檔案的重錄方法及裝置》獲得第八屆廣東專利獎銀獎。

(概述圖為《音頻檔案的重錄方法及裝置》摘要附圖)

基本介紹

  • 中文名:音頻檔案的重錄方法及裝置
  • 申請人:廣州酷狗計算機科技有限公司
  • 申請日:2015年11月23日
  • 申請號:201510810824X
  • 發明人:馮穗豫
  • 公布號:CN106782627A
  • 公布日:2017年5月31日
  • 地址:廣東省廣州市天河區科韻路16號B1棟13F
  • 分類號:G11B27/031(2006.01)I
  • 代理機構:北京三高永信智慧財產權代理有限責任公司
  • 代理人:祝亞男
  • 類別:發明專利
專利背景,發明內容,專利目的,技術方案,有益效果,附圖說明,權利要求,實施方式,榮譽表彰,

專利背景

在現代生活中,為了豐富用戶的業餘生活,越來越多的錄音套用被安裝的移動終端中,基於這些錄音套用,用戶無需走入專業的錄音棚,即可錄製音頻檔案。在錄製音頻檔案的過程中,受限於氣息、音色等自身條件,所錄製的音頻檔案中的某一人聲片段可能無法達到用戶的預期效果,為了提高所錄製的音頻檔案的聽感效果,需要對音頻檔案中的該人聲片段進行重錄。
2015年前,移動終端中的錄音套用提供了重錄功能,當接收到用戶的重錄指令時,移動終端通過揚聲器播放伴奏檔案,同時通過麥克風采集用戶的歌唱數據,得到一個音頻檔案。當經過多次重錄操作,得到多個音頻檔案後,移動終端通過將多個音頻檔案進行剪輯、拼接,最終可得到一個重錄音頻檔案。
在實現該發明的過程中,該專利發明人發現2015年11月之前的技術至少存在以下問題:通常音頻檔案中需要重新錄製的部分可能僅是一句話或一段話,對整個音頻檔案進行多次重錄,不僅增加了移動終端的資源消耗,而且由於每次重錄時用戶的氣息、與麥克風的距離、音色等控制上的不同,導致移動終端每次採集到的歌唱數據不同,最終剪輯、拼接得到的重錄音頻檔案聽感效果依然較差,聽者能夠很明顯的察覺出拼接的痕跡。

發明內容

專利目的

為了解決2015年11月之前技術的問題,該發明實施例提供了一種音頻檔案的重錄方法及裝置。

技術方案

《音頻檔案的重錄方法及裝置》所述技術方案如下:一方面,提供了一種音頻檔案的重錄方法,所述方法包括:獲取第一時間,所述第一時間為待重錄人聲片段的起始時間;根據所述第一時間,播放已錄製的第一人聲片段,所述第一人聲片段以所述第一時間為結束時間;當到達所述第一時間時,採集用戶的第一人聲數據,得到第二人聲片段;對所述第一人聲片段和所述第二人聲片段進行處理,得到重錄音頻檔案。
另一方面,提供了一種音頻檔案的重錄裝置,所述裝置包括:獲取模組,用於獲取第一時間,所述第一時間為待重錄人聲片段的起始時間;第一播放模組,用於根據所述第一時間,播放已錄製的第一人聲片段,所述第一人聲片段以所述第一時間為結束時間;第一採集模組,用於當到達所述第一時間時,採集用戶的第一人聲數據,得到第二人聲片段;處理模組,用於對所述第一人聲片段和所述第二人聲片段進行處理,得到重錄音頻檔案。

有益效果

《音頻檔案的重錄方法及裝置》實施例提供的技術方案帶來的有益效果是:該發明無需將音譜檔案錄製多次,通過播放待重錄人聲片段之前的人聲片段,使得用戶在重新錄製待重錄人聲片段時,能夠聆聽之前所錄製的人聲片段,以調整氣息、與麥克風的距離、音色等,基於採集到的歌唱數據,移動終端剪輯、拼接得到的音頻檔案聽感效果較佳,聽者察覺不出拼接的痕跡。

附圖說明

圖1是《音頻檔案的重錄方法及裝置》一實施例提供的一種音頻檔案的重錄方法流程圖;
圖2是該發明另一實施例提供的一種音頻檔案的重錄方法流程圖;
圖3是該發明另一實施例提供的一種音頻檔案的錄製界面的示意圖;
圖4是該發明另一實施例提供的一種音譜的示意圖;
圖5是該發明另一實施例提供的一種音譜的示意圖;
圖6是該發明另一實施例提供的一種音譜的示意圖;
圖7是該發明另一實施例提供的一種音譜的示意圖;
圖8是該發明另一實施例提供的一種對第一目標音譜和第二目標音譜進行擬合的示意圖;
圖9是該發明另一實施例提供的一種音頻檔案的重錄裝置的結構示意圖;
圖10是該發明另一實施例提供的一種音頻檔案的重錄終端的結構示意圖。

權利要求

1.一種音頻檔案的重錄方法,其特徵在於,所述方法包括:獲取第一時間,所述第一時間為待重錄人聲片段的起始時間;根據所述第一時間,播放已錄製的第一人聲片段,所述第一人聲片段以所述第一時間為結束時間;當到達所述第一時間時,採集用戶的第一人聲數據,得到第二人聲片段;對所述第一人聲片段和所述第二人聲片段進行處理,得到重錄音頻檔案。
2.根據權利要求1所述的方法,其特徵在於,所述方法還包括:在播放已錄製的第一人聲片段的過程中,採集用戶的第二人聲數據,得到第三人聲片段;將所述第二人聲片段和所述第三人聲片段作為本次錄製的人聲片段。
3.根據權利要求2所述的方法,其特徵在於,所述對所述第一人聲片段和所述第二人聲片段進行處理,得到重錄音頻檔案,包括:獲取所述第一人聲片段對應的第一音譜,並獲取所述第二人聲片段對應的第二音譜;從所述第一音譜中,獲取平穩起始點及所述平穩起始點對應的第二時間;從所述第二音譜中,獲取上升起始點及所述上升起始點對應的第三時間;以所述第二時間為起始時間,從所述本次錄製的人聲片段中選取第四人聲片段;以所述第三時間為結束時間,從上次錄製的人聲片段中選取第五人聲片段,所述上次錄製的人聲片段包括所述待重錄人聲片段和所述第一人聲片段;對所述第四人聲片段和所述第五人聲片段進行處理,得到所述重錄音頻檔案;其中,所述第二時間早於所述第一時間,所述第一時間早於所述第三時間。
4.根據權利要求3所述的方法,其特徵在於,所述對所述第四人聲片段和所述第五人聲片段進行處理,得到所述重錄音頻檔案,包括:將所述第四人聲片段對應的音譜和所述第五人聲片段對應的音譜進行比對;從所述第四人聲片段對應的音譜中,獲取第一目標音譜,並從所述第五人聲片段對應的音譜中,獲取第二目標音譜,所述第一目標音譜和所述第二音譜具有相同的起始時間和結束時間;對所述第一目標音頻和所述第二目標音譜進行擬合,使得所述第四人聲片段和所述第五人聲片段拼接在一起,得到所述重錄音頻檔案。
5.根據權利要求1所述的方法,其特徵在於,所述方法還包括:在播放已錄製的人聲片段及錄製人聲片段的過程中,播放相應的伴奏檔案。
6.一種音頻檔案的重錄裝置,其特徵在於,所述裝置包括:獲取模組,用於獲取第一時間,所述第一時間為待重錄人聲片段的起始時間;第一播放模組,用於根據所述第一時間,播放已錄製的第一人聲片段,所述第一人聲片段以所述第一時間為結束時間;第一採集模組,用於當到達所述第一時間時,採集用戶的第一人聲數據,得到第二人聲片段;處理模組,用於對所述第一人聲片段和所述第二人聲片段進行處理,得到重錄音頻檔案。
7.根據權利要求6所述的裝置,其特徵在於,所述裝置還包括:第二採集模組,用於在播放已錄製的第一人聲片段的過程中,採集用戶的第二人聲數據,得到第三人聲片段;將所述第二人聲片段和所述第三人聲片段作為本次錄製的人聲片段。
8.根據權利要求7所述的裝置,其特徵在於,所述處理模組,用於獲取所述第一人聲片段對應的第一音譜,並獲取所述第二人聲片段對應的第二音譜;從所述第一音譜中,獲取平穩起始點及所述平穩起始點對應的第二時間;從所述第二音譜中,獲取上升起始點及所述上升起始點對應的第三時間;以所述第二時間為起始時間,從所述本次錄製的人聲片段中選取第四人聲片段;以所述第三時間為結束時間,從上次錄製的人聲片段中選取第五人聲片段,所述上次錄製的人聲片段包括所述待重錄人聲片段和所述第一人聲片段;對所述第四人聲片段和所述第五人聲片段進行處理,得到所述重錄音頻檔案;其中,所述第二時間早於所述第一時間,所述第一時間早於所述第三時間。
9.根據權利要求8所述的裝置,其特徵在於,所述處理模組,還用於將所述第四人聲片段對應的音譜和所述第五人聲片段對應的音譜進行比對;從所述第四人聲片段對應的音譜中,獲取第一目標音譜,並從所述第五人聲片段對應的音譜中,獲取第二目標音譜,所述第一目標音譜和所述第二音譜具有相同的起始時間和結束時間;對所述第一目標音頻和所述第二目標音譜進行擬合,使得所述第四人聲片段和所述第五人聲片段拼接在一起,得到所述重錄音頻檔案。
10.根據權利要求6所述的裝置,其特徵在於,所述裝置還包括:第二播放模組,用於在播放已錄製的人聲片段及錄製人聲片段的過程中,播放相應的伴奏檔案。

實施方式

隨著終端技術的發展,為了滿足用戶的歌唱需要,各種用於錄製歌曲的套用被安裝在移動終端中。對於一些非專業歌手而言,在錄製音頻檔案時,很難把控自己的氣息、感情,導致某些人聲片段很難達到用戶的預期效果,此時用戶常會對這些人聲片段進行重錄。由於2015年11月之前的技術在對音頻檔案進行重錄時,需要將整個音頻檔案重錄多次,並將多次重錄的音頻檔案進行剪輯、拼接,不僅增加了移動終端的資源消耗,而且所拼接出的音頻檔案播放以後,聽者能夠明顯感覺到並不是歌者一氣呵成的唱作。為此,該發明實施例提供了一種音頻檔案的重錄方法,該方法在重錄某一人聲片段時,通過播放待重錄人聲片段之前的一段人聲片段,使用戶回憶起之前歌唱的情景,通過調整當前歌唱時的音色、力度、與麥克風之間的距離、氣息等,使得重錄的人聲片段儘可能的與之前歌唱的人聲片段能夠自然銜接。
參見圖1,該實施例提供的方法流程包括:
101、獲取第一時間,該第一時間為待重錄人聲片段的起始時間。
102、根據第一時間,播放已錄製的第一人聲片段,該第一人聲片段以第一時間為結束時間。
103、當到達第一時間時,採集用戶的第一人聲數據,得到第二人聲片段。
104、對第一人聲片段和第二人聲片段進行處理,得到重錄音頻檔案。
該發明實施例提供的方法,無需將音譜檔案錄製多次,通過播放待重錄人聲片段之前的人聲片段,使得用戶在重新錄製待重錄人聲片段時,能夠聆聽之前所錄製的人聲片段,以調整氣息、與麥克風的距離、音色等,基於採集到的歌唱數據,移動終端剪輯、拼接得到的音頻檔案聽感效果較佳,聽者察覺不出拼接的痕跡。
在該發明的另一個實施例中,該方法還包括:在播放已錄製的第一人聲片段的過程中,採集用戶的第二人聲數據,得到第三人聲片段;將第二人聲片段和第三人聲片段作為本次錄製的人聲片段。
在該發明的另一個實施例中,對第一人聲片段和第二人聲片段進行處理,得到重錄音頻檔案,包括:獲取第一人聲片段對應的第一音譜,並獲取第二人聲片段對應的第二音譜;從第一音譜中,獲取平穩起始點及平穩起始點對應的第二時間;從第二音譜中,獲取上升起始點及上升起始點對應的第三時間;以第二時間為起始時間,從本次錄製的人聲片段中選取第四人聲片段;以第三時間為結束時間,從上次錄製的人聲片段中選取第五人聲片段,上次錄製的人聲片段包括待重錄人聲片段和第一人聲片段;對第四人聲片段和第五人聲片段進行處理,得到重錄音頻檔案;其中,第二時間早於第一時間,第一時間早於第三時間。
在該發明的另一個實施例中,對第四人聲片段和第五人聲片段進行處理,得到重錄音頻檔案,包括:將第四人聲片段對應的音譜和第五人聲片段對應的音譜進行比對;從第四人聲片段對應的音譜中,獲取第一目標音譜,並從第五人聲片段對應的音譜中,獲取第二目標音譜,第一目標音譜和第二音譜具有相同的起始時間和結束時間;對第一目標音頻和第二目標音譜進行擬合,使得第四人聲片段和第五人聲片段拼接在一起,得到重錄音頻檔案。
在該發明的另一個實施例中,該方法還包括:在播放已錄製的人聲片段及錄製人聲片段的過程中,播放相應的伴奏檔案。
上述所有可選技術方案,可以採用任意結合形成該發明的可選實施例,在此不再一一贅述。
該發明實施例提供了一種音頻檔案的重錄方法,參見圖2,該實施例提供的方法流程包括:
201、移動終端獲取第一時間,該第一時間為待重錄人聲片段的起始時間。在該實施例中,移動終端可以為智慧型手機、筆記本電腦、平板電腦等設備,該移動終端中安裝有具有重錄功能的錄音套用,基於所安裝的錄音套用,用戶可隨時隨地的錄製自己喜歡的音頻檔案,並將錄製好的音頻檔案分享給好友。
在錄製音頻檔案的過程中,如果所錄製的人聲片段沒有達到用戶的預期效果或錄製過程中得分較低,用戶可根據錄音套用所提供的重錄功能,對該人聲片段進行重錄。其中,待重錄人聲片段可以為一句歌詞、一個段落等,該待重錄人聲片段在音頻檔案中對應一個起始時間和結束時間。該實施例以待重錄人聲片段的起始時間為第一時間為例,該第一時間並不是絕對時間,而是相對音頻檔案起始播放時刻的時間,可用於表征音頻檔案的播放時刻或錄製進度。該第一時間應小於音頻檔案的播放時長,例如,音頻檔案的播放時長為4分鐘,起始播放時刻為00:00,該第一時間為音頻檔案的第1分鐘30秒、第2分鐘等。當獲取音頻檔案的播放時長及第一時間,還可獲知待重錄人聲片段在音頻檔案中的位置,例如,音頻檔案的時長為4分鐘,第一時間為音頻檔案的第2分鐘為例,則可獲知待重錄人聲片段位於音頻檔案的中點處。
需要說明的是,該實施例中涉及到多個人聲片段,為了將這些不同的人聲片段區分開來,本實施將未達到用戶預期效果需要重新錄製的人聲片段稱為待重錄人聲片段,將本次所播放的人聲片段稱為第一人聲片段,將播放第一人聲片段過程中所錄製的人聲片段稱為第三人聲片段,將本次重新錄製的人聲片段稱為第二人聲片段,將從本次所錄製的人聲片段中所選取的人聲片段稱為第四人聲片段,將從上次所錄製的人聲片段中所選取的人聲片段稱為第五人聲片段。
202、移動終端根據第一時間,播放已錄製的第一人聲片段,該第一人聲片段以第一時間為結束時間。通常用戶在唱歌的時候,都會不經意地調整氣息和情緒以配合當前所歌唱的歌詞,這使得在重錄待重錄人聲片段的過程中,用戶很難找準歌唱前一句歌詞時使用的氣息和情緒,導致重錄音頻檔案聽感效果不佳。為了提高重錄音頻檔案的聽感效果,當待重錄人聲片段確定後,移動終端還將根據待重錄人聲片段的起始時間,從已錄製的音頻檔案中,確定需要播放的第一人聲片段,該第一人聲片段應以第一時間為結束時間,可以為待重錄人聲片段之前的一句歌詞、兩句歌詞,還可以為待重錄人聲片段之前的一段歌詞、二段歌詞等,該實施例不對第一人聲片段的長度作具體的限定。為使重錄後的音頻檔案更為自然,播放效果更佳,移動終端在根據第一時間,確定第一人聲片段時,可將第一人聲片段的長度選取的儘量長一些。以錄製歌曲《同桌的你》為例,參見圖3,圖3為歌曲《同桌的你》的錄製界面,如果用戶想要重新錄製“才想起同桌的你”這一句歌詞,即待重錄人聲片段為“才想起同桌的你”,並獲取到該句歌詞的起始時間為音頻檔案的第39秒,則移動終端可將“猜不出問題的你,我也是偶然翻相片”作為第一人聲片段。
之後,移動終端將通過麥克風播放該已錄製的第一人聲片段。為了最大限度地還原上一次的錄製場景,移動終端在播放已錄製的第一人聲片段的過程中,還將根據該第一人聲片段對應的時間,播放與該時間相應的伴奏檔案,該伴奏檔案的播放時長與音頻檔案的播放時長相同,且音頻檔案中的人聲片段與伴奏檔案的中的伴奏片段一一對應。例如,第一人聲片段的起始時間為音頻檔案的第1分鐘06秒、結束時間為2分鐘13秒,移動終端在通過麥克風播放該第一人聲片段時,還將同步播放第一人聲片段對應的伴奏檔案。
203、在播放已錄製的第一人聲片段的過程中,移動終端採集用戶的第二人聲數據,得到第三人聲片段。
在移動終端播放已錄製的第一人聲片段時,用戶即可跟隨第一人聲片段及相應的伴奏檔案重唱第一人聲片段,此時麥克風等設備將採集用戶的第二人聲數據,並將採集到的第二人聲數據存儲到快取等存儲介質中,得到第三人聲片段。該第三人聲片段與第一人聲片段具有相同的音頻內容,即第三人聲片段和第一人聲片段對應音頻檔案中相同的歌詞。
204、當到達第一時間時,移動終端採集用戶的第一人聲數據,得到第二人聲片段,並將第二人聲片段和第三人聲片段作為本次錄製的人聲片段。
當到達第一人聲片段的結束時間第一時間時,移動終端通過麥克風等設備採集用戶的第一人聲數據,並將採集到的第一人聲數據存儲到快取等存儲介質中,得到第二人聲片段,該第二人聲片段與待重錄人聲片段具有相同的音頻內容,即第二人聲片段與待重錄人聲片段對應音頻檔案中相同的歌詞。至此,在本次重錄過程中,移動終端總計錄製了兩段人聲片段,分別為第三人聲片段和第二人聲片段,移動終端將第三人聲片段和第二人聲片段作為本次錄製的人聲片段。
205、移動終端對第一人聲片段和第二人聲片段進行處理,得到重錄音頻檔案。
經過上述步驟201~204,移動終端獲取到用戶較為滿意的第二人聲片段,但該第二人聲片段並未與第一人聲片段相連,而是與第三人聲片段連線在一起,且第一人聲片段也未與第二人聲片段相連,而是與待重錄人聲片段相連,此時移動終端需要對第一人聲片段和第二人聲片段進行處理,使得第一人聲片段和第二人聲片段能夠自然的拼接在一起,得到重錄音頻檔案。移動終端在對第一人聲片段和第二人聲片段進行處理時,可採用如下步驟2051~2056:
2051、移動終端獲取第一人聲片段對應的第一音譜,並獲取第二人聲片段對應的第二音譜。
眾所周知聲音在空氣中傳播可以形成聲波,每個聲波都對應一個音譜。該實施例正是基於第一人聲片段對應的音譜、第二人聲片段對應的音譜,對第一人聲片段和第二人聲片段進行處理的。為了便於後續敘述,該實施例將第一人聲片段對應的音譜稱為第一音譜,將第二人聲片段對應的音譜稱為第二音譜。參見圖4,圖4中401為伴奏檔案對應的音譜,402為第一人聲片段對應的第一音譜,403為第一人聲片段之前的人聲片段對應的音譜,404為待重錄人聲片段對應的音譜,405為以待重錄人聲片段為起點已錄製人聲片段對應的音譜。
在該實施例中,移動終端獲取第一人聲片段對應的第一音譜時,可將第一人聲片段輸入到示波器中,得到第一人聲片段對應的第一音譜。移動終端在獲取第二人聲片段對應的第二音譜時,可將第二人聲片段譜輸入到示波器中,得到第二人聲片段對應的第二音譜。
上述僅為獲取第一人聲片段對應的第一音譜、以及第二人聲片段對應的第二音譜的一種方式,在實際套用中,還可以採用其他方式獲取第一人聲片段對應的第一音譜及第二人聲片段對應的第二音譜,該實施例對此不再一一說明。
2052、移動終端從第一音譜中,獲取平穩起始點及平穩起始點對應的第二時間。
在一句歌詞歌唱完成的過程中,麥克風等設備採集到的人聲片段對應的音譜趨於穩定且音譜幅值逐漸較小,從音譜趨於穩定的起始點開始,麥克風等設備所採集到的人聲片段通常僅為用戶的氣息等,並無人聲數據。該實施例將音譜趨於穩定的起始點稱為平穩起始點,將平穩起始點對應的時間稱為第二時間。其中,第二時間可以為音頻檔案的第1分鐘、音頻檔案的第3分鐘等,該實施例不對第二時間的大小作具體的限定,只需保證第二時間早於第一時間即可。參見圖5,圖5中的A為第一人聲片段對應的第一音譜,B為待重錄人聲片段對應的第二音譜,S為第一音譜中的平穩起始點,設定S點對應的時間為t1
2053、移動終端從第二音譜中,獲取上升起始點及上升起始點對應的第三時間。
在開始歌唱一句歌詞的過程中,麥克風等設備採集到的人聲片段對應的音譜逐漸上升且音譜幅值逐漸增大,從音譜開始上升的起始點開始,麥克風等設備採集到的人聲片段開始有用戶的人聲數據。該實施例將音譜趨於上升的起始點稱為上升起始點,將上升起始點對應的時間稱為第三時間。其中,第三時間可以為音頻檔案的第3分鐘、音頻檔案的第5分鐘等,該實施例不對第三時間的大小作具體的限定,只需保證第一時間早於第三時間即可。參見圖6,圖6中的A`為第三人聲片段對應的音譜,C為第二人聲片段對應的音譜,E為第二音譜中的上升起始點,設定E點對應的時間為t2
2054、移動終端以第二時間為起始時間,從本次錄製的人聲片段中選取第四人聲片段。
為了獲取到聽感較佳的音頻檔案,無論是上次採集到的人聲片段,還是本次採集到的人聲片段,移動終端都會將採集到的人聲片段存儲在快取等存儲介質中。為使第一人聲片段和第二人聲片段自然拼接在一起,移動終端可對第一人聲片段和第二人聲片段中無人聲數據的部分進行拼接。
為了更好地做到無縫拼接,移動終端可以第二時間為起始時間,從本次錄製的人聲片段中選取第四人聲片段,該第四人聲片段包括第三人聲片段中的部分及第二人聲片段,該第三人聲片段中的部分以第二時間為起始時間、以第三時間為結束時間。參見圖7,第四人聲片段包括第三人聲片段中的部分及第二人聲片段C。
2055、移動終端以第三時間為結束時間,從上次錄製的人聲片段中選取第五人聲片段,上次錄製的人聲片段包括待重錄人聲片段和第一人聲片段。
為了將第一人聲片段和第二人聲片段更好地拼接在一起,移動終端還將以第三時間為結束時間,從上次錄製的人聲片段中選取第五人聲片段,該上次錄製的人聲片段包括待重錄人聲片段和第一人聲片段,相應地,第五人聲片段包括第一人聲片段和待重錄人聲片段中的部分,該待重錄人聲片段的部分以第二時間為起始時間、以第三時間為結束時間。參見圖7,第五人聲片段包括第一人聲片段A及待重錄人聲片段中的部分。
2056、移動終端對第四人聲片段和第五人聲片段進行處理,得到重錄音頻檔案。
移動終端在對第四人聲片段和第五人聲片段進行處理,得到重錄音頻檔案時,可採用如下步驟a~c:
a、移動終端將第四人聲片段對應的音譜和第五人聲片段對應的音譜進行比對。通常人聲片段的音譜可以反應出人聲片段在某一時刻的振幅情況,移動終端通過將第四人聲片段對應的音譜和第五人聲片段對應的音譜進行比較,可獲取到第四人聲片段和第五人聲片段振幅較小的部分,該振幅較小部分並無人聲,在該部分對第四人聲片段和第五人聲片段進行拼接,不會影響到整個音頻檔案的完整性。
b、移動終端從第四人聲片段對應的音譜中,獲取第一目標音譜,並從第五人聲片段對應的音譜中,獲取第二目標音譜。其中,移動終端通過將第四人聲片段對應的音譜和第五人聲片段對應的音譜進行比較,可從第四人聲片段對應的音譜中,獲取到第一目標音譜,從第五人聲片段對應的音譜中,獲取第二目標音譜。第一目標音譜和第二音譜具有相同的起始時間和結束時間,該第一目標音譜為第四人聲片段中振幅較小部分,該第二目標音譜為第五人聲片段中振幅較小部分。
c、移動終端對第一目標音頻和第二目標音譜進行擬合,使得第四人聲片段和第五人聲片段拼接在一起,得到重錄音頻檔案。移動終端在對第一目標音譜和第二目標音譜進行擬合時,可選取一次函式、二次函式、指定參數等作為第一目標音譜和第二目標音譜的權重值,並基於所選取的權重值對第一目標音譜和第二目標音譜的振幅進行擬合,通過擬合可使第四人聲片段和第五人聲片段拼接在一起,進而將第一人聲片段和第二人聲片段也拼接在一起,得到重錄音頻檔案。為保證拼接在一起的第四人聲片段和第五人聲片段更自然,移動終端在為第一目標音譜和第二目標音譜選取權重值時,可為第一目標音譜的權重值和第二目標音譜的權重值選取相同的數值或函式。參見圖8,圖8為對第一目標音譜和第二目標音譜進行擬合的示意圖,其中,X為第一目標音譜,Y為第二目標音譜,s、t為二次函式,s為第一目標音譜對應的權重值,t為第二目標音譜對應的權重值,,基於二次函式s和t,移動終端通過對第一目標音譜和第二目標音譜進行擬合,可使第四人聲片段和第五人聲片段平滑地連線在一起。
需要說明的是,上述以移動終端在重錄音頻檔案的過程中,僅採集用戶的人聲數據為例進行說明,在實際套用中,移動終端還可同時採集人聲數據和伴奏數據,並將採集到的人聲數據和伴奏數據整合成重錄音譜檔案。
該發明實施例提供的方法,無需將音譜檔案錄製多次,通過播放待重錄人聲片段之前的人聲片段,使得用戶在重新錄製待重錄人聲片段時,能夠聆聽之前所錄製的人聲片段,以調整氣息、與麥克風的距離、音色等,基於採集到的歌唱數據,移動終端剪輯、拼接得到的音頻檔案聽感較佳,聽者察覺不出拼接的痕跡。
參見圖9,該發明實施例提供了一種音頻檔案的重錄裝置的結構示意圖,該裝置包括:獲取模組901,用於獲取第一時間,第一時間為待重錄人聲片段的起始時間;第一播放模組902,用於根據第一時間,播放已錄製的第一人聲片段,第一人聲片段以第一時間為結束時間;第一採集模組903,用於當到達第一時間時,採集用戶的第一人聲數據,得到第二人聲片段;處理模組904,用於對第一人聲片段和第二人聲片段進行處理,得到重錄音頻檔案。
在該發明的另一個實施例中,該裝置還包括:第二採集模組,用於在播放已錄製的第一人聲片段的過程中,採集用戶的第二人聲數據,得到第三人聲片段;將第二人聲片段和第三人聲片段作為本次錄製的人聲片段。
在該發明的另一個實施例中,處理模組904,用於獲取第一人聲片段對應的第一音譜,並獲取第二人聲片段對應的第二音譜;從第一音譜中,獲取平穩起始點及平穩起始點對應的第二時間;從第二音譜中,獲取上升起始點及上升起始點對應的第三時間;以第二時間為起始時間,從本次錄製的人聲片段中選取第四人聲片段;以第三時間為結束時間,從上次錄製的人聲片段中選取第五人聲片段,上次錄製的人聲片段包括待重錄人聲片段和第一人聲片段;對第四人聲片段和第五人聲片段進行處理,得到重錄音頻檔案;其中,第二時間早於第一時間,第一時間早於第三時間。
在該發明的另一個實施例中,處理模組904,還用於將第四人聲片段對應的音譜和第五人聲片段對應的音譜進行比對;從第四人聲片段對應的音譜中,獲取第一目標音譜,並從第五人聲片段對應的音譜中,獲取第二目標音譜,第一目標音譜和第二音譜具有相同的起始時間和結束時間;對第一目標音頻和第二目標音譜進行擬合,使得第四人聲片段和第五人聲片段拼接在一起,得到重錄音頻檔案。
在該發明的另一個實施例中,該裝置還包括:第二播放模組,用於在播放已錄製的人聲片段及錄製人聲片段的過程中,播放相應的伴奏檔案。
綜上,該發明實施例提供的裝置,無需將音譜檔案錄製多次,通過播放待重錄人聲片段之前的人聲片段,使得用戶在重新錄製待重錄人聲片段時,能夠聆聽之前所錄製的人聲片段,以調整氣息、與麥克風的距離、音色等,基於採集到的歌唱數據,移動終端剪輯、拼接得到的音頻檔案聽感較佳,聽者察覺不出拼接的痕跡。
參見圖10,其示出了該發明實施例所涉及音頻檔案的重錄終端的結構示意圖,該終端可以用於實施上述實施例中提供的音頻檔案的重錄方法。具體來講:終端1000可以包括RF(Radio Frequency,射頻)電路110、包括有一個或一個以上計算機可讀存儲介質的存儲器120、輸入單元130、顯示單元140、感測器150、音頻電路160、WiFi(Wireless Fidelity,無線保真)模組170、包括有一個或者一個以上處理核心的處理器180、以及電源190等部件。本領域技術人員可以理解,圖10中示出的終端結構並不構成對終端的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。
其中:RF電路110可用於收發信息或通話過程中,信號的接收和傳送,特別地,將基站的下行信息接收後,交由一個或者一個以上處理器180處理;另外,將涉及上行的數據傳送給基站。通常,RF電路110包括但不限於天線、至少一個放大器、調諧器、一個或多個振盪器、用戶身份模組(SIM)卡、收發信機、耦合器、LNA(Low Noise Amplifier,低噪聲放大器)、雙工器等。此外,RF電路110還可以通過無線通信與網路和其他設備通信。所述無線通信可以使用任一通信標準或協定,包括但不限於GSM(Global System of Mobile communication,全球移動通訊系統)、GPRS(General Packet Radio Service,通用分組無線服務)、CDMA(Code Division Multiple Access,碼分多址)、WCDMA(Wideband Code Division Multiple Access,寬頻碼分多址)、LTE(Long Term Evolution,長期演進)、電子郵件、SMS(Short Messaging Service,短訊息服務)等。
存儲器120可用於存儲軟體程式以及模組,處理器180通過運行存儲在存儲器120的軟體程式以及模組,從而執行各種功能套用以及數據處理。存儲器120可主要包括存儲程式區和存儲數據區,其中,存儲程式區可存儲作業系統、至少一個功能所需的應用程式(比如聲音播放功能、圖像播放功能等)等;存儲數據區可存儲根據終端1000的使用所創建的數據(比如音頻數據、電話本等)等。此外,存儲器120可以包括高速隨機存取存儲器,還可以包括非易失性存儲器,例如至少一個磁碟存儲器件、快閃記憶體器件、或其他易失性固態存儲器件。相應地,存儲器120還可以包括存儲器控制器,以提供處理器180和輸入單元130對存儲器120的訪問。
輸入單元130可用於接收輸入的數字或字元信息,以及產生與用戶設定以及功能控制有關的鍵盤、滑鼠、操作桿、光學或者軌跡球信號輸入。具體地,輸入單元130可包括觸敏表面131以及其他輸入設備132。觸敏表面131,也稱為觸摸顯示屏或者觸控板,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附屬檔案在觸敏表面131上或在觸敏表面131附近的操作),並根據預先設定的程式驅動相應的連線裝置。可選的,觸敏表面131可包括觸摸檢測裝置和觸摸控制器兩個部分。其中,觸摸檢測裝置檢測用戶的觸摸方位,並檢測觸摸操作帶來的信號,將信號傳送給觸摸控制器;觸摸控制器從觸摸檢測裝置上接收觸摸信息,並將它轉換成觸點坐標,再送給處理器180,並能接收處理器180發來的命令並加以執行。此外,可以採用電阻式、電容式、紅外線以及表面聲波等多種類型實現觸敏表面131。除了觸敏表面131,輸入單元130還可以包括其他輸入設備132。具體地,其他輸入設備132可以包括但不限於物理鍵盤、功能鍵(比如音量控制按鍵、開關按鍵等)、軌跡球、滑鼠、操作桿等中的一種或多種。
顯示單元140可用於顯示由用戶輸入的信息或提供給用戶的信息以及終端1000的各種圖形用戶接口,這些圖形用戶接口可以由圖形、文本、圖示、視頻和其任意組合來構成。顯示單元140可包括顯示面板141,可選的,可以採用LCD(Liquid Crystal Display,液晶顯示器)、OLED(Organic Light-Emitting Diode,有機發光二極體)等形式來配置顯示面板141。進一步的,觸敏表面131可覆蓋顯示面板141,當觸敏表面131檢測到在其上或附近的觸摸操作後,傳送給處理器180以確定觸摸事件的類型,隨後處理器180根據觸摸事件的類型在顯示面板141上提供相應的視覺輸出。雖然在圖10中,觸敏表面131與顯示面板141是作為兩個獨立的部件來實現輸入和輸入功能,但是在某些實施例中,可以將觸敏表面131與顯示面板141集成而實現輸入和輸出功能。
終端1000還可包括至少一種感測器150,比如光感測器、運動感測器以及其他感測器。具體地,光感測器可包括環境光感測器及接近感測器,其中,環境光感測器可根據環境光線的明暗來調節顯示面板141的亮度,接近感測器可在終端1000移動到耳邊時,關閉顯示面板141和/或背光。作為運動感測器的一種,重力加速度感測器可檢測各個方向上(一般為三軸)加速度的大小,靜止時可檢測出重力的大小及方向,可用於識別手機姿態的套用(比如橫豎屏切換、相關遊戲、磁力計姿態校準)、振動識別相關功能(比如計步器、敲擊)等;至於終端1000還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線感測器等其他感測器,在此不再贅述。
音頻電路160、揚聲器161,傳聲器162可提供用戶與終端1000之間的音頻接口。音頻電路160可將接收到的音頻數據轉換後的電信號,傳輸到揚聲器161,由揚聲器161轉換為聲音信號輸出;另一方面,傳聲器162將收集的聲音信號轉換為電信號,由音頻電路160接收後轉換為音頻數據,再將音頻數據輸出處理器180處理後,經RF電路110以傳送給比如另一終端,或者將音頻數據輸出至存儲器120以便進一步處理。音頻電路160還可能包括耳塞插孔,以提供外設耳機與終端1000的通信。
WiFi屬於短距離無線傳輸技術,終端1000通過WiFi模組170可以幫助用戶收發電子郵件、瀏覽網頁和訪問流式媒體等,它為用戶提供了無線的寬頻網際網路訪問。雖然圖10示出了WiFi模組170,但是可以理解的是,其並不屬於終端1000的必須構成,完全可以根據需要在不改變發明的本質的範圍內而省略。
處理器180是終端1000的控制中心,利用各種接口和線路連線整個手機的各個部分,通過運行或執行存儲在存儲器120內的軟體程式和/或模組,以及調用存儲在存儲器120內的數據,執行終端1000的各種功能和處理數據,從而對手機進行整體監控。可選的,處理器180可包括一個或多個處理核心;可選的,處理器180可集成套用處理器和調製解調處理器,其中,套用處理器主要處理作業系統、用戶界面和應用程式等,調製解調處理器主要處理無線通信。可以理解的是,上述調製解調處理器也可以不集成到處理器180中。
終端1000還包括給各個部件供電的電源190(比如電池),優選的,電源可以通過電源管理系統與處理器180邏輯相連,從而通過電源管理系統實現管理充電、放電、以及功耗管理等功能。電源190還可以包括一個或一個以上的直流或交流電源、再充電系統、電源故障檢測電路、電源轉換器或者逆變器、電源狀態指示器等任意組件。
儘管未示出,終端1000還可以包括攝像頭、藍牙模組等,在此不再贅述。具體在該實施例中,終端1000的顯示單元是觸控螢幕顯示器,終端1000還包括有存儲器,以及一個或者一個以上的程式,其中一個或者一個以上程式存儲於存儲器中,且經配置以由一個或者一個以上處理器執行。所述一個或者一個以上程式包含用於執行以下操作的指令:獲取第一時間,第一時間為待重錄人聲片段的起始時間;根據第一時間,播放已錄製的第一人聲片段,第一人聲片段以第一時間為結束時間;當到達第一時間時,採集用戶的第一人聲數據,得到第二人聲片段;對第一人聲片段和第二人聲片段進行處理,得到重錄音頻檔案。
假設上述為第一種可能的實施方式,則在第一種可能的實施方式作為基礎而提供的第二種可能的實施方式中,終端的存儲器中,還包含用於執行以下操作的指令:該方法還包括:在播放已錄製的第一人聲片段的過程中,採集用戶的第二人聲數據,得到第三人聲片段;將第二人聲片段和第三人聲片段作為本次錄製的人聲片段。
假設上述為第二種可能的實施方式,則在第二種可能的實施方式作為基礎而提供的第三種可能的實施方式中,終端的存儲器中,還包含用於執行以下操作的指令:對第一人聲片段和第二人聲片段進行處理,得到重錄音頻檔案,包括:獲取第一人聲片段對應的第一音譜,並獲取第二人聲片段對應的第二音譜;從第一音譜中,獲取平穩起始點及平穩起始點對應的第二時間;從第二音譜中,獲取上升起始點及上升起始點對應的第三時間;以第二時間為起始時間,從本次錄製的人聲片段中選取第四人聲片段;以第三時間為結束時間,從上次錄製的人聲片段中選取第五人聲片段,上次錄製的人聲片段包括待重錄人聲片段和第一人聲片段;對第四人聲片段和第五人聲片段進行處理,得到重錄音頻檔案;其中,第二時間早於第一時間,第一時間早於第三時間。
假設上述為第三種可能的實施方式,則在第三種可能的實施方式作為基礎而提供的第四種可能的實施方式中,終端的存儲器中,還包含用於執行以下操作的指令:對第四人聲片段和第五人聲片段進行處理,得到重錄音頻檔案,包括:將第四人聲片段對應的音譜和第五人聲片段對應的音譜進行比對;從第四人聲片段對應的音譜中,獲取第一目標音譜,並從第五人聲片段對應的音譜中,獲取第二目標音譜,第一目標音譜和第二音譜具有相同的起始時間和結束時間;對第一目標音頻和第二目標音譜進行擬合,使得第四人聲片段和第五人聲片段拼接在一起,得到重錄音頻檔案。
假設上述為第四種可能的實施方式,則在第四種可能的實施方式作為基礎而提供的第五種可能的實施方式中,終端的存儲器中,還包含用於執行以下操作的指令:該方法還包括:在播放已錄製的人聲片段及錄製人聲片段的過程中,播放相應的伴奏檔案。
該發明實施例提供的終端,無需將音譜檔案錄製多次,通過播放待重錄人聲片段之前的人聲片段,使得用戶在重新錄製待重錄人聲片段時,能夠聆聽之前所錄製的人聲片段,以調整氣息、與麥克風的距離、音色等,基於採集到的歌唱數據,移動終端剪輯、拼接得到的音頻檔案聽感較佳,聽者察覺不出拼接的痕跡。
該發明實施例還提供了一種計算機可讀存儲介質,該計算機可讀存儲介質可以是上述實施例中的存儲器中所包含的計算機可讀存儲介質;也可以是單獨存在,未裝配入終端中的計算機可讀存儲介質。該計算機可讀存儲介質存儲有一個或者一個以上程式,該一個或者一個以上程式被一個或者一個以上的處理器用來執行音頻檔案的重錄,該方法包括:獲取第一時間,第一時間為待重錄人聲片段的起始時間;根據第一時間,播放已錄製的第一人聲片段,第一人聲片段以第一時間為結束時間;當到達第一時間時,採集用戶的第一人聲數據,得到第二人聲片段;對第一人聲片段和第二人聲片段進行處理,得到重錄音頻檔案。
假設上述為第一種可能的實施方式,則在第一種可能的實施方式作為基礎而提供的第二種可能的實施方式中,終端的存儲器中,還包含用於執行以下操作的指令:該方法還包括:在播放已錄製的第一人聲片段的過程中,採集用戶的第二人聲數據,得到第三人聲片段;將第二人聲片段和第三人聲片段作為本次錄製的人聲片段。假設上述為第二種可能的實施方式,則在第二種可能的實施方式作為基礎而提供的第三種可能的實施方式中,終端的存儲器中,還包含用於執行以下操作的指令:對第一人聲片段和第二人聲片段進行處理,得到重錄音頻檔案,包括:獲取第一人聲片段對應的第一音譜,並獲取第二人聲片段對應的第二音譜;從第一音譜中,獲取平穩起始點及平穩起始點對應的第二時間;從第二音譜中,獲取上升起始點及上升起始點對應的第三時間;以第二時間為起始時間,從本次錄製的人聲片段中選取第四人聲片段;以第三時間為結束時間,從上次錄製的人聲片段中選取第五人聲片段,上次錄製的人聲片段包括待重錄人聲片段和第一人聲片段;對第四人聲片段和第五人聲片段進行處理,得到重錄音頻檔案;其中,第二時間早於第一時間,第一時間早於第三時間。
假設上述為第三種可能的實施方式,則在第三種可能的實施方式作為基礎而提供的第四種可能的實施方式中,終端的存儲器中,還包含用於執行以下操作的指令:對第四人聲片段和第五人聲片段進行處理,得到重錄音頻檔案,包括:將第四人聲片段對應的音譜和第五人聲片段對應的音譜進行比對;從第四人聲片段對應的音譜中,獲取第一目標音譜,並從第五人聲片段對應的音譜中,獲取第二目標音譜,第一目標音譜和第二音譜具有相同的起始時間和結束時間;對第一目標音頻和第二目標音譜進行擬合,使得第四人聲片段和第五人聲片段拼接在一起,得到重錄音頻檔案。假設上述為第四種可能的實施方式,則在第四種可能的實施方式作為基礎而提供的第五種可能的實施方式中,終端的存儲器中,還包含用於執行以下操作的指令:該方法還包括:在播放已錄製的人聲片段及錄製人聲片段的過程中,播放相應的伴奏檔案。
該發明實施例提供的計算機可讀存儲介質,無需將音譜檔案錄製多次,通過播放待重錄人聲片段之前的人聲片段,使得用戶在重新錄製待重錄人聲片段時,能夠聆聽之前所錄製的人聲片段,以調整氣息、與麥克風的距離、音色等,基於採集到的歌唱數據,移動終端剪輯、拼接得到的音頻檔案聽感較佳,聽者察覺不出拼接的痕跡。
該發明實施例中提供了一種圖形用戶接口,該圖形用戶接口用在音頻檔案的重錄終端上,該執行音頻檔案的重錄終端包括觸控螢幕顯示器、存儲器和用於執行一個或者一個以上的程式的一個或者一個以上的處理器;該圖形用戶接口包括:獲取第一時間,第一時間為待重錄人聲片段的起始時間;根據第一時間,播放已錄製的第一人聲片段,第一人聲片段以第一時間為結束時間;當到達第一時間時,採集用戶的第一人聲數據,得到第二人聲片段;對第一人聲片段和第二人聲片段進行處理,得到重錄音頻檔案。
該發明實施例提供的圖形用戶接口,無需將音譜檔案錄製多次,通過播放待重錄人聲片段之前的人聲片段,使得用戶在重新錄製待重錄人聲片段時,能夠聆聽之前所錄製的人聲片段,以調整氣息、與麥克風的距離、音色等,基於採集到的歌唱數據,移動終端剪輯、拼接得到的音頻檔案聽感較佳,聽者察覺不出拼接的痕跡。
需要說明的是:上述實施例提供的音頻檔案的重錄裝置在重錄音頻檔案時,僅以上述各功能模組的劃分進行舉例說明,實際套用中,可以根據需要而將上述功能分配由不同的功能模組完成,即將音頻檔案的重錄裝置的內部結構劃分成不同的功能模組,以完成以上描述的全部或者部分功能。另外,上述實施例提供的音頻檔案的重錄裝置與音頻檔案的重錄方法實施例屬於同一構思,其具體實現過程詳見方法實施例,這裡不再贅述。

榮譽表彰

2021年11月,《音頻檔案的重錄方法及裝置》獲得第八屆廣東專利獎銀獎。

相關詞條

熱門詞條

聯絡我們