差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- information:tutorial:miku_69617 [2011/12/15 17:20]
mi 创建
+++ information:tutorial:miku_69617 [2011/12/15 18:16] (当前版本)
mi
@@ 行 1: / 行 1: @@
+<WRAP  round info 50%>
+**作者与出处**\\
+**作者：commando1945**\\
+[[http://bbs.ivocaloid.com/thread-69617-1-3.htmll]] \\
+[[http://bbs.ivocaloid.com/thread-71487-1-2.html]] \\
+[[http://bbs.ivocaloid.com/thread-74528-1-2.html]] \\
+[[http://bbs.ivocaloid.com/thread-74530-1-2.html]] \\
+[[http://bbs.ivocaloid.com/thread-74531-1-2.html]]</WRAP>
 ====== 初音未来汉语发音研究 ======
+——测试稿
+初音未来是一款人工合成音软件，声源藤田咲是一名日本女声优，自然使初音未来的声音带有日本发音的特点。尽管日语属于阿尔泰语系，而汉语属于韩藏语系汉语支，但是日语受汉语的影响是明显的。自然在发音上是具有共通性的。
+作为一名中国人，汉语是大家的母语，汉语歌曲也是最容易被理解的音乐表现形式，希望能利用初音未来制作汉语歌曲也就更是很多中国用户的选择。尽管汉语并不是初音未来的制作初衷，只是一个偏门，但是在中国的特殊背景下，还是具有它的独特意义的。
+我，commando1945,作为一名初音未来的软件爱好者，也仅仅了解初音未来大约一年，而是用也仅半年有余，才疏学浅。在编著本文时，虽然极尽驽钝之力，但不足之处，错误之处也是依然会有的。希望大家报以宽容的心态和共同进步的态度来批评我，提出宝贵的意见和建议，来完善初音未来的汉化。
+本文大致分为五课：基础与VEL、DYN＆BRI、PIT＆PBS、OPE＆GEN＆PRO、细节调整补充。文章将建立在具有一定VOCALOID2使用基础上撰写，如果您对VOCALOID2还不是非常了解，请先阅读基础教程。
+这里不得不补充的是初音未来演唱汉语歌曲的基础就是与汉语相仿的音频波形，注意只是相仿，所以真正意义上的汉语是无法实现的，这也就是为什么字幕或者说歌词对于汉语歌曲来说至关重要的原因，希望大家记住这一点。
+====== 基础与VEL ======
+首先衷心地感谢您对鄙人著文能力以及实践能力的信任，那么我们开始第一讲，基础与VEL。\\
+基础在这里包括三者，语言基础，乐理基础和PC基础。\\
+语言基础又包括日语基础，汉语基础。\\
+下面我将简要说明所需要达到的基础要求
+日语：\\
+、做到基本上了解日语，达到能流畅念下50音图为底限。\\
+、能准确记忆其每个发音在初音未来软件中的实际发声效果。这点可以花两个小时时间在软件上将50音一个一个进行测试，以确保留下清晰的印象。\\
+、至少要有10h以上的日语动漫观看或者音乐欣赏，以确保有足够的语言熟悉感。
+汉语：\\
+、普通话标准，这里的普通话再细分一下可以分成北方和南方，北方的卷舌音重于南方，而卷舌音是日语中所缺乏的，\\
+但是南方尤其是闽南语系又与汉语有很大差距，如果您的发音与真正的普通话还有一段距离，请您先练习好普通话再尝试，\\
+否则，您可以退出或者练习让初音唱方言。\\
+、熟悉中文的音阶知识，其实应该说是小学基础知识的。这些是汉化必须的知识点，如果没有，具体的发音就无法实现。在这里C希望大家无论如何都应 \\
+该先温故一下小学课本或者汉语基础教程，这样会使后期一路顺风的。\\
+、汉语听力能力要好，换言之就是要能接受近似发音带来的听力模糊感。\\
+注：喜欢粤语等的朋友，以上几条同样适用，只不过语言由汉语普通话换为粤语。\\
+以下是对乐理的基本要求：\\
+、识谱，无论是五线谱、简谱或者吉他的六线谱等等，您至少需要掌握其中之一。如果未达到，参见乐理基础教程。\\
+、有基本的乐理知识，比如节奏、音阶等等，教材同上。\\
+、乐感良好，节奏感良好。必要的时候是需要扒谱的。这个要靠个人训练，节拍器+乐器+悟性是王道。\\
+以下是对PC的基本要求：\\
+、了解计算机，了解软件，特指VOACLOID2。\\
+、至少掌握一款后期制作软件，例如Cool Edit, Sonar, Cubase,  FL等。\\
+、键盘适用灵活，有一定的速度。这个可以用打字练习，原则上每分钟汉字不少于40字。优秀者要在80字以上。（指现代非韵文。）\\
+如果您已达到以上的要求，那么恭喜您，您可以开始正式的调教了。
+下面我将讲解基础的发音\\
+正式由于日语与汉语有很多共通之处，所以发音也就变得相对容易，绝大多数的发音可以直接利用汉语拼音来完成，少数需要个人调整。这个每个人的感觉是不同的，自然没有定律可以加以约束，我也就不在此列出我个人的发音修改表。\\
+将基础的发音完成后，曲子会十分的呕哑嘲哳，这是很正常的，之后我们就需要对细节进行调整，下面开讲10参中的第一参数，VEL。
+**VEL，velocity，强度，数值越大音越短，感觉越像强拍。**\\
+对于重音节，VEL处就需要有所加强，例如在4/4拍中，就有强弱次强弱的规律，那么VEL的变化也要在一定程度上遵循，原则上强弱之间差20-30（具体情况具体对待），以强=60对待的话，弱一般也就=40，次强就=50了。\\
+下面小小的爆一下坑了很久的一首原创曲的片段\\
+{{:information:tutorial:69617q1.jpg?355x439}}\\
+这个可以意会吧？
+另外，VEL的一大作用就是使歌曲自然化。大家知道日语只有单元音a i u e o，但是汉语里面不仅有a o e i u ü，还有ai ei ao ou ia  ie iao iou ian in iang iong ua uai uan uen uang ueng üe üan ün an en ang eng ong  这些多元音。要让初音发好后者绝非易事，除了少数发音极短的可以通过合拼的方法来模拟外，长音会变得十分艰难，这时可以通过拆音的方式将两个元音拆开，并且可以相对弱化后者来达到模拟双元音，方法就是适度降低VEL，原则上VEL只要比前者低20左右就可以达到效果，特殊情况特殊对待。（还有一些补充细节将在以后提及，当然了，改VEL只是为了在听上感觉舒适一些，并不能真正意义上完全让声音不囧。）拆音会在以后详细的讲解。
+{{:information:tutorial:69617q2.jpg?263x410}}
+\\
+《快点告诉你》片段，有两种改法，注意看。\\
+{{:information:tutorial:69617q3.jpg?550x329}}
+\\
+《我们的爱》片段，同样有两种改法，合拼和拆音。
+====== DYN＆BRI ======
+====== 定义 ======
+**DYN：动态范围，影响音调的起伏**\\
+**BRI ：明亮度，增减高频泛音以控制声音亮度**
+**为什么要在这里集中地讲这两点呢？**\\
+**解答** \\
+这是声音在完成填词之后重要的修改，可以让歌声变得“**阴阳顿挫** ”。而能回忆起小学生活的人都知道，小学一年老师夸你朗读好，夸得最多的不是“**有感情**”，而是“**有节奏**> ”（不就是VEL嘛）和“**有顿挫** ”（亮点）？\\
+**本文给出这么多图片要做什么？**\\
+**解答**：\\
+当前DYN＆BRI的调教方法有很多种，最常见的有三中：
+  - **画斜线**
+  - **DOMINO调整DYN** （还有PIT，后面讲）
+  - **VOCALISTENER 调法**
+\\
+其中呢， ；第二种，用好了也是不错的调整方法；第三种，不建议使用，首先不是初学者能掌握的，其次没有软件可以教你，因为日本展业局不对外开放资源，最重要的是，我也没吃透，没办法加以评论，但是音效是绝对逼真的。\\
+下面就直接挂图来说斜线法：\\
+\\
+====== 斜线法 ======
+核心是以斜线工具为主，以铅笔工具为辅， ，力求模仿日本人说汉语的味道。\\
+（这里废话几句为什么我不模仿中国人说中国话，大家都知道， ，这点藤田咲也不例外。倘若强行地让她唱平音，换言之，DYN几乎保持直线，做出来的中文是十分别扭的，中不中，日不日，典型的例子，我曾经做过桜ノ雨的汉化，其中就是没有修改DYN的，结果你也能猜到。所以，为了能让声音更协调一些，至少不像是强扭的，目前最好的办法还是顺应MIKU的特点，来修改。）\\
+普通
+{{:information:tutorial:69617q4.gif?316x458}}
+\\
+重读：
+{{:information:tutorial:69617q5.gif?507x407}}\\
+\\
+高速：
+{{:information:tutorial:69617q6.gif?575x369}}
+\\
+收尾：\\
+{{:information:tutorial:69617q7.gif?492x486}}
+\\
+**详细的讲解**：\\
+普通时：以一个“字”为基本单位，划线，特殊情况例如拖音很长的话，按照收尾的画法来，**要做的就是找到每个句子里的重度音** （e.g.  我超越了科学的极限， 自己感觉哪个音适合重读就哪个音，这个随意了，不过貌似原版是突出了“科学”一词）见下图：
+{{:information:tutorial:69617q8.gif?485x408}}
+\\
+另外如果遇到了诸如**ang eng ing ong  发音，也需要将它 ，然后再一次划线** ，根据需要，分为同比例划线，半比例划线，略微三种。
+{{:information:tutorial:69617q9.gif?622x409}}
+\\
+重读时，大多类似于RAP这类的，技巧要求比较高，**新手往往可以考虑一笔直接__把DYN＆BRI滑到底__** 。   **稍微上手一些的人，可以考虑更细的拆分音节，__部分切到底__** 。 见图：
+{{:information:tutorial:69617q10.gif?457x472}}
+\\
+**高速时，任何语言的抑扬顿挫都会受到影响** ，便得相对平滑，因此切下的程度要适当减小，但这并不等于什么也不做，那样的声音听着有些扎耳。（例外：初音未来の消失，这个没有任何仔细调教的必要，你懂的。）见图：\\
+\\
+\\
+**收尾时，中文和日语是相仿的** ，都是先升后降，具体比例如何看自我感觉，没办法定义。\\
+PS：有一个小TIP，在每个发音结尾后，大多都是要恢复到基准值的，但是恢复是个过程，如果一次性切下而不恢复，会感觉音与音之间的连接性会大受影响。所以我的个人方案是在每个音结尾前的最后一点点处<del>（什么叫最后一点点，大致就是这个发音时长的组后5%处）</del> 就开始切下一个音。见图：\\
+\\
+\\
+下面粗略的讲一下斜线法画BRI，\\
+**汉语和日语相比，要宽阔明亮许多，而且声音的穿透性要好** （其实仔细听日本人说话和日本人唱歌就知道，声音要感觉宽阔了不少）\\
+所以中文调教也要大致遵循此原则\\
+普通：**以高系数为最常见，可以让声音的宽阔度提升不少** ，不必像DYN以字为单位，中文可以以词组为单位的。见图：
+{{:information:tutorial:69617q11.gif?443x444}}
+\\
+重读：__方法同DYN上的调法__ ，一笔切下力求语气的鉴定感。
+{{:information:tutorial:69617q12.gif?508x413}}
+\\
+高速时：__仍然是高系数，**只不过斜率不那么大** __ （<del>喂，应该是绝对值吧-  -</del> 、）了而已。
+{{:information:tutorial:69617q13.gif?616x378}}\\
+\\
+以上是画线法的基本原理，下面简单说说__DOMINO的调法__ FIXME 。\\
+DOMINO调教的相关软件不在本文介绍范围之内，高阶区有相关文章，建议看后在来看本文。\\
+先简单平价一下DOMINO的优缺点吧\\
+优点：**对于调教技艺精湛的人**，可以比较理想的恢复真人的感觉，无论是顿挫还是语调（涉及PIT）都很不错。而且很多地方可以复制着做，省时省力。\\
+缺点：**对于广大新手来说**，<del>这种“小山丘”可能把初音关在冷库里，似得了重感冒瑟瑟发抖，然后被置于舞台中央，望着台下成千上百万双期待的目光，哆嗦颤抖得唱不成样子（小子你活腻了？敢侮辱我家初音？PIA~），</del> 你懂的。\\
+调教方法：从略（网上有相关资料的）\\
+普通：\\
+这里只是提一句话，__**上升的少，下沉的多**__ 。自己感悟吧。\\
+\\
+重读：类同于划线法\\
+\\
+高速：\\
+这里的高速也是类同于划线法的。
+{{:information:tutorial:69617q15.jpg?539x468}}\\
+\\
+最后用3句话的篇幅说一下**VOCALISTENER的解决方案** ：（第一句）\\
+通过对真人人声大量、仔细的研究（<del>什么叫大量？估计拓展下来几个TB的文件量吧？呵呵</del> ）（第二局）\\
+以及个人的悟性，发挥吧。（别喷我，真的。）
+{{:information:tutorial:69617q16.gif?541x314}}
+{{:information:tutorial:69617q17.gif?485x395}}
+\\
+PS：这里讲一下DYN一个小技巧：__**在汉化里很多囧音其实是可以通过压低DYN和BRI来实现一定程度的缓和的** __
+见图：
+{{:information:tutorial:69617q18.gif?196x480}}
+====== 滑音参数（PIT、Pitch Bend） ======
+数值越高，实际输出的音高会比输入的高；反之则越低。可用作音高调整。作用与电子琴上的“滑音轮（Pitch bend  wheel）”相同。参数范围为-8192~+8191，对应滑音的音高变化为“从降低到升高PBS个半音（PBS是滑音范围）”，参数为0代表没有滑音。
+参数每变化1300，则音调增加1（通俗的讲就是增高1300数值，则音调就可以由do提升至re）。这里可以用来修正软件自带颤音的不和谐处。DOMINO调法即采用该解决方案。
+中文有平上去入的说法
+在这里同样适用。
+根据适当的需要，往往以1300<nowiki>*</nowiki>5为一个变动范围。
+适度地根据音调的原则，可以修改旁白（详细地规则可以参考小学课本，不忍心者可以参考高中语文选修——语言与文字应用。）
+====== 滑音范围（PBS、Pitch Bend  Sensitivity） ======
+该参数控制滑音的最高和最低音高，参数范围为1~24（默认为2），与PIT共同决定音高变化，音高变化的具体计算公式为PitchBend  = (PIT<nowiki> *</nowiki> PBS) / 8192，单位是半音（semi-tone）。
+这里的PBS主要是用来辅助PIT修正语气。
+语气包括肯定句语气、否定句语气、疑问句语气和其他特殊情况下的语气。
+肯定句语气，声音一直为“平”的，直到最后降调，在这里适当降低PIT。PBS可以不做调整。
+在否定句中需要找到否定词，在否定词处将PBS从2降低到1，即可达到否定语气。
+在疑问句语气中，结尾与肯定句相反，PIT需要增加，根据语气的不同而改变，当表示强烈的疑问语气时，可以提高PBS到5以内，以达到预期的效果。
+（以上在速度较快的歌曲中可以忽略不计）
+PS:  如果还有不懂之处,可以参考子夜发布的KAITO向调教中的相关调整。
+**滑音速度（POR、Portamento Timing）**
+该参数决定两个不同音高的连续音符之间的音高变化速度（比如从do变成mi，音高不是瞬间变到mi，而是逐渐变过去的），参数范围为0-128，数值越高音高变化速度越慢。基础值64。
+在实际应用中，主要用于连接句子里的词语。因为在说话时每个字发音所用的时间是不一样的，例如“我是中国人。”一句话中，若强调国籍，则“中国人”三个字的发音时长远远长于“我是”，我所常常使用的解决方案是将“我是”整体降低，“中国人”之间提高。
+另外，这个系数也可以用来修改多元音间的衔接问题，尤其是辅音+第一个元音和第一个元音+第二个元音之间的“强硬”感。图像为负斜率较大的一次函数，变化值根据两个音口型之间的衔接难度而定，例如“看”/k  a n/中/k/与/a/之间就需要适度降低，而/a/与/n/之间则需要适度提高。
+重要提示：在实际使用中，会发现这样一种现象：明明某个发音看起来还没有全部完成（我指的是时值格的长度），随后的音就已经开始了。这很正常，也是VOCALOID软件的价值所在，也是你调整POR的价值所在。
+====== 性别参数（GEN、Gender  Factor） ======
+影响声音的结构。数值越高，男性的感觉越强；越低，则变成女性甚至幼儿的声音。如大量提升或降低数值，可以和原本的声音完全不同。
+浮动范围0-128实际上，在真正人声的发生中，随着音调的升高，人自身的GEN系数也会递增。但是值得注意的是，GEN系数不仅可以用来改变声库的特点，例如模拟：儿童（30-40）、少儿（45-50）、青年（50-70）、成年人（70-90）。真人说话时发出i、e之类音时，GEN系数会向下少量波动，而发出-ng、n音时会适度提升。所以这里也需要根据不同的情况酌情修正。
+重要提示：以上参数仅适用于V2  MIKU，其他声库未必符合。基准值64，也就符合了绝大多数16岁少女的发音。
+====== 口的开合度（OPE、Opening） ======
+以改变音色来模拟开合度。数值越高，清彻感越强；越低，则越模糊。降低数值和配合力度参数可有效修补爆音。
+这个系数的波动范围也是0-128，基础值为128。在实际使用中，变化较多。仅由a、o、e、i、u、ü就可知a口型最大，i、ü小。修正图像同样为斜率为负的一次函数。只是图像是分段函数，逐次降低。
+另外这个系数可以用来修正没有的后鼻音的声库（例如日文声库）。方法是在完成单个前鼻音发音字之后，将系数快速降低，并且保持至单音结束，可以在一定程度上拟合后鼻音。当系数降低更多后，甚至可以用来模拟人感冒后的语气。
+重要的提示：即使是这样的方法，听到的后鼻音还是很古怪的，介乎于前后鼻音之间，类似于某些地方方言里的后鼻音。（话说前两天刚刚在那个电视台上看到的-  -、）
+====== 呼吸声（BRE、Breathiness） ======
+数值越高，气声则会越大。
+这个数值改变的是人说话的进气量，可以用来模拟人说话的喘气感。一般以句为单位经行修改，小范围内浮动。另外，该系数大致上每30个单位值为一个界限，产生不同程度的沙哑感。
+====== 透明感（CLE、Clearness） ======
+与明亮感相似但改变声质的原理不同。数值越高，清彻感越强；越低，则越低沉。
+该系数主要用以修正中文快速发音时，软件衔接性不理想的问题。例如有多元音的字中，第一个元音与第二个元音之间的CLE参数就要适当降低，（假定基准值10，软件原始参数为0，变化范围0-128）。另外在遇到单元音时应相应增大系数，使得声音干净、清脆。
+另外，模拟沙哑的语音时，该系数整体上需要提高10-20。
+重要提示：看到以上两个参数的同志们千万要注意，这种沙哑感和kz大师的沙哑不是一种，kz的沙哑感来自于AU的后期处理。呃。。好吧我自重-  -、
+====== 呼吸声 ======
+分为五个阶段br1-5(呼吸感逐渐递增)。
+Br1  时，修改DYN瞬间由强变弱，感觉就像是突然喘息一样。
+Br2-4  ，呼气逐级递增，感觉越像深呼吸。
+BR5  时，修改DYN系数由0递增道所需的最大值，之后保持呼吸全长的1/5，然后降低几乎为零，之后用最后3/5快速递增到吸气时的半音，缓慢递减。感觉就像是深深地吸了一口气后缓缓地吐出。
+相关视频，可以参考鄙人曾经的视频教程。
+====== 颤音 ======
+颤音包括软件自带的颤音效果和人工修饰的颤音效果（即调整PIT和PBS）。
+软件自带的颤音效果包括多种颤音模式，包括先平后颤、先颤后平、急促颤音、缓慢颤音等等。这些模板在短时长的颤音中很有效。但是遇到持续时间较长的颤音，就必须通过自己修改其模板来实现。
+====== 舞台位置 ======
+基于双声道立体声、5.1、7.1音效，可以通过修改左右声道声音的分配比例来使人感觉到人物在舞台的左右感。
+另外，可以通过修改延时，即每个音“回声”持续的时间来模拟小房间、大房间、舞台、旷地，并且可以给人以人物的方位感，修改人物的前、中、后。（至于卧室、操场、办公室等具体场所的音效，则可以通过相关专业的音频后期软件来实现，例如SONAR、Cubase来完成）。
+====== 歌手切换 ======
+软件只是一个用来镶嵌声音的模板，而声库则是声音发出的基础。在适当的时候切换歌手（确切的讲是说话者），可以给人带来多种音色的感觉。该功能的丰富性直接取决于本机声库安装量的多少。

VocaWIKI

用户工具

站点工具

差别

页面工具