トピック
コマさん ko.ro.55-ma2

音声認識プログラム制作拠点! 

参加者募集中です! 協力したい人は、コメントに書いてください。 こうしたらいいんじゃないか、などのアドバイスもどうぞ!
26そうだね
プレイ済み
返信[1]
親投稿
トピありがとうございます! とりあえず最初の工程としては、 1.人がある程度集まってくるのを待つ 2.集まった人の中で役割を明確にする という2つのことが重要ですかね。 とりあえず待ってみましょうかw
1そうだね
プレイ済み
返信[2]
親投稿
てな訳で、早速一人スカウトして来ました。来てくれるかは分からないけど…。 どうせなら音声認識プログラムにイメージキャラクターを作ってやろうと思って、イラストが超絶上手い人に声をかけてきました。
1そうだね
プレイ済み
返信[3]
親投稿
ことは 233788
呼ばれて飛び出てわんわんおー! (´·ω·`)
3そうだね
プレイ済み
返信[4]
親投稿
ことは 233788
髪型と髪の色とオプション(ヘアピンとかそういうの)と服考えてほしい。
3そうだね
プレイ済み
返信[5]
親投稿
コマさん ko.ro.55-ma2
絵心のありそうなΧαρα'law3γさん 僕は、絵のセンス皆無なので、どうしたらいい感じか、考えてもらっても、いいですか? ごめんなさい。 お願いします。
2そうだね
プレイ済み
返信[6]
親投稿
そうですね… まずキャラクターをどんな感じにするかにもよりますが…。まぁ音声認識っていったらsiriのような清楚な感じですよね。生徒会長みたいなキャラクター。 とすると、オプションにメガネとか。 髪については、自分はロングヘアーよりもショートカットの方が好みなので、ショートカットでお願いします(( 服は…どうしようか。
2そうだね
プレイ済み
返信[7]
親投稿
よし、提案。 こうなったら、音声認識プログラムをシリーズ化しちゃいましょう。基幹システムは全て統一して、語尾やキャラクターを変更。もし喋らせるのだったら、声質も変更。 元気な感じとか、清楚な感じのとかそれぞれ違った印象のプログラムを作る。 そしたらキャラクターに迷う必要はなくなるっ!イェーイ
3そうだね
プレイ済み
返信[8]
親投稿
コマさん ko.ro.55-ma2
なるほど!
2そうだね
プレイ済み
返信[9]
親投稿
詳細な服とかの設定はまた後で話合って決めましょうか。まだ構想ができてないですからね…。 t k 誰 も 米 残 し を し な い やはり音声認識となると相当な技術がいるからかなぁ… 残り米数9です。
2そうだね
プレイ済み
返信[10]
親投稿
えーっと、まず始めにハッキリしておきますと…。 まずですが、自分は書籍がら得る理論なら分かります。理論なら。用語等もある程度理解はできます。 …ですが、複雑なプログラムを書けないし読めません。当然数式とかもわからないし…。 ですから、プログラムについては全てお任せしちゃうことになります。ごめんなさいorz
2そうだね
プレイ済み
返信[11]
親投稿
つばさ☆ nsm2116
なにかとマイクを裏で勉強したりポチポチ打ってるし気になるので参加。
2そうだね
プレイ済み
返信[12]
親投稿
つばさ☆ nsm2116
つまり米残!
2そうだね
プレイ済み
返信[13]
親投稿
nobu divine-creator
音声認識とボカロは別のプロジェクトになるの?(共通している部分があるみたいだけど…。)
5そうだね
プレイ済み
返信[14]
親投稿
つばさ☆ nsm2116
音声認識か... マイク受け付け→受け付けたデータから分析→そこからいろいろ..
2そうだね
プレイ済み
返信[15]
親投稿
つばさ☆ nsm2116
とりあえず認識すればあとは簡単か気がする。
2そうだね
プレイ済み
返信[16]
親投稿
音声認識には複雑な工程が必要ですが、簡略化して説明すると、 話者発声→音声分析、特徴抽出→特徴レベルの正規化、適応化→距離、類似度→ロバストマッチング→言語処理 で認識結果を出す、という感じです。上だと一方方向ですが、さらに分岐したりするので複雑です。
3そうだね
プレイ済み
返信[17]
親投稿
つばさ☆ nsm2116
えげつない量の波形データ用意して照らし合わせとか...
1そうだね
プレイ済み
返信[18]
親投稿
GUIとか作りたぁい。マイク関連全くわからんけどそういうプログラムのデザインしたい。いい?
3そうだね
プレイ済み
返信[19]
親投稿
つばさ☆ nsm2116
コピペ 音声の指標を作るのであれば「耳で聞いた感じ」を再現するのがよかろう と誰かが考えました。 耳はどんなふうに音を聞いているのかということですが、 音の高さごとに聞いているっぽいということが、 いわれています。 というわけで、 まずは、あの「音声波形」を「音の高さ」ごとに表してみよう と考えます。 音の高さごとに表す方法はいろいろとありますが、 「フーリエ変換」という方法 なんか話から外れたかも
1そうだね
プレイ済み
返信[20]
親投稿
つばさ☆ nsm2116
ちょっとした詰め役?みたいなのでよろしくです。(とか言って全然できなかったらすみませぬ。あと今3DS内ない
3そうだね
プレイ済み
返信[21]
親投稿
話者は、脳内で文(w)を考えて、口から音声波形(s)を生成します。(s)には、話者個人の話し方の差や雑音等か含まれています。 認識システムの音声処理部は音声波形の分析、変換を行って、短時間スペクトル等の時系列データ(y)を出力します。 認識システムの言語復号部は、送信文の推定値として(wの上に^がついたやつ)を出力します。この時、事後確率P(w|y)が最大になるように推定します。 P(w|y)を直接求めるのは難しいので、ベイズ則によって次式を満たすように推定します。
2そうだね
プレイ済み
返信[22]
親投稿
画像参照。 ここで、P(y)は、wには無関係なので無視できます。P(y|w)は音響モデルによって得られ、文 wが発生される事前確率P(w)は言語モデルによって得られます。つまり、音声認識システムを作るのに重要なポイントは、 P(w)をどうやって計算するか、つまり、音響モデルと言語モデルをどう作るかが重要!!
2そうだね
プレイ済み
返信[23]
親投稿
[音声認識を作る為にに必要なこと(個人の考え)] まず、音声認識の分類を知っておくといいかも。主に、認識対象の声による分類、対象話者による分類がある。 それから、どんな人が、どんな環境で使うのかを考える。人によってはごもごも喋って聞き取りにくいかもしれないし、環境によっては雑音が入る。そこを考えて、ハッキリさせる。 それから、音声認識で使うたくさんの技術のなかで、必要な技術を決める。上でハッキリさせた問題に対応できる技術を使って作る。さらに、プチコンの処理速度とかも考えなきゃいけない。 これらをまず最初の課題として考えてみるといいかもしれない。
1そうだね
プレイ済み
返信[24]
親投稿
inoue 624zzxy
こんなのが、プチコン三号で、処理できるのか?
2そうだね
プレイ済み
返信[25]
親投稿
SilverBlue Corei72630QM
UIを 作りたい 銀青が 勝手に 駆けつけた!▼
2そうだね
プレイ済み
返信[26]
親投稿
だにえる haru2016nen
とりあえず、こめのこ
2そうだね
プレイ済み
返信[27]
親投稿
bはかせ kojimadaiti
すごい人達のすごい会話を聞きたいので観戦
6そうだね
プレイ済み
返信[28]
親投稿
同じく観戦のため米残し
2そうだね
プレイ済み
返信[29]
親投稿
inoue 624zzxy
凄い方々の、会話を観戦中です。
3そうだね
プレイ済み
返信[30]
親投稿
今までで決定している事項、分かっていることをとりま明確にしておく。 [我々のやろうとしていること] 音声認識システム及び合成音声に関してプチコン上で再現する為の研究、及びそれらを応用した実用的システム開発を行う。 [その為に必要なこと] ・人材の募集。技術的な面、デザイン的な面、その他の面から様々な人の協力が必要。 ・役割を明確にしておくこと。協力をする際は、必ず個人個人のやるべきことを明確にしておかないと後々齟齬が発生して計画が上手くいかない可能性がある。 [それらの公開に関して] 作製された音声認識システムを基幹として、システムが返答する時の語尾や、イメージキャラクター等を変更した様々なバージョンを作製、シリーズ化する。 ここまではおk?
3そうだね
プレイ済み
返信[31]
親投稿
czrandomad DAIKI0330DAIKI
便乗して観戦しますね。 狐目之戸
1そうだね
プレイ済み
返信[32]
親投稿
コマさん ko.ro.55-ma2
やることの整理ありがとうございます! たくさんやることが、ありますが、まぁ、気長に頑張りましょう!
2そうだね
プレイ済み
返信[33]
親投稿
米残しておきます。 かてない(確信)
1そうだね
プレイ済み
返信[34]
親投稿
かおなし SYO-YU-KOTO
関係無いけど音声認識の次は手書き入力やってみたいと思った(小並感) コメ残
3そうだね
プレイ済み
返信[35]
親投稿
Soybeanman 2013niconico
プチコンでこれが、出来たら革命レベル コメント残し。
1そうだね
プレイ済み
返信[36]
親投稿
れい rei-nntnd
母音までは比較的簡単に(処理内容や処理時間的な意味で)できると思うよ。 周波数解析して、倍波の強度測れば9割くらいいける。 子音はきつい。文脈解析とかやれば精度あがるはずだけど厳しいし。 とりあえず母音解析までを目安にやるのでいいのでは。
4そうだね
プレイ済み
返信[37]
親投稿
まず、音声認識システムを作るにあたって最初に確率すべき最重要課題があります。 それは、音声区間の検出です。雑音がある環境下で音声区間を検出するのは簡単ではないです。ここがしっかりできていないと、認識率の低下と結び付く可能性が高く、超重要なのです。 音声区間の認識には、主に一定のしきい値以上の短時間パワーが一定以上継続したかどうかによって判断する方法が用いられます。 雑音が定常で、SNRが大きければこれで対処できるっぽいですが、実用する為にせき払いや他人の声も棄却できることが望まれます。 この不要音と認識対象音の区別は音声認識の問題で、完全なアルゴリズムの実現はほぼ不可能らしいです。
2そうだね
プレイ済み
返信[38]
親投稿
かおなし SYO-YU-KOTO
SIRIのちからってすげー!
4そうだね
プレイ済み
返信[39]
親投稿
そこで考えだされた方法。 「認識する音あるんじゃね?と思われるところを長めに抽出して、音声のモデルの前後に雑音つけちゃって認識すればいいんじゃね?」 いやぁ天才ですぁ。どうしたらこういう思考になるかが分からん… れいさんの言う通り、母音の認識は容易かも。とりあえず「あいうえお」の認識を目標にして計画を遂行することを提唱しやす。
2そうだね
プレイ済み
返信[40]
親投稿
HRT-86_にでら mijuharuto
面白そうなのでコメ残
1そうだね
プレイ済み
返信[41]
親投稿
さて。どうしようか。
1そうだね
プレイ済み
返信[42]
親投稿
お米残し
1そうだね
プレイ済み
返信[43]
親投稿
ショー syo0918syo
面白そうなのでコメ残し
1そうだね
プレイ済み
返信[44]
親投稿
明日休みだから、ある程度進められるかも。 というか米残数すげぇ。
3そうだね
プレイ済み
返信[45]
親投稿
↑って思ってたら誰もこないっていうね。うん。
1そうだね
プレイ済み
返信[46]
親投稿
コマさん ko.ro.55-ma2
確かに、、、
0そうだね
プレイ済み
返信[47]
親投稿
SilverBlue Corei72630QM
過疎
3そうだね
プレイ済み
返信[48]
親投稿
作っていいなら作るよ(アイコンとか画面デザイン
1そうだね
プレイ済み
返信[49]
親投稿
っていうか自分こまざさんたち2人がコメントするの待ってた
1そうだね
プレイ済み
返信[50]
親投稿
SilverBlue Corei72630QM
おわたずさんがいいならSP作るよ(Aero風
2そうだね
プレイ済み
返信[51]
親投稿
コマさん ko.ro.55-ma2
ごめんなさい!! コメント多くて、反応できていなかったようです。 オワたずさん 作っていいですよ! むしろ、歓迎です!
0そうだね
プレイ済み
返信[52]
親投稿
ところでマイクは常にオンに(返答している時は除く)するんですか?それとも使っている人が特定の操作(アイコンをタッチする等)をしたらオンにする感じですか?
1そうだね
プレイ済み
返信[53]
親投稿
aeroいいね。(b°∀°)b MICは使うときだけだろうなぁ。
2そうだね
プレイ済み
返信[54]
親投稿
SAKURAmoti ouga409
凄い!!!!皆さんレベルが高過ぎます! いやいや、勉強になるので、見させていただきます!
2そうだね
プレイ済み
返信[55]
親投稿
明日はアマチュア無線技師無線従事者免許の講習に行ってくるのでコメできません。
1そうだね
プレイ済み
返信[56]
親投稿
コマさん ko.ro.55-ma2
音声認識プログラム ver.0.1β できました! 【内容】 ・まだ、「あ」「い」「う」「え」「お」しか、認識できません。 ・しかも、1文字...!
2そうだね
プレイ済み
返信[57]
親投稿
コマさん ko.ro.55-ma2
【使い方】 1.「SR4_9」を実行! 2.「あ」と、表示されたら、Aボタン! 3.カウントダウン! 3 2 1 START! 4.1秒間、表示された文字を、声に出してください! 5.少し待ってください。 解析中...... 6.グラフがたくさん! 7.左上に、数字が表示されて、その下に「い」と、表示されます。 8.2に戻ります。 9.これを、5回繰り返して、データをセーブ!
1そうだね
プレイ済み
返信[58]
親投稿
コマさん ko.ro.55-ma2
10.今度は、「SR_MAIN1_3_16」を、実行! 11.即カウントダウン! 3 2 1 START! 12.「あ」~「お」のどれかを、声に出してください! 13.数字が表示されたら、Aボタン!! 14.待つ! 解析中...... 15.最後に表示された、文字が、認識した文字です!
1そうだね
プレイ済み
返信[59]
親投稿
コマさん ko.ro.55-ma2
公開キー忘れてしまった! 公開キー:25V37KQE
2そうだね
プレイ済み
返信[60]
親投稿
お疲れ様です! とりまDLしてみますね。 今後の展開としてはこのプログラムを改造、飛躍していくという感じでしょうか。 ちなみにプログラム読めないので、どういうアルゴリズムで作られているのか教えてほしいです。
2そうだね
プレイ済み
返信[61]
親投稿
コマさん ko.ro.55-ma2
ちなみに、プレイ日記の方にも投稿しました!!
2そうだね
プレイ済み
返信[62]
親投稿
コマさん ko.ro.55-ma2
アルゴリズムは、メル周波数ケプストラム係数(MFCC)とかいうものを使っています! 1.プリエンファシスフィルタで波形の高域成分を強調する 2.窓関数をかけた後にFFTして振幅スペクトルを求める 3.振幅スペクトルにメルフィルタバンクをかけて圧縮する 4.上記の圧縮した数値列を信号とみなして離散コサイン変換する 5.得られたケプストラムの低次成分がMFCC だそうです。この方法で、うまいことしています!
3そうだね
プレイ済み
返信[63]
親投稿
bはかせ kojimadaiti
凄い人たちの凄い会話が聞けた 米残しして良かった っていうかすげぇぇぇ
3そうだね
プレイ済み
返信[64]
親投稿
おお、DCT使ってるのか! とりまアルゴリズムは理解した。 窓関数って WH(n)=0.54-0.46 cos[2nπ/N-1] WN(n)=0.5-0.5 cos[2nπ/N-1] どっち使った?それとも↑以外?
1そうだね
プレイ済み
返信[65]
親投稿
SilverBlue Corei72630QM
マジで作りやがった...!! この技術、本当に中1か疑うどころの話じゃないw
6そうだね
プレイ済み
返信[66]
親投稿
コマさん ko.ro.55-ma2
窓は、上(ハミング)です! ※プログラム314行参照
2そうだね
プレイ済み
返信[67]
親投稿
SAKURAmoti ouga409
凄すぎます!!
1そうだね
プレイ済み
返信[68]
親投稿
中2の俺には何を話しているのかわからん...
1そうだね
プレイ済み
返信[69]
親投稿
ごめんなさい、色々忙しくてコメントするの忘れてた…orz
1そうだね
プレイ済み
返信[70]
親投稿
コマさん ko.ro.55-ma2
音声認識プログラム ver.0.1 できました! 【内容】 ・まだ、「あ」~「こ」しか、認識できません。 ・しかも、1文字...! 【使い方】 0.1βほぼ同じです! ただ、SR6の 「a、i、u、e、o」は、「あ、い、う、え、お」と発音すればいいんですが、「k」は、「クッ」と短くいえばいいです! 【公開キー】 9323NX4X
1そうだね
プレイ済み
返信[71]
親投稿
コマさん ko.ro.55-ma2
0.1βほぼ同じです! ⇒ 0.1βとほぼ同じです!
2そうだね
プレイ済み
返信[72]
親投稿
コマさん ko.ro.55-ma2
書き忘れたけど、認識精度あまり良くないです!
2そうだね
プレイ済み
返信[73]
親投稿
pojy NIIGATA.NOHITO
りゅうきさん 覚えていらっしゃいますか?プチコン3号一旦やめておりました。すいません↓(°⇔°)↓
1そうだね
プレイ済み
返信[74]
親投稿
コマさん ko.ro.55-ma2
お、久しぶりですね! また、プチコンやりましょう!
0そうだね
プレイ済み
返信[75]
親投稿
コマさん ko.ro.55-ma2
あと、そろそろ閉じます!
1そうだね
プレイ済み