探検


【音声合成】テキスト読み上げソフト総合4【SAPI5】

■ このスレッドは過去ログ倉庫に格納されています
2014/07/05(土) 18:33:28.25ID:H/+Y+wgB0
音声読み上げソフトは、革命的にメチャメチャ便利!!
2ちゃんねるのスレを、まるでラジオのように音声で聞いてみませんか?

パソコンに文章を読ませることで、目が疲れず
よりたくさんのネット上の情報をPCから引き出すことができます。

吉野家などのあのゴルゴのFLASHも読み上げソフトを利用しているそうです。
すでに利用している方や、知らない人の情報交換の場所にしたいと思います。

前スレ
テキスト読み上げソフトで、スレを音声で"聞こう"♪
http://pc8.2ch.net/test/read.cgi/software/1044447073/
テキスト読み上げソフトで、スレを音声で聞こう 2
http://pc11.2ch.net/test/read.cgi/software/1119069271/
テキスト読み上げソフトで、スレを音声で聞こう 3
http://anago.2ch.net/test/read.cgi/software/1237942114/
【音声合成】テキスト読み上げソフトスレ【SAPI5】
http://anago.2ch.net/test/read.cgi/software/1327406463/
488名無しさん@お腹いっぱい。
垢版 |
2016/06/18(土) 11:12:49.01ID:vbUB/lMm0
>>487
お、調度良い所に
ゆっくり、AquesTalkや、Harukaはちゃんと1人を『ヒトリ』と読むね、あえて教育するなら

(^|[^\d])1人([^一-龠々]|$)
$1ヒトリ$2
(^|[^〇一七万三九二五億兆八六十千四百])一人([^一-龠々]|$)
$1ヒトリ$2
この2つがあればいいんじゃない?

1人で外出
101人の
21人
何一人でほっつき歩いているんだ
↑問題ないね
489名無しさん@お腹いっぱい。
垢版 |
2016/06/18(土) 11:15:17.35ID:vbUB/lMm0
万一人がいても大丈夫
万一人間が
第一人手不足でも
↑Harukaで読む場合、これらが厄介だね
『だいいち〜、まんいち〜、だいたい〜』って文頭に付く言葉を『副詞』と言うんだけど
その場合は
(^万一|[^一-龠]万一|第一)(人)
$1?$2
と、してやると良い、実は『遅延』も生じず、『読み上げ』もしない記号というのが有るから、それを『区切り記号』として活用してみてはどうか、この場合適当に?としてみた
『』の括弧や、句読点は遅延が生じちゃうからね

百万一人が
万一?人が
万一?人がいても大丈夫
万一?人間が
第一?人手不足でも

ポイントは、AquesTalkや、HARUKAの基本辞書に頼りつつ、それらをいたずらに加工せず、一般辞書では難しいところだけ正規表現加工することだね
そうすれば正規表現辞書は最小限で済むよ

その他
(^一|[^一-龠々]一)(人間[^一-龠々]|人間$)
$1?$2

俺は一?人間として
一人間隔が空いている
490名無しさん@お腹いっぱい。
垢版 |
2016/06/18(土) 11:18:02.88ID:vbUB/lMm0
『区切り記号』が ? になってしまった(汗
『きごう』で変換すると、色んな記号が出てくるから、好きなの使って
『 ' 』はHarukaだと『一重引用符』って呼んじゃうからね
491名無しさん@お腹いっぱい。
垢版 |
2016/06/18(土) 11:53:35.52ID:vbUB/lMm0
強に関して、強スマッシュ、増強セメント、強角膜、強光学特性、に強くなりたいなら
この場合は『強』という『接頭辞』が付くから『二字熟語』に成り得る感じを否定すると良いね、前後否定すると
(^|[^\d〇一七三九二五倔八六列剛力勇勉十口四堅増富屈年康御心最末根牽理百盛精腰至補雄鞍頑])強([^ー〜ぁ-ん々仕健兵制剛力勇勢化半卒取吟味固国圧堅壮大奪姦将
度弁弓引弩弱張心悪情意慢慾打拍振攻敵暴梁権欲毅気火烈熱猛盗盛直硬禦縮者肩胸腰膜蔵虜行襲要言記訴誘調談請諫識豪貝賊迫運邦酸金陣雨電震面靭靱音項顔風飯]|$)
$1キョウ$2

だけど、じゃあ『強震度』は?『強』+『震度』だが、棒読みちゃんの場合だと、『強震』+『度』と判定してるね
『二字熟語』として『強震』の『震』の字を否定してしまっているから、否定した文字列の前に『震度』を足していけばいいかな
(^|[^\d〇一七三九二五倔八六列剛力勇勉十口四堅増富屈年康御心最末根牽理百盛精腰至補雄鞍頑])強([膜]|震度|[^ぁ-ん々仕健兵制剛力勇勢化半卒取吟味固国圧堅壮大奪姦将
度弁弓引弩弱張心悪情意慢慾打拍振攻敵暴梁権欲毅気火烈熱猛盗盛直硬禦縮者肩胸腰膜蔵虜行襲要言記訴誘調談請諫識豪貝賊迫運邦酸金陣雨電震面靭靱音項顔風飯]|$)

強震度、角膜強膜縁、もいけるようになった、こんな感じで一つ辞書を作れば、後は見つける度に足してくだけで済む様になる
これ一つで『強○○』という『強』を『接頭辞』として使う形をほぼカバー出来る様になったが、あくまで一例ね
492名無しさん@お腹いっぱい。
垢版 |
2016/06/18(土) 11:54:07.86ID:vbUB/lMm0
後方の『ひらがな』を否定してるのは、『送り仮名付きの訓読み』の誤読を防ぎたいから、
『送り仮名』に関する正規表現を作るなら『キョウ』と読む正規表現よりも優先順位を高くして作るといい
『強かな』だと、『したたかな』になり得るが、『強から』や、『強や○○』だと『キョウ』で間違いないはず、そう思ったら

〜鞍頑])強(から|じゃ|かが[^ぁ-ん]|[とだでなにのはへもやを]|[膜]|震度|[^ぁ-ん々仕健〜

の様に『てにおは』等の『助詞』を足していってもいいし
後方に『ひらがな』が付く別個の正規表現を書いてもいいね(送り仮名を回避しつつ)
やり方は色々あるが、どれが一番軽く済むかわからない

『強』に関しては約7個の辞書でほぼ誤読が無くなったな、まあでも強は読み方が多いから手強いね
手ごわ(い)、したた(か)、あなが(ち)、こわ(い)、つよ(い)、根づよ(い)、し(いる)、キョウ、ゴウ
493名無しさん@お腹いっぱい。
垢版 |
2016/06/18(土) 12:01:42.49ID:vbUB/lMm0
現代で常用されている二時熟語を漢字辞典サイトから抽出したものだが(Unicode順)こういった物を常用漢字の分だけIMEに常備してある
強『』
々仕健兵制剛力勇勢化半卒取吟味固国圧堅壮大奪姦将度弁弓引弩弱張心悪情意慢慾打拍振攻敵暴梁権欲毅気火烈熱猛盗盛直硬禦縮者肩胸腰膜蔵虜行襲要言記訴誘調談請諫識豪貝賊迫運邦酸金陣雨電震面靭靱音項顔風飯
『』強
〇一七三九二五倔八六列剛力勇勉十口四堅増富屈年康御心最末根牽理百盛精腰至補雄鞍頑
こんなもの登録して重くならねえのかよって思うかもしれないけど
漢字の単語同士が合体して誤読が生じる組み合わせは無限にあるので
それを一般辞書登録で行うと凄まじい量になるんだね、それするぐらいだったら、まあマシかな
494名無しさん@お腹いっぱい。
垢版 |
2016/06/18(土) 12:46:43.71ID:vbUB/lMm0
漢字が難しいのは、二字熟語の『音読み』と、送り仮名が付く『訓読み』が有るところだね
正規表現辞書の優先順位としては
送り仮名が付く訓読み登録をする(漢字熟語に成り得る物を回避しつつ)
そしてその下に送り仮名が付かない、『強』単体の場合を登録、漢字によっては『強硬度』の様に『接頭辞』に成り得るものが有るからね
最後にデフォルトの辞書機能ではカバーされていない『二字熟語』の読みを登録(一般辞書登録で済ませようとすると更に誤読を誘発しかねないものを)
といった優先順位となるだろうか

三字熟語の場合は『接頭辞+二字熟語』『二字熟語+接尾辞』の様な場合と『韋駄天』の様にそれ単体での塾語に別れる
四時熟語は『二字熟語』+『二字熟語』の場合が殆どだからたいした事ない
正規表現の処理負担は大きいので四字熟語以上と、独立した三時熟語は、一般辞書で一括登録するといいだろう
それと『劉備』『玄徳』の様な、『それしかあり得ない、更に誤読を誘発する心配が無さそうな』二字熟語も一般辞書登録していけばいい
問題は二字熟語と、『二字熟語』+『接頭辞・接尾辞』の三字熟語と、送り仮名が付く訓読みの判別だね

『●×■い』という文が合ったとする
『●×』『■い』と読んで欲しいのに、偶然にも『×■』と言う漢字熟語が成立すると
『●』『×■』『い』と誤読するんだよね
実は棒読みちゃんやHarukaはそこまで馬鹿じゃないので、漢字熟語同士がくっついたり
後方のひらがなを送り仮名と誤認したりするのを切り分けてやる正規表現で
かなりの誤読が解消されるという事が分かっている
自分の正規表現辞書見たら4割くらいが切り分け正規表現だったよ、楽する為に編み出した技だけどね
でも賢い人は、ネットの文字を抽出、ビッグデータみたいなものを加工して一般辞書に大量一括登録で済ませちゃうんだろうなあ
何にしてもメインは一般辞書登録だよ
以上、クドくてごめんね
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況