探検


【IT】コンピューターで全漢字使用可に 6万字コード化

■ このスレッドは過去ログ倉庫に格納されています
2017/12/25(月) 06:08:16.97ID:CAP_USER
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、
コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、
6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、
ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、
「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、
コードが割りふられているのは1万字だけで、コードが無く、
コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、
ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、
コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、
経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、
このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、
地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、
戸籍では尊重されているがコンピューターが追いついていなかった。
文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

続きはソースで

NHKニュース
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html
2名無しのひみつ
垢版 |
2017/12/25(月) 06:16:31.64ID:PYyQSCbE
漢字って一字で意味を持つ単語
中国はどうしてんだ
3名無しのひみつ
垢版 |
2017/12/25(月) 06:20:34.08ID:4W2qbdqm
ユニコードで使えないなら終わり
2017/12/25(月) 06:26:32.02ID:Ac/xGhhU
草○歓喜
5名無しのひみつ
垢版 |
2017/12/25(月) 06:31:22.61ID:irOM8Cqr
龍龍
龍龍
6名無しのひみつ
垢版 |
2017/12/25(月) 06:34:57.95ID:4W2qbdqm
定義したところで新しい漢字が創作されるのが漢字という形な、定義するなら
今後増えるだろう創作文字がいくらあっても許容できる仕様でないなら、
ユニコードのコード割り当てにある明治大正昭和平成(合紫順~)の次の元号文字が割り当て
コードの空きがない問題をまず考えようよ、元号が変わるのは来年だし

http://quizknock.com/heisei-owaruto-daikonran/
ユニコードは明治→大正→昭和→平成→株式会社(㍿)となっていて、株式会社のコードを捨てる?
7名無しのひみつ
垢版 |
2017/12/25(月) 06:42:07.95ID:1hFrhwM1
>>6
連番にする意味は大してない。
プログラムを組むときはコードを意識なんてしていられないし、条件分岐が必要になるから。
8名無しのひみつ
垢版 |
2017/12/25(月) 06:43:45.16ID:1hFrhwM1
>>2
簡体字は簡体字で使う漢字を登録済み。
繁体字も同じく登録済み。
9名無しのひみつ
垢版 |
2017/12/25(月) 06:52:13.63ID:42m1Es7/
やればできるじゃない
10名無しのひみつ
垢版 |
2017/12/25(月) 06:53:23.71ID:4W2qbdqm
>>7
1文字のためだけに他の文字コードの途中に割り付けるとかないから、
不連続すぎる割り当てとか後で変更されるようなコード
たとえば韓国のユニコード割り当てがユニコードのバージョンでコードそのものが違うように
そういうことはあってはならない、ユニコードのバージョンで条件分岐で対処すればいいだろうけど
それは明らかに変だろ、
11名無しのひみつ
垢版 |
2017/12/25(月) 07:04:14.78ID:7VMa6lis
フォントが対応してくれなきゃ
12名無しのひみつ
垢版 |
2017/12/25(月) 07:05:07.21ID:l2YP9E8l
中国の人名とか地名とかに使う漢字もコード化しろよ。
新聞に○辺に□とか書いてるだろ。
2017/12/25(月) 07:05:07.35ID:WBU+WGbR
結局シフトJISやEUCなどの環境がある限り、意味がない
2017/12/25(月) 07:07:19.48ID:bV8VduO/
コンピューターで

って漠然としてんなぁ
2017/12/25(月) 07:09:19.70ID:S2x8lA8r
超漢字ってあったよな
2017/12/25(月) 07:24:40.50ID:waokJkij
(っ゚(ェ)゚)っ[草g剛]
2017/12/25(月) 07:32:23.96ID:f1yolDrv
>>15
あれ、漢字は何万文字入ってるんだろ。
2017/12/25(月) 07:40:21.59ID:tW6xk3HF
文字コードは頭痛い
19名無しのひみつ
垢版 |
2017/12/25(月) 08:03:55.56ID:mxsKAgvk
闔閭范蠡
2017/12/25(月) 08:23:03.50ID:kgsYK7xR
この話題、科学のカテゴリかな?
21名無しのひみつ
垢版 |
2017/12/25(月) 08:25:36.76ID:uwemIeOO
>>10
文字コードを連番にするとヘボいプログラマが文字コードが連番であるという前提でコード書くので後で困る。
2017/12/25(月) 08:34:31.35ID:4W2qbdqm
>>21
日本語か日本語じゃない文字かを判定するときに、1文字だけ飛んだら困るだろ
23名無しのひみつ
垢版 |
2017/12/25(月) 08:37:39.61ID:u7AEvU85
>>1
漢文講義するとき助かる
24名無しのひみつ
垢版 |
2017/12/25(月) 08:38:44.49ID:u7AEvU85
>>20
その発想は無かった
25名無しのひみつ
垢版 |
2017/12/25(月) 08:43:35.83ID:Koo+dNa5
俺の名字も正確なのないから、簡易字つかってるな。
26名無しのひみつ
垢版 |
2017/12/25(月) 08:44:04.88ID:TmjlzdAO
興興
興興
2017/12/25(月) 08:49:52.76ID:b2JSO5kB
またスマホが重くなるな
2017/12/25(月) 10:21:12.47ID:nL/i0RO0
>>25
それで納得できるなら、さっさと当用漢字を使った自分の戸籍を作ったほうが良いぞ
2017/12/25(月) 12:18:05.99ID:WRQDj8Y0
超漢字は18万
TRONに追いついてすらいない
30名無しのひみつ
垢版 |
2017/12/25(月) 13:13:00.11ID:6ElEffzj
>>1
板違い死ね
2017/12/25(月) 16:12:39.75ID:dw9MfVUg
>>29
外国語入れてだろ
32名無しのひみつ
垢版 |
2017/12/25(月) 18:00:25.65ID:NLkgVufX
JISコードなん?
33名無しのひみつ
垢版 |
2017/12/25(月) 18:09:12.04ID:xUmKRZBA
>>1
>15年越しでようやく完了
データ作成に携わられた皆さん乙でしたm(_ _)m
34名無しのひみつ
垢版 |
2017/12/25(月) 19:29:17.91ID:bSmjCHJv
同音異義語を減らしてくれ
35名無しのひみつ
垢版 |
2017/12/25(月) 20:09:57.33ID:nyCNjF1q
三国志の武将に使われてる難しい漢字も登録されてるの?
36名無しのひみつ
垢版 |
2017/12/25(月) 21:35:58.45ID:Mi/RlUUg
>>31
というか外国の漢字も入れるべきだと思う。
日本語しか使えない文字コードだとほかのコードページと切り替えが必要になり、マルチランゲージ対応が難しくなる。

素直に考えれば、超漢字の文字コードそのままorシフトで採用でよかったんじゃないかと思う。

>>1
文字コードを決めるだけでなく入力インターフェイスも改善もIME製作会社にがんばってほしい

ただ「𩸽」/[魚花] を「ほっけ」で、入力可能にするという辞書更新だけでなく

全「サイトウ」さんが自分の漢字を辞書登録するようなユーザー側の負担も増えそう

個人の「スマホ/タブレット」を市役所とかで入力装置の代わりに使えるようにするみたいな利便性も必要だと思う。
37名無しのひみつ
垢版 |
2017/12/25(月) 22:29:02.65ID:M9yXpPtK
http://standards.iso.org/ittf/PubliclyAvailableStandards/
ここからダウンロードできるお。
いっぱいあって、どれかわからんお。

「文字コード」とその規格に関しては別紙に詳細を記載しています。
それはどこじゃあ
2017/12/25(月) 22:29:39.25ID:DCSKd2YI
>>36
超漢字の日本漢字はJIS第1 - 第4水準、補助漢字のみ
全然日本の漢字として数足りないんだけど
2017/12/25(月) 22:56:44.28ID:lz/oNolB
>>38
あと何が有るんだ
2017/12/25(月) 23:13:12.75ID:HaGyNitW
こんな下らない一部の人間のエゴで日本語を扱うPCの負荷をむやみに大きくするより
今ある1万字に残りの4万字を収束させるほうがよほど合理的
2017/12/25(月) 23:53:44.13ID:0kGutRty
できるのが20年おせーよww
さすがお役所
42名無しのひみつ
垢版 |
2017/12/26(火) 00:08:43.01ID:oQ5BHkWw
游明朝気に入ったわ
言葉が頭に入ってくる
本当は商用フォントがいいんだろうけど
2017/12/26(火) 02:37:46.26ID:iSd82aHw
こんなくだらないことに時間掛けるんじゃなくて、円サイン問題やUnicode文字化け問題を先に解決しろよ
JISの問題かもしれんが
2017/12/26(火) 07:58:51.07ID:CiEaQayK
>>43
そんな問題はない
45名無しのひみつ
垢版 |
2017/12/26(火) 12:07:44.76ID:xr7x/cSb
どうせやるなら中国・ベトナムあたりの漢字も、日本の「変体かな」も全て入れて、歴史的文献を全てデジタルデータにできるようにしてほしい。

源氏物語の章についているなんか良く分からないマーク(香の図)等も、家紋・花押も入れたらどうか?

https://ja.wikipedia.org/wiki/%E9%A6%99%E3%81%AE%E5%9B%B3
2017/12/26(火) 12:15:37.30ID:CnbcvKQ1
遅すぎる
2017/12/26(火) 14:13:42.61ID:niF5jrmS
日本語というリソースが無駄
2バイト文字は根絶すべき
アルファベットだけで十分だ
2017/12/26(火) 17:26:19.02ID:Ug1u8y6i
超漢字OS持ってたわ
2017/12/26(火) 17:48:23.19ID:AQTYI+KT
>>47
Jが抜けてもCKが残るだけ
50名無しのひみつ
垢版 |
2017/12/26(火) 19:26:51.48ID:JjHIDaHt
文字コードの肥大化が止まらない
51名無しのひみつ
垢版 |
2017/12/26(火) 22:09:27.97ID:OR0wrD/w
一般人には関係ないだろうが、珍しい名前の人には切実な問題だろうな。あと企業も例えば銀行口座のデータベースなんかは数が多いから珍しい名前もかなりあるはず。
現在はどうやって表示してるのか知らないが、これを使えば珍しい名前も普通に表示できるようになるかもしれない。
2017/12/28(木) 00:06:38.71ID:omCw5ppT
>>51
中の人だが、中国人の口座開設が増えて大変。
似た字で誤魔化すこともできるw
2017/12/28(木) 00:24:28.48ID:+CQjx+//
なんちゅう欠陥文字
コミュニケーションの道具としては失敗作だろ
2017/12/28(木) 13:40:21.85ID:mcicFoXv
文字の容量が6倍になるのは開発者側では大丈夫なんかな?
今の時代なら何とかなるもの?
55名無しのひみつ
垢版 |
2017/12/28(木) 21:56:30.15ID:vKC6ZQnK
数学とかの専門系のwebページをiphoneでchromeで見ると文字化けするのなんなの
2017/12/28(木) 22:11:21.39ID:gms9yOAv
iphoneのchromeだけで起きるんならapple storeの規約のせいで奇形だから諦めろ
2017/12/28(木) 22:17:09.56ID:2/rH0JUe
わざわざCJKVで統合する必要はあるのかな?
ユニコードを3桁に拡張したんだから
国ごとに振り分けてしまえばいいのに
そうすれば今は入ってないマヤ文字だって苦労せず扱えるだろうに
58名無しのひみつ
垢版 |
2017/12/28(木) 22:28:22.03ID:Ceg8lK4b
これドンだけかねつかったら達成できるやろ
2017/12/28(木) 22:51:48.62ID:gms9yOAv
>>57
区別出来るし
今や文字はいくらでも入る
60名無しのひみつ
垢版 |
2017/12/28(木) 22:53:46.49ID:TNIWwDOR
そんなことより、日本語のコードを統一しろよ
ISO-22022-JP,ISO-8859-1,JIS,Shift-JIS,EUC,UTF

何のコードの拡張版がしらんが、いい加減にしろ

エェーーェ 新コードなの!! びっくり
61名無しのひみつ
垢版 |
2017/12/28(木) 22:58:52.85ID:kKJH6Qvh
そもそもunicodeの必要性がわからない
2017/12/29(金) 07:37:53.55ID:4jdKRrrI
>>60
元記事が馬鹿丸出しだから分からないけど
これは漢字データベースだよ
「文字コード」じゃないしJISのいう文字集合でもない
異体字データベースも含まれる漢字データベース
>>61
馬鹿だからだろう
63名無しのひみつ
垢版 |
2017/12/31(日) 10:49:18.30ID:kdl85RpN
Adobeは自前で日本語などのコードを持っているらしいな。
2017/12/31(日) 11:35:06.70ID:VgFYf2KV
>>63
いや持ってるのは基本的には文字集合だよ
Unicodeへのマッピングもしっかりやってるし
今のUnicideの異体字指示の元になってる
65名無しのひみつ
垢版 |
2018/01/01(月) 12:42:41.94ID:fjZQTFVk
文字をグラフィックスで表示するようにすれば100億種類の文字でも表示できる。パソコンの能力が向上してるので可能かもしれない。
ただ、現在の方式でも普通に使う分には問題ないので、通常はこの方式を使っていて、特殊文字を表示する時だけグラフィックス方式に切り替える。
2018/01/01(月) 12:53:32.51ID:uCF2PSw0
誤字で登録されてる人名は誤字を直すのが筋
2018/01/01(月) 14:39:58.43ID:m9qIECHC
頼むから集約してくれ
2018/01/02(火) 17:37:08.39ID:etCnhIRK
>>67
どの文字と包摂すべきかもデータになってる
2018/01/02(火) 19:01:23.31ID:fwU8SbBc
>>65
ホント、そのとおりやわ
珍字くらいビッグサーバーのデータに直リンしてそのままGIF縮小表示すればいいし、現在の技術でも十分可能
ビャンビャン麺のビャンとかたいとは現時点ではUnicode未登録だがGIF画像を縮小して文章中に表示してる
https://ja.wikipedia.org/wiki/%E3%83%93%E3%83%A3%E3%83%B3%E3%83%93%E3%83%A3%E3%83%B3%E9%BA%BA
70名無しのひみつ
垢版 |
2018/01/02(火) 19:41:56.87ID:Hwoi7HEJ
アナログフォントをスキャンして復刻
2018/01/02(火) 21:12:03.32ID:etCnhIRK
>>65>>69
馬鹿の考え休むに似たりどころか外字時代に逆行かよ
72名無しのひみつ
垢版 |
2018/01/03(水) 09:15:33.29ID:jR5Y37gg
ロゴ文字の意匠登録のように、登録申請して認可されて料金を支払えば、
任意の図形を登録できて、それに対する64ビットのコードの割り当てを
受け取り独占できる、という仕組みを世界レベルできちんと運営すれば、
どんな文字でも記号でも図形でもあるいは書体でも登録や検索ができて
ネットにつながった機器であれば世界中で同じように表示ができるように
なると思うよ。
2018/01/03(水) 10:01:45.76ID:vBOrgT3J
文字化けを気にしてるなら
外字より先に
JISコードをUTF-8に統合しないと
2018/01/03(水) 10:09:57.77ID:Z8DMT7uf
あ、日本語対応のプログラム言語かと思ったら違うのか
75名無しのひみつ
垢版 |
2018/01/03(水) 10:27:29.74ID:sFw7SvyH
コードが割り当てられるのとフォントが対応するのは別問題。
2018/01/03(水) 10:33:36.63ID:oVPyzW28
>>72
検索すら出来ねーじゃねーか
>>68のような情報の整理が必須
しかも大体において一定の基準で決められていて
一箇所に固まってないと利用には不便
2018/01/04(木) 16:45:33.50ID:FKjBPaUs
>>75
少し変わった字体ともなれば未だにシフトJISつまり第2水準までしか対応してないからな
JISX0212(補助)・JISX0213(第3・第4水準)でさえゴシック体にフォント化けするし
拡張領域ならゴシック体すら未実装で明朝体それも中華仕様に化ける
2018/01/05(金) 12:24:19.30ID:mWTz9zwh
>>77
どのシステムの話?
79名無しのひみつ
垢版 |
2018/01/10(水) 22:34:00.45ID:B2D1wtHD
これってあれだろ、中国語の文字とフォント統一できていない
中華系タブレットみたいになりそう
80名無しのひみつ
垢版 |
2018/01/10(水) 22:39:41.08ID:zJQ+HoL8
山口百恵の「恵に点」も使えるのかな?
81名無しのひみつ
垢版 |
2018/01/30(火) 05:42:58.13ID:t06dlmPU
そもそもバカな役人の書き間違えで発生した異体字なんか抹殺すべきだろ
2018/01/30(火) 05:59:21.01ID:FhQffXeG
全部使えるようになったんなら、もう常用漢字いらんだろ
教育漢字は教育漢字でいいけど、書類で好きに漢字使わせろ
アホみたいなひらき方多すぎ
今時ならルビふるのも簡単なんだからさあ
83名無しのひみつ
垢版 |
2018/01/30(火) 06:34:57.33ID:R39hANUX
漢字はいいんだよ(よくないのもあるけど)、問題なのは記号類。同じものをあっちこっちに入れるな
2018/01/30(火) 09:31:01.51ID:pjIJGanN
醜いかな交じり熟語を撤廃しろ

ねつ造とかわい曲って,字面がマヌケ
2018/02/01(木) 12:46:55.23ID:FVBANv5q
新聞社みたいな所に
朝鮮式がいいって思想があるんじゃないか?
86名無しのひみつ
垢版 |
2018/02/03(土) 16:21:15.11ID:jXGaYS9c
英米の7ビットASCIIコード中心主義を排して、
文字は一律に64ビットのコードで表すことにすれば、
五族協和、人類皆兄弟、天下太平に近づけるかもしれないと思う。
それにはまず、char=8ビットなどといったC言語を使うことはやめるべき。
NULLで文字列の終端を表すような言語仕様も排するべきだ。
2018/02/04(日) 04:39:19.38ID:FDhMXizD
>>86
はぁ?
2018/02/04(日) 18:36:18.92ID:5u/uW9tm
高校のとき吉岡君の「吉」の字で
いろいろあったのを思い出した。

担任 「『吉』の上の部分は『土』か『士』かどっち?」

吉岡 「同じ長さです。」

担任 「そうか。」

〜しばらくして〜

国語教師 「同じ長さの『吉』はねーんだよ!
        『土』か『士』なんだよ。
        戸籍取ってこいや!」

〜後日〜

吉岡 「戸籍取ってきました。」

国語教師&担任 「同じ長さだな、、、。」


ノギスで計測した結果、
下の棒がが0.2mm長かったので、『土』
となりました。
2018/02/05(月) 16:50:12.60ID:5grHsN8p
>>45
変体かなは入ってるよ
90名無しのひみつ
垢版 |
2018/02/12(月) 01:31:38.83ID:1S03j8sj
昔アップルのマッキントッシュは、本来の英語版では1文字を16ビット=2バイトで
表していた。それは1バイトはASCIIコードで、残りの1バイトはその文字のフォント
(書体)を指定するためのものであった。
 それを日本に持ち込んで日本語を使えるようにするために漢字TALKというOSの
改造版が提供されていたが、それは1文字が2バイトであるのを、漢字コードで使う
ようにしたのであった。そのため、比較的無理なく日本語をOSのレベルではつかえる
ようになったという。自分はマッキントッシュは高値の花だったので、指をくわえて
友達の説明をうらやましそうに聞くばかりだった。ランドセルのような背負の鞄に
入れて運んでいたMacを取り出して、電源を入れ、Macが音を出してしゃべることも
できるというのには驚いたものだった。あの当時はとても先進的なシステムだった。
システムはPascalのような言語で書かれていて、小さくまとまっていた。グラフィック
画面のGUIが凄かった。
 その技術をBGとMSは盗んだ。しかしA社も元はといえばX社からGUIなどの技術を
盗んだのだった。X社はパークという研究所を作って有能な技術者をたくさん抱えて
画期的な技術を次々と作り出していたが、経営者がそれらを理解できずにどれもこれも
製品化にはこぎ着けていないか失敗している。
たとえばイーサネットもX社で開発された技術であった。
2018/02/12(月) 04:18:26.92ID:f/fBTumQ
未だにファイル名とか日本語使わないようにせにゃならんとは
92名無しのひみつ
垢版 |
2018/02/12(月) 04:43:27.30ID:Y35jGpCE
>>84
小学校の教科書の「お水」を思いだした。「汚水」なw
2018/02/12(月) 23:14:39.85ID:WdGnZ1MC
>>90
PascalのようなというかPascalだろ
まあ大半はアセンブラで書かれてたが
2018/02/13(火) 16:49:19.02ID:+8d+bZXL
.鬱
鬱鬱
95名無しのひみつ
垢版 |
2018/02/15(木) 01:40:20.36ID:gfkU7mZm
ところがMacintoshは最初こそPascalがシステム言語だったのに、
どこかで宗主替えしてしまってCがシステム言語になったと思う。

マイクロソフトも最初はMASMやPLMがシステム記述言語だったのだろうと
思うが、ある時期からMSCになった。
2018/02/15(木) 13:28:10.32ID:wmUe02Bi
>>95
最初はアセンブラだよ
Macintosh Programmer's Workshopが登場してようやく高級言語が使えた
Macintosh Plusと一緒にリリースされたSystem3から
最初はPasscalのみ
MPW2.0からC「も」サポート
2018/02/15(木) 13:36:14.66ID:wmUe02Bi
>>95
MSは初期はFORTRANで書いた処理系も使っていた
Z80上のCP/MでM80/L80、後に8088上のCP/MでM86/L86を使っていたから
2018/02/23(金) 00:49:42.73ID:ghXj8kiq
白川静の辞書は面白い
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況