98コメント29KB

【ＩＴ】コンピューターで全漢字使用可に６万字コード化

■ このスレッドは過去ログ倉庫に格納されています

1しじみ ★

2017/12/25(月) 06:08:16.97ID:CAP_USER

日本語の漢字は、戸籍などに使われているものも含めると６万字あるのに対し、
コンピューターは、実は１万字しか扱うことができません。これに対し、このほど１５年越しの作業の末、
６万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、
ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、１つ１つの文字に、
「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、
コードが割りふられているのは１万字だけで、コードが無く、
コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ５万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、
ある人の名前に本名の外字を充てたものと略字を充てたものの２つのデータがあった場合、
コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためＩＰＡ＝情報処理推進機構は平成１４年から、
経済産業省とともに外字を含めたおよそ６万字の漢字１つ１つに、コードを割りつける作業を進めた結果、
このほど１５年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の１つが取り払われ、外字が使われた名前を正確に表示できたり、
地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

ＩＰＡの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、
戸籍では尊重されているがコンピューターが追いついていなかった。
文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

続きはソースで

NHKニュース
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

2名無しのひみつ

2017/12/25(月) 06:16:31.64ID:PYyQSCbE

漢字って一字で意味を持つ単語
中国はどうしてんだ

3名無しのひみつ

2017/12/25(月) 06:20:34.08ID:4W2qbdqm

ユニコードで使えないなら終わり

4名無しのひみつ

2017/12/25(月) 06:26:32.02ID:Ac/xGhhU

草○歓喜

5名無しのひみつ

2017/12/25(月) 06:31:22.61ID:irOM8Cqr

龍龍
龍龍

6名無しのひみつ

2017/12/25(月) 06:34:57.95ID:4W2qbdqm

定義したところで新しい漢字が創作されるのが漢字という形な、定義するなら
今後増えるだろう創作文字がいくらあっても許容できる仕様でないなら、
ユニコードのコード割り当てにある明治大正昭和平成（㍾㍽㍼㍻）の次の元号文字が割り当て
コードの空きがない問題をまず考えようよ、元号が変わるのは来年だし

http://quizknock.com/heisei-owaruto-daikonran/
ユニコードは明治→大正→昭和→平成→株式会社(㍿)となっていて、株式会社のコードを捨てる？

7名無しのひみつ

2017/12/25(月) 06:42:07.95ID:1hFrhwM1

>>6
連番にする意味は大してない。
プログラムを組むときはコードを意識なんてしていられないし、条件分岐が必要になるから。

8名無しのひみつ

2017/12/25(月) 06:43:45.16ID:1hFrhwM1

>>2
簡体字は簡体字で使う漢字を登録済み。
繁体字も同じく登録済み。

9名無しのひみつ

2017/12/25(月) 06:52:13.63ID:42m1Es7/

やればできるじゃない

10名無しのひみつ

2017/12/25(月) 06:53:23.71ID:4W2qbdqm

>>7
１文字のためだけに他の文字コードの途中に割り付けるとかないから、
不連続すぎる割り当てとか後で変更されるようなコード
たとえば韓国のユニコード割り当てがユニコードのバージョンでコードそのものが違うように
そういうことはあってはならない、ユニコードのバージョンで条件分岐で対処すればいいだろうけど
それは明らかに変だろ、

11名無しのひみつ

2017/12/25(月) 07:04:14.78ID:7VMa6lis

フォントが対応してくれなきゃ

12名無しのひみつ

2017/12/25(月) 07:05:07.21ID:l2YP9E8l

中国の人名とか地名とかに使う漢字もコード化しろよ。
新聞に○辺に□とか書いてるだろ。

13名無しのひみつ

2017/12/25(月) 07:05:07.35ID:WBU+WGbR

結局シフトJISやEUCなどの環境がある限り、意味がない

14名無しのひみつ

2017/12/25(月) 07:07:19.48ID:bV8VduO/

コンピューターで

って漠然としてんなぁ

15名無しのひみつ

2017/12/25(月) 07:09:19.70ID:S2x8lA8r

超漢字ってあったよな

16KUM(ﾟ_ﾟ)N ◆o4DQN..yEA

2017/12/25(月) 07:24:40.50ID:waokJkij

(っﾟ(ｪ)ﾟ)っ[草彅剛]

17名無しのひみつ

2017/12/25(月) 07:32:23.96ID:f1yolDrv

>>15
あれ、漢字は何万文字入ってるんだろ。

18名無しのひみつ

2017/12/25(月) 07:40:21.59ID:tW6xk3HF

文字コードは頭痛い

19名無しのひみつ

2017/12/25(月) 08:03:55.56ID:mxsKAgvk

闔閭范蠡

20名無しのひみつ

2017/12/25(月) 08:23:03.50ID:kgsYK7xR

この話題、科学のカテゴリかな?

21名無しのひみつ

2017/12/25(月) 08:25:36.76ID:uwemIeOO

>>10
文字コードを連番にするとヘボいプログラマが文字コードが連番であるという前提でコード書くので後で困る。

22名無しのひみつ

2017/12/25(月) 08:34:31.35ID:4W2qbdqm

>>21
日本語か日本語じゃない文字かを判定するときに、１文字だけ飛んだら困るだろ

23名無しのひみつ

2017/12/25(月) 08:37:39.61ID:u7AEvU85

>>1
漢文講義するとき助かる

24名無しのひみつ

2017/12/25(月) 08:38:44.49ID:u7AEvU85

>>20
その発想は無かった

25名無しのひみつ

2017/12/25(月) 08:43:35.83ID:Koo+dNa5

俺の名字も正確なのないから、簡易字つかってるな。

26名無しのひみつ

2017/12/25(月) 08:44:04.88ID:TmjlzdAO

興興
興興

27名無しのひみつ

2017/12/25(月) 08:49:52.76ID:b2JSO5kB

またスマホが重くなるな

28名無しのひみつ

2017/12/25(月) 10:21:12.47ID:nL/i0RO0

>>25
それで納得できるなら、さっさと当用漢字を使った自分の戸籍を作ったほうが良いぞ

29名無しのひみつ

2017/12/25(月) 12:18:05.99ID:WRQDj8Y0

超漢字は18万
TRONに追いついてすらいない

30名無しのひみつ

2017/12/25(月) 13:13:00.11ID:6ElEffzj

>>1
板違い死ね

31名無しのひみつ

2017/12/25(月) 16:12:39.75ID:dw9MfVUg

>>29
外国語入れてだろ

32名無しのひみつ

2017/12/25(月) 18:00:25.65ID:NLkgVufX

JISコードなん？

33名無しのひみつ

2017/12/25(月) 18:09:12.04ID:xUmKRZBA

>>1
＞１５年越しでようやく完了
データ作成に携わられた皆さん乙でしたm(_ _)m

34名無しのひみつ

2017/12/25(月) 19:29:17.91ID:bSmjCHJv

同音異義語を減らしてくれ

35名無しのひみつ

2017/12/25(月) 20:09:57.33ID:nyCNjF1q

三国志の武将に使われてる難しい漢字も登録されてるの?

36名無しのひみつ

2017/12/25(月) 21:35:58.45ID:Mi/RlUUg

>>31
というか外国の漢字も入れるべきだと思う。
日本語しか使えない文字コードだとほかのコードページと切り替えが必要になり、マルチランゲージ対応が難しくなる。

素直に考えれば、超漢字の文字コードそのままorシフトで採用でよかったんじゃないかと思う。

>>1
文字コードを決めるだけでなく入力インターフェイスも改善もＩＭＥ製作会社にがんばってほしい

ただ「𩸽」/[魚花] を「ほっけ」で、入力可能にするという辞書更新だけでなく

全「サイトウ」さんが自分の漢字を辞書登録するようなユーザー側の負担も増えそう

個人の「スマホ/タブレット」を市役所とかで入力装置の代わりに使えるようにするみたいな利便性も必要だと思う。

37名無しのひみつ

2017/12/25(月) 22:29:02.65ID:M9yXpPtK

http://standards.iso.org/ittf/PubliclyAvailableStandards/
ここからダウンロードできるお。
いっぱいあって、どれかわからんお。

「文字コード」とその規格に関しては別紙に詳細を記載しています。
それはどこじゃあ

38名無しのひみつ

2017/12/25(月) 22:29:39.25ID:DCSKd2YI

>>36
超漢字の日本漢字はJIS第1 - 第4水準、補助漢字のみ
全然日本の漢字として数足りないんだけど

39名無しのひみつ

2017/12/25(月) 22:56:44.28ID:lz/oNolB

>>38
あと何が有るんだ

40名無しのひみつ

2017/12/25(月) 23:13:12.75ID:HaGyNitW

こんな下らない一部の人間のエゴで日本語を扱うPCの負荷をむやみに大きくするより
今ある１万字に残りの４万字を収束させるほうがよほど合理的

41名無しのひみつ

2017/12/25(月) 23:53:44.13ID:0kGutRty

できるのが20年おせーよww
さすがお役所

42名無しのひみつ

2017/12/26(火) 00:08:43.01ID:oQ5BHkWw

游明朝気に入ったわ
言葉が頭に入ってくる
本当は商用フォントがいいんだろうけど

43名無しのひみつ

2017/12/26(火) 02:37:46.26ID:iSd82aHw

こんなくだらないことに時間掛けるんじゃなくて、円サイン問題やUnicode文字化け問題を先に解決しろよ
JISの問題かもしれんが

44名無しのひみつ

2017/12/26(火) 07:58:51.07ID:CiEaQayK

>>43
そんな問題はない

45名無しのひみつ

2017/12/26(火) 12:07:44.76ID:xr7x/cSb

どうせやるなら中国・ベトナムあたりの漢字も、日本の「変体かな」も全て入れて、歴史的文献を全てデジタルデータにできるようにしてほしい。

源氏物語の章についているなんか良く分からないマーク(香の図)等も、家紋・花押も入れたらどうか？

https://ja.wikipedia.org/wiki/%E9%A6%99%E3%81%AE%E5%9B%B3

46名無しのひみつ

2017/12/26(火) 12:15:37.30ID:CnbcvKQ1

遅すぎる

47名無しのひみつ

2017/12/26(火) 14:13:42.61ID:niF5jrmS

日本語というリソースが無駄
2バイト文字は根絶すべき
アルファベットだけで十分だ

48名無しのひみつ

2017/12/26(火) 17:26:19.02ID:Ug1u8y6i

超漢字OS持ってたわ

49名無しのひみつ

2017/12/26(火) 17:48:23.19ID:AQTYI+KT

>>47
Jが抜けてもCKが残るだけ

50名無しのひみつ

2017/12/26(火) 19:26:51.48ID:JjHIDaHt

文字コードの肥大化が止まらない

51名無しのひみつ

2017/12/26(火) 22:09:27.97ID:OR0wrD/w

一般人には関係ないだろうが、珍しい名前の人には切実な問題だろうな。あと企業も例えば銀行口座のデータベースなんかは数が多いから珍しい名前もかなりあるはず。
現在はどうやって表示してるのか知らないが、これを使えば珍しい名前も普通に表示できるようになるかもしれない。

52名無しのひみつ

2017/12/28(木) 00:06:38.71ID:omCw5ppT

>>51
中の人だが、中国人の口座開設が増えて大変。
似た字で誤魔化すこともできるw

53名無しのひみつ

2017/12/28(木) 00:24:28.48ID:+CQjx+//

なんちゅう欠陥文字
コミュニケーションの道具としては失敗作だろ

54名無しのひみつ

2017/12/28(木) 13:40:21.85ID:mcicFoXv

文字の容量が6倍になるのは開発者側では大丈夫なんかな？
今の時代なら何とかなるもの？

55名無しのひみつ

2017/12/28(木) 21:56:30.15ID:vKC6ZQnK

数学とかの専門系のwebページをiphoneでchromeで見ると文字化けするのなんなの

56名無しのひみつ

2017/12/28(木) 22:11:21.39ID:gms9yOAv

iphoneのchromeだけで起きるんならapple storeの規約のせいで奇形だから諦めろ

57名無しのひみつ

2017/12/28(木) 22:17:09.56ID:2/rH0JUe

わざわざCJKVで統合する必要はあるのかな？
ユニコードを３桁に拡張したんだから
国ごとに振り分けてしまえばいいのに
そうすれば今は入ってないマヤ文字だって苦労せず扱えるだろうに

58名無しのひみつ

2017/12/28(木) 22:28:22.03ID:Ceg8lK4b

これドンだけかねつかったら達成できるやろ

59名無しのひみつ

2017/12/28(木) 22:51:48.62ID:gms9yOAv

>>57
区別出来るし
今や文字はいくらでも入る

60名無しのひみつ

2017/12/28(木) 22:53:46.49ID:TNIWwDOR

そんなことより、日本語のコードを統一しろよ
ISO-22022-JP,ISO-8859-1,JIS,Shift-JIS,EUC,UTF

何のコードの拡張版がしらんが、いい加減にしろ

エェーーェ新コードなの！！びっくり

61名無しのひみつ

2017/12/28(木) 22:58:52.85ID:kKJH6Qvh

そもそもunicodeの必要性がわからない

62名無しのひみつ

2017/12/29(金) 07:37:53.55ID:4jdKRrrI

>>60
元記事が馬鹿丸出しだから分からないけど
これは漢字データベースだよ
「文字コード」じゃないしJISのいう文字集合でもない
異体字データベースも含まれる漢字データベース
>>61
馬鹿だからだろう

63名無しのひみつ

2017/12/31(日) 10:49:18.30ID:kdl85RpN

Ａｄｏｂｅは自前で日本語などのコードを持っているらしいな。

64名無しのひみつ

2017/12/31(日) 11:35:06.70ID:VgFYf2KV

>>63
いや持ってるのは基本的には文字集合だよ
Unicodeへのマッピングもしっかりやってるし
今のUnicideの異体字指示の元になってる

65名無しのひみつ

2018/01/01(月) 12:42:41.94ID:fjZQTFVk

文字をグラフィックスで表示するようにすれば１００億種類の文字でも表示できる。パソコンの能力が向上してるので可能かもしれない。
ただ、現在の方式でも普通に使う分には問題ないので、通常はこの方式を使っていて、特殊文字を表示する時だけグラフィックス方式に切り替える。

66名無しのひみつ

2018/01/01(月) 12:53:32.51ID:uCF2PSw0

誤字で登録されてる人名は誤字を直すのが筋

67名無しのひみつ

2018/01/01(月) 14:39:58.43ID:m9qIECHC

頼むから集約してくれ

68名無しのひみつ

2018/01/02(火) 17:37:08.39ID:etCnhIRK

>>67
どの文字と包摂すべきかもデータになってる

69名無しのひみつ

2018/01/02(火) 19:01:23.31ID:fwU8SbBc

>>65
ホント、そのとおりやわ
珍字くらいビッグサーバーのデータに直リンしてそのままGIF縮小表示すればいいし、現在の技術でも十分可能
ビャンビャン麺のビャンとかたいとは現時点ではUnicode未登録だがGIF画像を縮小して文章中に表示してる
https://ja.wikipedia.org/wiki/%E3%83%93%E3%83%A3%E3%83%B3%E3%83%93%E3%83%A3%E3%83%B3%E9%BA%BA

70名無しのひみつ

2018/01/02(火) 19:41:56.87ID:Hwoi7HEJ

アナログフォントをスキャンして復刻

71名無しのひみつ

2018/01/02(火) 21:12:03.32ID:etCnhIRK

>>65>>69
馬鹿の考え休むに似たりどころか外字時代に逆行かよ

72名無しのひみつ

2018/01/03(水) 09:15:33.29ID:jR5Y37gg

ロゴ文字の意匠登録のように、登録申請して認可されて料金を支払えば、
任意の図形を登録できて、それに対する６４ビットのコードの割り当てを
受け取り独占できる、という仕組みを世界レベルできちんと運営すれば、
どんな文字でも記号でも図形でもあるいは書体でも登録や検索ができて
ネットにつながった機器であれば世界中で同じように表示ができるように
なると思うよ。

73名無しのひみつ

2018/01/03(水) 10:01:45.76ID:vBOrgT3J

文字化けを気にしてるなら
外字より先に
JISコードをUTF-8に統合しないと

74名無しのひみつ

2018/01/03(水) 10:09:57.77ID:Z8DMT7uf

あ、日本語対応のプログラム言語かと思ったら違うのか

75名無しのひみつ

2018/01/03(水) 10:27:29.74ID:sFw7SvyH

コードが割り当てられるのとフォントが対応するのは別問題。

76名無しのひみつ

2018/01/03(水) 10:33:36.63ID:oVPyzW28

>>72
検索すら出来ねーじゃねーか
>>68のような情報の整理が必須
しかも大体において一定の基準で決められていて
一箇所に固まってないと利用には不便

77名無しのひみつ

2018/01/04(木) 16:45:33.50ID:FKjBPaUs

>>75
少し変わった字体ともなれば未だにシフトJISつまり第2水準までしか対応してないからな
JISX0212（補助）・JISX0213（第3・第4水準）でさえゴシック体にフォント化けするし
拡張領域ならゴシック体すら未実装で明朝体それも中華仕様に化ける

78名無しのひみつ

2018/01/05(金) 12:24:19.30ID:mWTz9zwh

>>77
どのシステムの話？

79名無しのひみつ

2018/01/10(水) 22:34:00.45ID:B2D1wtHD

これってあれだろ、中国語の文字とフォント統一できていない
中華系タブレットみたいになりそう

80名無しのひみつ

2018/01/10(水) 22:39:41.08ID:zJQ+HoL8

山口百恵の「恵に点」も使えるのかな？

81名無しのひみつ

2018/01/30(火) 05:42:58.13ID:t06dlmPU

そもそもバカな役人の書き間違えで発生した異体字なんか抹殺すべきだろ

82名無しのひみつ

2018/01/30(火) 05:59:21.01ID:FhQffXeG

全部使えるようになったんなら、もう常用漢字いらんだろ
教育漢字は教育漢字でいいけど、書類で好きに漢字使わせろ
アホみたいなひらき方多すぎ
今時ならルビふるのも簡単なんだからさあ

83名無しのひみつ

2018/01/30(火) 06:34:57.33ID:R39hANUX

漢字はいいんだよ（よくないのもあるけど）、問題なのは記号類。同じものをあっちこっちに入れるな

84名無しのひみつ

2018/01/30(火) 09:31:01.51ID:pjIJGanN

醜いかな交じり熟語を撤廃しろ

ねつ造とかわい曲って，字面がマヌケ

85名無しのひみつ

2018/02/01(木) 12:46:55.23ID:FVBANv5q

新聞社みたいな所に
朝鮮式がいいって思想があるんじゃないか？

86名無しのひみつ

2018/02/03(土) 16:21:15.11ID:jXGaYS9c

英米の7ビットASCIIコード中心主義を排して、
文字は一律に64ビットのコードで表すことにすれば、
五族協和、人類皆兄弟、天下太平に近づけるかもしれないと思う。
それにはまず、char=8ビットなどといったC言語を使うことはやめるべき。
NULLで文字列の終端を表すような言語仕様も排するべきだ。

87名無しのひみつ

2018/02/04(日) 04:39:19.38ID:FDhMXizD

>>86
はぁ？

88名無しのひみつ

2018/02/04(日) 18:36:18.92ID:5u/uW9tm

高校のとき吉岡君の「吉」の字で
いろいろあったのを思い出した。

担任　「『吉』の上の部分は『土』か『士』かどっち？」

吉岡　「同じ長さです。」

担任　「そうか。」

～しばらくして～

国語教師　「同じ長さの『吉』はねーんだよ！
　　　　　　　　『土』か『士』なんだよ。
　　　　　　　　戸籍取ってこいや！」

～後日～

吉岡　「戸籍取ってきました。」

国語教師＆担任　「同じ長さだな、、、。」

↓
ノギスで計測した結果、
下の棒がが0.2mm長かったので、『土』
となりました。

89名無しのひみつ

2018/02/05(月) 16:50:12.60ID:5grHsN8p

>>45
変体かなは入ってるよ

90名無しのひみつ

2018/02/12(月) 01:31:38.83ID:1S03j8sj

昔アップルのマッキントッシュは、本来の英語版では1文字を16ビット＝2バイトで
表していた。それは1バイトはASCIIコードで、残りの1バイトはその文字のフォント
（書体）を指定するためのものであった。
　それを日本に持ち込んで日本語を使えるようにするために漢字TALKというOSの
改造版が提供されていたが、それは1文字が2バイトであるのを、漢字コードで使う
ようにしたのであった。そのため、比較的無理なく日本語をOSのレベルではつかえる
ようになったという。自分はマッキントッシュは高値の花だったので、指をくわえて
友達の説明をうらやましそうに聞くばかりだった。ランドセルのような背負の鞄に
入れて運んでいたMacを取り出して、電源を入れ、Macが音を出してしゃべることも
できるというのには驚いたものだった。あの当時はとても先進的なシステムだった。
システムはPascalのような言語で書かれていて、小さくまとまっていた。グラフィック
画面のGUIが凄かった。
　その技術をBGとMSは盗んだ。しかしA社も元はといえばX社からGUIなどの技術を
盗んだのだった。X社はパークという研究所を作って有能な技術者をたくさん抱えて
画期的な技術を次々と作り出していたが、経営者がそれらを理解できずにどれもこれも
製品化にはこぎ着けていないか失敗している。
たとえばイーサネットもX社で開発された技術であった。

91名無しのひみつ

2018/02/12(月) 04:18:26.92ID:f/fBTumQ

未だにファイル名とか日本語使わないようにせにゃならんとは

92名無しのひみつ

2018/02/12(月) 04:43:27.30ID:Y35jGpCE

>>84
小学校の教科書の「お水」を思いだした。「汚水」なw

93名無しのひみつ

2018/02/12(月) 23:14:39.85ID:WdGnZ1MC

>>90
PascalのようなというかPascalだろ
まあ大半はアセンブラで書かれてたが

94名無しのひみつ

2018/02/13(火) 16:49:19.02ID:+8d+bZXL

.鬱
鬱鬱

95名無しのひみつ

2018/02/15(木) 01:40:20.36ID:gfkU7mZm

ところがMacintoshは最初こそPascalがシステム言語だったのに、
どこかで宗主替えしてしまってCがシステム言語になったと思う。

マイクロソフトも最初はMASMやPLMがシステム記述言語だったのだろうと
思うが、ある時期からMSCになった。

96名無しのひみつ

2018/02/15(木) 13:28:10.32ID:wmUe02Bi

>>95
最初はアセンブラだよ
Macintosh Programmer's Workshopが登場してようやく高級言語が使えた
Macintosh Plusと一緒にリリースされたSystem3から
最初はPasscalのみ
MPW2.0からC「も」サポート

97名無しのひみつ

2018/02/15(木) 13:36:14.66ID:wmUe02Bi

>>95
MSは初期はFORTRANで書いた処理系も使っていた
Z80上のCP/MでM80/L80、後に8088上のCP/MでM86/L86を使っていたから

98名無しのひみつ

2018/02/23(金) 00:49:42.73ID:ghXj8kiq

白川静の辞書は面白い

スレをまとめに
5ch即うp → gzo.ai

■ このスレッドは過去ログ倉庫に格納されています

【ＩＴ】コンピューターで全漢字使用可に ６万字コード化

【ＩＴ】コンピューターで全漢字使用可に６万字コード化