今のマルチバイトの文字コードはUTFー8のように可変長だったりする。
固定長のSJISやEUCやJISコードの場合にも、ASCIIコードと混在させる
ために、文字列等の処理ではいろいろと条件判断によって文字の処理を
行わなければならないが、それはつまり普通のCPUの命令で行うと
条件分岐が生じてパイプライン処理が混乱したりするだろう。
また、CPUのレジスタが32ビット(4バイト)や64ビット(8バイト)
であったりしても、1バイトあるいは2バイト、3バイトなどのような
ワードの境界を無視した位置にメモリ上で置かれていたり、また
レジスタの内部でバイト単位でシフトしたりマスクしたりして、
必要な文字のデータを取り出して来ないといけないと思う。
(たしかに、今日多くのマイクロプロセッサのアーキテクチャーは
バイトアドレスになっているけれども)。
文字列処理の性能を出すためには、そういった異なる長さの文字コード
とか、文字種の変更のコードだとか、可変長の文字コードの体系に
対応する機械語命令を設けることが望ましいのではないかと思う。
それにより、パイプラインの乱れなどを避けられたらいいと思う。
本当は、もうそろそろいい加減に文字は4バイト固定長にして
バイト単位であれこれ面倒な処理をするのは辞めたらどうかと思うのだ。
そうはいってもファイルに文字列をストアしたり、通信をするときには
どうしても容量をケチりたいだろうから、そういうときには専用の
圧縮機能を持つ回路を(画像の処理がGPUであるように)附加しておけば
良いだけじゃ無いかな?もちろんちまちまとソフトで出入り口のところだけ
は処理しても良いかもしれないが。
今はASCIIコード以外の文字を扱う場合のプログラムは面倒でバグが入り
安いと思う。文字がすべて32ビットで種類も1種類しかなければ、
物事は極めて簡単になるのに。
【IT】RISC-Vによる新しいプロセッサの開発が難しいのはなぜなのか?
■ このスレッドは過去ログ倉庫に格納されています
82名無しのひみつ
2020/05/27(水) 14:07:55.17ID:Zqfw9Nvy■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【巨人】阿部慎之助氏代理人 報道に関するお知らせとお願い ★4 [Ailuropoda melanoleuca★]
- 【神奈川】遺体は両親と女児2人、心中か 海岸付近などで発見 真鶴 [ぐれ★]
- 【旭川女子高生殺害】内田梨瑚被告が初めて遺族に謝罪「人生を奪って申し訳ございません」涙流し傍聴席に30秒以上一礼 [ぐれ★]
- 【野球】交流戦 G 2-1 B [6/4] 巨人競り勝ち3連勝 泉口が勝ち越し二塁打 先発・田中将は7回1失点、112球の熱投も勝ち負けつかず [ぐれ★]
- 【住宅ローン】「超長期」急増、首都圏新築は3人に1人 家計にリスク [蚤の市★]
- 【🗻】富士山「閉山中の登山禁止」 市長が主張、登山家らは反対署名…なぜ [ぐれ★]
- 【悲報】暴言を吐いてXのアカウントをロックされた暇アノン「イーロン許せねえ!」「は?反省する訳ないだろ!」 [784319933]
- ウルトラマンハウス🏡
- マヴラブガールズガーデン
- 【最大の謎】質問を午前3時に知った高市早苗がそのまま無視して寝たのに「寝てない」と嘘ついた理由 [784319933]
- 天安門事件の当時の学生リーダーが会見「今こそ日本は最前線で中国に立ち向かうべきだ!」 …………えっ?😅 [117552482]
- 【悲報】人類史上最大の未解決課題「つけ麺のスープがだんだんヌルくなっていく問題」、解決の目処すら立たない [769931615]