大雑把に言うと一つ一つの処理を馬鹿正直やらずに省ける部分を省いても同じ結果になるようにするってのと、
ハードウェアの都合上より速くなる方法を使うようにするっての2つがポイントじゃないかなと思う。

例えば1から100まで全部足す必要がある場合に、一つずつ数字を足すよりも(1+100)×100×1/2という公式を使えば速くなるみたいなのとか。
一度やった事のある計算と結果に通し番号を付けておいて、同じ計算がまた必要になった時に実際に計算する代わりに前回の結果を使いまわすとか。
何度も呼び出されるコードはCPUのキャッシュサイズに収まるようにするとか。