본문 바로가기

전체 글

(185)
2. 컴퓨터의 성능 (1/3) 암달의 법칙 cpu 실행 시간 프로그램을 수행하는데 순수하게 사용된 시간 ( I/O 작업 제외 ) 성능이 높다는 말이 CPU 실행 시간이 짧다는 의미이다. Ex) M1과 M2가 있을 때 M1에 대한 M2의 성능 비율은 암달의 법칙 병렬화를 적용한 성능 향상은, 시스템의 순차적 시간에 의해 제한되는 것 즉, 아무리 병렬화를 해줘도, 한계가 있다. M1을 일부 개선한 M2가 있을 때, M2의 실행 시간은 여기서 M은 약분이 되므로, 이 된다. 여기서 N은 성능 향상 크기 F는 영향을 받는 부분이다. 만약 N에 무한정으로 투자를 해 성능을 극대화 한다 해도. 고정된 순차적 시간 이상으론 최적화 할 수 없다. Ex) 부동 소수점 연산의 수행 시간이 50%를 차지하는 프로그램이 있을 때, 2배 빠르게 수행할려면 수행 시간이 ..
11. 캐시 메모리 (3/4) 블록 교체, 갱신, 실패 메모리에서 새로운 블럭을 가져와야 하는데, 캐시 테이블에 다른 블럭들로 차있으면, 교체를 해야 한다. 또, 캐시 블록과 메모리의 일관성을 유지하기 위한 대책도 필요하다. 1. 블록 교체 방식 1. 최소 최근 사용(LRU) 구현 비용이 높지만, 최고의 적중률을 보인다. 2. 무작위 방식 : 임의의 캐시 블록을 교체한다. 효율성은 보장하지 못하지만, 구현이 쉽다. 3. 선입 선출 : 먼저 적재된 블록을 먼저 축출한다. 상황에 따라서 무작위보다 안 좋다. 2. 블록 갱신 방식 1. 즉시 쓰기(write-through) 캐시 블록에 쓰기 연시, 메모리에도 수정 내용을 전달한다. 메모리 접근은 비용이 많이 들어서 꼭 필요한 블록에만 이 방식을 적용한다. 2. 나중 쓰기(write-back) 캐시 블록이 수정되면 ..
11. 캐시 메모리 (2/4) 사상(mapping) 캐시는 메모리보다 용량이 작기 때문에, 캐시 미스가 발생할 수 밖에 없다. 따라서, 메모리 블록을 어떻게 교체할 지에 대한 전략들이 있다. 교체 방식에는 대표적으로 3가지가 있다. 1. 직접 매핑 : 오직 1:1 2. 완전 연관 매핑 : 아무데나 사상 가능 3. 집합 연관 매핑 : 1 2번의 절충안으로, 정해진 블록의 집합내 어디서든 사상 가능 예를 들자면, 빅 엔디안 기반인 환경에서, 512바이트의 메모리와, 128바이트의 캐시를 가지고 있다. 16바이트의 블록을 가지고 있고, 워드는 4바이트다. 계산해보면 메모리 주소는 512 = 2^9 이므로, 9비트 캐시 주소는 128 = 2^7 이므로 7비트다. 여기서 블록이 16 = 2^4 이므로, 각각의 주소에 4비트를 차지한다. 정리하면. 메모리의 블록 번..
11. 캐시 메모리 (1/4) 개요 cpu에서 데이터를 처리하기 위해 메모리까지 접근하기에는 시간이 너무너무 오래 걸린다. 그렇기 때문에 중간에 CPU 캐시 메모리를 둬서 빠르게 꺼내 쓸 수 있게 한다. 만약 캐시에 없다면?? 그러면 메모리까지 가야한다. 메모리에도 없으면... 보조 기억 장치까지 가야하는데 이렇게 되면 속도가 많이 느리다 캐시 메모리는 일반적으로 조작할 수 있는 명령어를 프로그래머에게 제공하지 않아, 투명성을 가지고, 컴퓨터의 기능과는 상관없이 성능에만 영향을 준다. 1. 적중과 실패 캐시메모리는 메모리에 비해 적은 용량을 가지고 있으므로, 메모리에는 있는 내용이, 캐시엔 없을 수 있다. 이런 현상을 캐시 미스(Cache miss)라고 하고, 반대로, 캐시에도 존재하면 캐시 히트(Cache hit)라고 한다. 캐시 메모리..
PC, LR, SP sp sp는 스택 포인터로, 변수는 sp를 기준으로 생성, 접근된다. 마지막에는 이렇게, 8바이트를 사용했으니, 그만큼 8바이트를 더해주고, sp에 더한 값을 넣는다. 보통은 이걸 스택을 정리해준다 라고 한다. lr, pc lr은 Return address가 담겨있는 부분이다. pc는 현재 실행중인 명령어의 위치이다. 1~10000까지 더하는 코드다 11줄의 bl sum 에 bp를 찍고 실행한 disassemble 창이다. pc는 다음 실행할 명령어인 0x808c를 가리키고, 아직은 main 함수 내여서 돌아갈 주소가 없으니, lr은 0x0이다. sum 브랜치가 종료되면 loop브랜치를 마저 실행해야 하니, bl sum의 다음 명령어인, 0x8090 (loop+16)의 값을 저장하고, pc는 그냥 실행할..
LDR / STR Indexing 기본 사용방법 LDR | STR rd, [rn], [] { ! } 그냥 이걸 보기 편하게 하면 포인터와 &라고 보면 된다. 여기서 대략적인 사용법은 봤으니 다음 걸 설명한다. LDR R0, [ R1, #1 ] => R0 = R1[ 1 ] => R1 + 1 과 같다. LDR R0, [ R1, R2, LSL #2 ] => R0 = R1[ R2 * 4 ] 와 같다. 마찬가지로 STR을 보면 STR R0, [ R1, R2, LSL #2 ] => R1[ R2 * 4 ] = R0 이다. 간단한 예시를 보자. msg를 0x1234로 초기화 한뒤, ldr로 가져오는 코드다. 간단히 말해서, r1은 r0[1] 이므로, 0x1234에서 0x12를 가져오고, r2는 r0[2] 이지만, r0[2]은 0이어서 0을 가져온다. ..
section .text read-only section 코드 영역이라고도 불리며, 상수 및 실행 코드인 기계어 코드들이 담겨 있다. .end 프로그램이 끝나는 부분. 이후의 코드는 무시된다. .data 말 그대로 데이터 영역. global 변수와 static 변수가 여기에 들어간다. 다만, static은 공간만 할당되고, static 변수가 있는 함수가 실행될 때 초기화 된다. 프로그램이 시작할 때 할당되고, 종료될 때 반환된다. 여기서 초기화된 데이터는 .data에 들어가고, 초기화되지 않은 변수는 .bss 에 들어간다. 예시 코드를 보면 .text .global _start _start: adr r4, a ldr r0, [r4] adr r4, b ldr r1, [r4] add r3, r0, r1 @ a + b a..
shift 연산자 1. lsl, lsr lsl부터 보자. 다만, 플래그 값을 보기 위해선 명령어에 S를 붙여야 한다. lsl 해주고 왜 안되나 한참 생각했네.. 1 .global _start 2 _start: 3 mov r0, #0x7FFFFFFF 4 lsls r0, #1 5 lsls r0, #1 @ 여기까지만 cpsr이 변한다. 6 lsls r0, #1 7 lsls r0, #1 8 lsls r0, #1 9 b exit 10 11 exit: 12 mov r0, #0 13 mov r7, #1 14 swi 0 r0에 signed int의 최대값을 넣은 뒤, 왼쪽으로 shift 연산을 할 때마다 레지스터 상태를 볼 것이다. 여기서 0x80000000 값이 더해진 걸 볼 수 있다. 이는 이진수로 1000 0000 0000 000..