Rdtsc
rdtsc (англ. Read Time Stamp Counter) — ассемблерная инструкция для платформ x86 и x86_64, читающая счётчик TSC (Time Stamp Counter) и возвращающая в регистрах EDX:EAX 64-битное количество тактов с момента последнего сброса процессора.
rdtsc поддерживается в процессорах Pentium (и совместимых с ними) и более новых. Опкод: 0F 31[1].
rdtscp[2] поддерживается начиная с Intel Nehalem и AMD Family 0x0F[3]. Опкод: 0F 01 F9[4].
Использование
[править | править код]rdtsc чаще всего используется:
- для измерения времени;
- для точного измерения временных интервалов, в том числе при проведении оптимизации (измерение времени, необходимого для выполнения конкретных инструкций или их набора);
- в антиотладочных целях;[5][6]
- как источник энтропии для генераторов псевдослучайных чисел.[7]
Преимущества
[править | править код]В сравнении с предоставляемыми операционными системами API вроде WINAPI::QueryPerformanceCounter() или gettimeofday() инструкции rdtsc/rdtscp могут предоставлять следующие преимущества:
- Более высокая точность, особенно в случае архитектур и устаревших операционных систем, не имеющих полноценной поддержки HPET. Такие ОС используют системный таймер невысокой точности (иногда до слайса планировщика, OsTimeSlice, порядка единиц-десятков миллисекунд).
- Меньшие накладные расходы: инструкции rdtsc/rdtscp исполняются за время порядка десятка тактов, что значительно быстрее выполнения системных вызовов.
- Не требуют переключения в привилегированный режим Ring0 или в гипервизор в большинстве систем (если команда разрешена в данной ОС).
Проблемы использования
[править | править код]- Должны быть предусмотрены режимы работы программ, не требующие данной команды, поскольку RDTSC/RDTSCP потенциально могут быть недоступны или запрещены к использованию на конечной системе, где будет использоваться приложение:
- на очень старых процессорах (например, 80486) либо на системах, реализующих архитектуру x86 не в полном объёме.
- инструкция может быть потенциально превращена в привилегированную (операционной системой установлен 3-й бит в управляющем регистре CR4), и её использование приведет к генерации исключения в программе.
- инструкцию могут перехватывать системы виртуализации, её использование будет приводить к гипервызову.
- Режим энергосбережения может влиять на подсчёт тактов:
- При динамическом изменении частоты процессором (снижения и повышения частоты в технологиях SpeedStep, Turbo Boost, Cool&Quiet и подобных) изменяется скорость работы счётчика TSC.
- Переход процессора в режим глубокого сна C3 останавливает счётчик TSC на старых процессорах.
- В современных процессорах Intel (Nehalem и более новых) и AMD (предположительно, начиная с K10 Barcelona/Phenom) счётчик TSC не зависит от использования технологий энергосбережения и увеличивается с постоянной частотой вне зависимости от того, на какой частоте работает процессор, и работал ли он или находился в состоянии сна. Такой счётчик называется инвариантным (invariant TSC).
- Точные замеры могут быть невозможны при однократном исполнении измеряемого фрагмента инструкций из-за влияния кэшей процессора при обращении к памяти. Традиционно решается многократным измерением фрагмента программы или повторением измеряемого фрагмента в цикле.
- RDTSC может переупорядочиваться с замеряемыми командами на Out-of-Order процессорах. Переупорядочивание можно запретить добавлением сериализующих команд (например, CLD/CLC для Pentium моделей P5, P54[8] или cpuid для более новых) или использованием RDTSCP.
- Измерения длительности коротких фрагментов могут быть нестабильными в многоядерных и многопроцессорных системах, или при использовании HyperThreading из-за взаимного влияния со стороны других потоков и загруженности разделяемых процессорных блоков.
- Счётчики TSC в редких случаях могут быть несинхронизированы в некоторых многоядерных или многопроцессорных системах, в частности:
- При инициализации процессоров.
- Возможна рассинхронизация счётчиков в ранних многоядерных системах из-за неверной инициализации процессоров некоторыми BIOS. Исправляется обновлением BIOS или обновлением операционной системы. Существуют программы для проверки на наличие этой ошибки.[9]
- Операционная система может переключать поток между разными ядрами, имеющими не синхронизированные счётчики. На прикладном уровне можно отследить факт смены ядра на многоядерных системах при помощи инструкции RDTSCP, которая, работая аналогично RDTSC, дополнительно возвращает в регистре ECX номер логического процессора.
Для решения многих проблем рекомендуется фиксирование потока на конкретном процессоре (cpu affinity) и отключение технологий автоматического изменения частоты (технологий энергосбережения и динамического изменения производительности).
Примечания
[править | править код]- ↑ Intel® 64 and IA-32 Architectures Software Developer’s Manual (англ.). — Vol. 2 (Instruction Set Reference). — P. 4—301. Архивировано 20 октября 2013 года.
- ↑ Сериализующий вариант инструкции rdtsc, также читающий IA32_TSC_AUX MSR, в котором часто хранится номер ядра.
- ↑ rdtscp . Дата обращения: 1 ноября 2011. Архивировано 2 января 2012 года.
- ↑ Intel® 64 and IA-32 Architectures Software Developer’s Manual (англ.). — Vol. 2 (Instruction Set Reference). — P. 4—303. Архивировано 20 октября 2013 года.
- ↑ Windows Anti-Debug Reference | Symantec Connect Community . Дата обращения: 30 декабря 2011. Архивировано 14 января 2012 года.
- ↑ Слайд 58 Timing Based Anti-Debugging Архивировано 4 марта 2012 года.
- ↑ Tom St. Denis, Simon Johnson, Cryptography for developers Архивная копия от 9 октября 2021 на Wayback Machine.
- ↑ How to optimize for the Pentium family of microprocessors Архивная копия от 6 января 2012 на Wayback Machine // 1996—2000 by Agner Fog. Chapter «30. Testing speed», перевод Архивировано 19 ноября 2011 года.
- ↑ ICE Affinity . Дата обращения: 19 октября 2011. Архивировано 7 сентября 2011 года.