Suchergebnisse für Anfrage "avx"
AVX: Datenausrichtung: Speicherabsturz, Laden, Laden, Laden nicht
Ich ändere RNNLM, ein neuronales Netz, um das Sprachmodell zu studieren. Aufgrund der Größe meines Korpus läuft es jedoch sehr langsam. Ich habe versucht, die Matrix * -Vektor-Routine zu optimieren (die 63% der Gesamtzeit für kleine Datensätze ...
SIMD minmag und maxmag
Ich möchte SIMD implementierenminmag und maxmag Funktionen [https://www.khronos.org/registry/cl/sdk/1.1/docs/man/xhtml/mag.html]. Soweit ich weiß, sind diese Funktionen minmag(a,b) = |a|<|b| ? a : b maxmag(a,b) = |a|>|b| ? a : bIch möchte diese ...
Wrapper für `__m256` erzeugt Segmentierungsfehler mit Konstruktor - Windows 64 + MinGW + AVX-Probleme
Ich habe eine Gewerkschaft, die so aussieht union bareVec8f { __m256 m256; //avx 8x float vector float floats[8]; int ints[8]; inline bareVec8f(){ } inline bareVec8f(__m256 vec){ this->m256 = vec; } inline bareVec8f &operator=(__m256 m256) { ...
Ausgerichteter und nicht ausgerichteter Speicherzugriff mit AVX / AVX2 intrinsics
Laut Intel Software Developer Manual (Abschnitt 14.9) hat AVX die Ausrichtungsanforderungen für Speicherzugriffe gelockert. Wenn Daten direkt in eine Verarbeitungsanweisung geladen werden, z. B. vaddps ymm0,ymm0,YMMWORD PTR [rax] Die ...
Wie viele Taktzyklen kosten die AVX / SSE-Exponentiation auf einer modernen x86_64-CPU?
Wie viele Taktzyklen kosten die AVX / SSE-Exponentiation auf einer modernen x86_64-CPU? Ich bin über:pow(x, y) = exp(y*log(x)) [https://stackoverflow.com/questions/25936031/pow-for-sse-types] D. tue beidesexp() undlog() AVX x86_64-Anweisungen ...
Sortieren von 64-Bit-Strukturen mit AVX?
Ich habe eine 64-Bit-Struktur, die mehrere Datenelemente darstellt, von denen eines ein Gleitkommawert ist: struct MyStruct{ uint16_t a; uint16_t b; float f; }; und ich habe vier dieser Strukturen in, sagen wir einstd::array<MyStruct, 4> ist es ...
Sind verschiedene mmx-, sse- und avx-Versionen komplementär oder übergeordnet?
Ich denke, ich sollte mich mit x86-SIMD-Erweiterungen vertraut machen. Aber bevor ich überhaupt angefangen habe, bin ich in Schwierigkeiten geraten. Ich kann keine gute Übersicht darüber finden, welche davon noch relevant sind. Die ...
Wie löse ich das 32-Byte-Alignment-Problem für AVX-Lade- / Speichervorgänge?
Ich habe ein Ausrichtungsproblem bei der Verwendung vonymm registriert, mit ein paar Codefragmenten, die mir in Ordnung erscheinen. Hier ist ein minimales Arbeitsbeispiel: #include <iostream> #include <immintrin.h> inline void ones(float *a) { ...
Wie schreibe ich C ++ - Code, den der Compiler effizient in SSE oder AVX kompilieren kann?
Nehmen wir an, ich habe eine in c ++ geschriebene Funktion, die Matrixvektormultiplikationen mit vielen Vektoren ausführt. Es wird ein Zeiger auf das zu transformierende Array von Vektoren benötigt. Kann ich zu Recht davon ausgehen, dass der ...
Automatisches Generieren von FMA-Anweisungen in MSVC
MSVC unterstützt seit Jahren AVX / AVX2-Anweisungen und entsprichtdieser msdn-Blogbeitrag [http://blogs.msdn.com/b/vcblog/archive/2014/02/28/avx2-support-in-visual-studio-c-compiler.aspx] , es kann automatisch @ erzeug fused-multiply-add ...