Suchergebnisse für Anfrage "sse"
Warum ist meine einfache Quaternion-Multiplikation schneller als die von SSE?
Ich habe einige verschiedene Implementierungen der Quaternion-Multiplikation durchlaufen, war jedoch ziemlich überrascht, dass die Referenzimplementierung bisher meine schnellste ist. Dies ist die fragliche Implementierung: inline static quat ...
Eine schnellere Quaternion-Vektor-Multiplikation funktioniert nicht
Ich benötige eine schnellere Quaternion-Vector-Multiplikationsroutine für meine Mathematik-Bibliothek. Im Moment benutze ich das Kanonischev' = qv(q^-1)Dies ergibt dasselbe Ergebnis wie das Multiplizieren des Vektors mit einer Matrix aus dem ...
Automatische Vektorisierung funktioniert nicht
Ich versuche, meinen Code automatisch zu vektorisieren, aber es funktioniert nicht. int _tmain(int argc, _TCHAR* argv[]) { const int N = 4096; float x[N]; float y[N]; float sum = 0; //create random values for x and y for (int i = 0; i < N; i++) ...
Initialisieren eines __m128-Typs von einem 64-Bit-Int. Ohne Vorzeichen
Das_mm_set_epi64 [http://msdn.microsoft.com/en-us/library/ecz16x1z%28v=vs.90%29.aspx]und ähnliche * _epi64-Anweisungen scheinen zu verwenden und hängen davon ab__m64 Typen. Ich möchte eine Variable vom Typ initialisieren__m128 so dass die oberen ...
Deaktivieren Sie die AVX2-Funktionen auf Nicht-Haswell-Prozessoren
Ich habe AVX2-Code geschrieben, der auf einem Haswell i7-Prozessor ausgeführt werden soll. Dieselbe Codebasis wird auch auf Nicht-Haswell-Prozessoren verwendet, bei denen derselbe Code durch ihre SSE-Entsprechungen ersetzt werden sollte. Ich habe ...
Wie berechnet diese Funktion den absoluten Wert eines Gleitkommas durch eine NOT- und eine AND-Operation?
Ich versuche zu verstehen, wie der folgende Codeausschnitt funktioniert. Dieses Programm verwendet SIMD-Vektoranweisungen (Intel SSE), um den Absolutwert von 4 Floats zu berechnen (also im Grunde eine vektorisierte "fabs ()" - Funktion). Hier ...
Kann maximal 50% nicht überschreiten. theoretische Leistung auf Matrix multiplizieren
Problem Ich lerne etwas über HPC und Codeoptimierung. Ich versuche, die Ergebnisse in Gotos Seminalmatrix-Multiplikationspapier zu replizieren ...
SSE: Problem mit der Zeilen- oder Spaltenleistung
Aus persönlichen und unterhaltsamen Gründen codiere ich eine Geom-Bibliothek mit SSE (4.1). Ich habe in den letzten 12 Stunden versucht, ein Leistungsproblem zu verstehen, wenn ich mich mit der gespeicherten Matrix Zeilenmajor vs. Spaltenmajor ...
Richtige Methode zum Aktivieren von SSE4 auf der Basis von Funktionen / Codeblöcken?
Für eines meiner OS X-Programme habe ich einige optimierte Fälle, in denen SSE4.1-Anweisungen verwendet werden. Auf Nur-SSE3-Computern wird der nicht optimierte Zweig ausgeführt: // SupportsSSE4_1 returns true on CPUs that support SSE4.1, false ...
pthreads v. SSE schwache Speicherordnung
Dienen die Linux-glibc-pthread-Funktionen auf x86_64 als Zäune für schwach geordnete Speicherzugriffe? (pthread_mutex_lock / unlock sind die genauen Funktionen, an denen ich interessiert bin). SSE2 stellt einige Anweisungen mit einer schwachen ...