Suchergebnisse für Anfrage "sse"

2 die antwort

Warum ist meine einfache Quaternion-Multiplikation schneller als die von SSE?

Ich habe einige verschiedene Implementierungen der Quaternion-Multiplikation durchlaufen, war jedoch ziemlich überrascht, dass die Referenzimplementierung bisher meine schnellste ist. Dies ist die fragliche Implementierung: inline static quat ...

1 die antwort

Eine schnellere Quaternion-Vektor-Multiplikation funktioniert nicht

Ich benötige eine schnellere Quaternion-Vector-Multiplikationsroutine für meine Mathematik-Bibliothek. Im Moment benutze ich das Kanonischev' = qv(q^-1)Dies ergibt dasselbe Ergebnis wie das Multiplizieren des Vektors mit einer Matrix aus dem ...

2 die antwort

Automatische Vektorisierung funktioniert nicht

Ich versuche, meinen Code automatisch zu vektorisieren, aber es funktioniert nicht. int _tmain(int argc, _TCHAR* argv[]) { const int N = 4096; float x[N]; float y[N]; float sum = 0; //create random values for x and y for (int i = 0; i < N; i++) ...

TOP-Veröffentlichungen

3 die antwort

Initialisieren eines __m128-Typs von einem 64-Bit-Int. Ohne Vorzeichen

Das_mm_set_epi64 [http://msdn.microsoft.com/en-us/library/ecz16x1z%28v=vs.90%29.aspx]und ähnliche * _epi64-Anweisungen scheinen zu verwenden und hängen davon ab__m64 Typen. Ich möchte eine Variable vom Typ initialisieren__m128 so dass die oberen ...

2 die antwort

Deaktivieren Sie die AVX2-Funktionen auf Nicht-Haswell-Prozessoren

Ich habe AVX2-Code geschrieben, der auf einem Haswell i7-Prozessor ausgeführt werden soll. Dieselbe Codebasis wird auch auf Nicht-Haswell-Prozessoren verwendet, bei denen derselbe Code durch ihre SSE-Entsprechungen ersetzt werden sollte. Ich habe ...

1 die antwort

Wie berechnet diese Funktion den absoluten Wert eines Gleitkommas durch eine NOT- und eine AND-Operation?

Ich versuche zu verstehen, wie der folgende Codeausschnitt funktioniert. Dieses Programm verwendet SIMD-Vektoranweisungen (Intel SSE), um den Absolutwert von 4 Floats zu berechnen (also im Grunde eine vektorisierte "fabs ()" - Funktion). Hier ...

1 die antwort

Kann maximal 50% nicht überschreiten. theoretische Leistung auf Matrix multiplizieren

Problem Ich lerne etwas über HPC und Codeoptimierung. Ich versuche, die Ergebnisse in Gotos Seminalmatrix-Multiplikationspapier zu replizieren ...

2 die antwort

SSE: Problem mit der Zeilen- oder Spaltenleistung

Aus persönlichen und unterhaltsamen Gründen codiere ich eine Geom-Bibliothek mit SSE (4.1). Ich habe in den letzten 12 Stunden versucht, ein Leistungsproblem zu verstehen, wenn ich mich mit der gespeicherten Matrix Zeilenmajor vs. Spaltenmajor ...

3 die antwort

Richtige Methode zum Aktivieren von SSE4 auf der Basis von Funktionen / Codeblöcken?

Für eines meiner OS X-Programme habe ich einige optimierte Fälle, in denen SSE4.1-Anweisungen verwendet werden. Auf Nur-SSE3-Computern wird der nicht optimierte Zweig ausgeführt: // SupportsSSE4_1 returns true on CPUs that support SSE4.1, false ...

1 die antwort

pthreads v. SSE schwache Speicherordnung

Dienen die Linux-glibc-pthread-Funktionen auf x86_64 als Zäune für schwach geordnete Speicherzugriffe? (pthread_mutex_lock / unlock sind die genauen Funktionen, an denen ich interessiert bin). SSE2 stellt einige Anweisungen mit einer schwachen ...