Результаты поиска по запросу "gpu"

2 ответа

до запуска чего-то на GPU.

отал над тем, чтобы приложение, использующее TensorFlow, работало как докер-контейнер с

0 ответов

Перейдите в каталог cuda \ bin в проводнике, переименуйте один файл dll в cudnn64_5.dll Готово.

я та же проблема, что и ваналогичный вопрос [https://stackoverflow.com/questions/44080677/no-module-named-pywrap-tensorflow-internal] и попробовал предложенное решение, но оно не сработало. Ниже вы можете найти трассировку стека. Я нахожусь на ...

1 ответ

 ИМХО в настоящее время это лучший способ распределенного обучения даже на разных машинах.

жем назначить разные устройства для выполнения разных операций в Tensorflow Graph сtf.device ('CPU или GPU'), Не понятно как их разделить. Другое дело, если мы используем стандартную вещь, всегда ли TF использует GPU, если есть ...

ТОП публикаций

1 ответ

@JEM_Mosig FYI или любой другой, кто хочет получить к нему доступ из терминала, вы можете добавить эти строки в ваш файл ~ / .bashrc - это скрытый файл в вашем домашнем каталоге

аюсь запустить приведенный ниже код, но сообщается об ошибке: NvvmSupportError: libNVVM не может быть найден. Делатьconda install cudatoolkit: библиотека nvvm не найдена Моя среда разработки: Ubuntu 17.04, Spyder / Python3.5, и я установил ...

3 ответа

Достигнуто количество кадров, которые драйверу разрешено буферизовать, и приложение ожидает на графическом процессоре для обработки одного из них. Это обычно будет отображаться как большая часть блокирования времени при первом вызове отрисовки в кадре или при наличии в конце предыдущего кадра.

данные о текстуре, вершине и шейдере уже находятся на видеокарте, вам не нужно отправлять много данных на карту. есть несколько байтов для идентификации данных, и предположительно матрица 4x4, и некоторые другие параметры. так откуда все эти ...

3 ответа

@BugshotGG: ссылка мертва, лучше ссылка где-нибудь стабильнее ...

р разделяемой памяти («локальная память» в терминах OpenCL) составляет всего 16 КиБ на большинстве современных графических процессоров nVIDIA. У меня есть приложение, в котором мне нужно создать массив, который имеет 10000 целых чисел. поэтому ...

1 ответ

Это связано с тем, что существует множество различных вариантов кода для разных плат вычислительных возможностей, поэтому для поддержания разумного размера двоичного файла в предварительно собранном двоичном файле поддерживается только выбранный диапазон вычислительных возможностей.

дя обучение по установке для Linux (Tensorflow 1.8), и я не уверен, как интерпретировать фразу: Карта GPU с CUDA Compute Capability 3.0 или выше для сборки из исходного кода и 3.5 или выше для наших двоичных файлов. См. Документацию NVIDIA для ...

1 ответ

В качестве альтернативы, вы можете передать -1 маске, чтобы установить все биты:

щен __shfl_down и __shfl_down_sync, они дают разные результаты. __global__ void shufledown1(double* a, double *b,double *c, int N) { double temp = 2.0; __syncthreads(); for (int offset = 32/2; offset > 0; offset /= 2){ temp+=__shfl_down(temp, ...

1 ответ

https://github.com/pytorch/pytorch/issues/6098

учаю эту ошибку при запуске сценария в Ubuntu 16.04. Пожалуйста, потерпите меня, я новичок в Python, я проверил уже имеющиеся варианты в Интернете, но я не мог это исправить. RuntimeError: cuda runtime error (10) : invalid device ordinal ...

1 ответ

Как определить поток устройства назначения в cudaMemcpyPeerAsync ()?

Я делаю асинхронный memcpy из gpu0 в gpu1 с помощью cudaMemcpyPeerAsync (). cudaMemcpyAsync () предоставляет возможность использования потока для gpu0, но не для gpu1. Можно ли как-то определить поток принимающего устройства тоже? Я использую ...