albin504 最近的时间轴更新

albin504

V2EX 第 503851 号会员，加入于 2020-08-14 19:20:24 +08:00

今日活跃度排名 16832

albin504 提问技术话题好玩工作信息交易信息城市相关

根据 albin504 的设置，主题列表被隐藏

二手交易相关的信息，包括已关闭的交易，不会被隐藏

albin504 最近回复了

5 天前

回复了 ryan4yin 创建的主题 › 职场话题 › 离职真的很难体面

兄弟是直性子人，挺不错的。吃亏有时候也是福

5 天前

回复了 ryan4yin 创建的主题 › 职场话题 › 离职真的很难体面

为啥不拿了年终奖再提离职啊

11 天前

回复了 albin504 创建的主题 › 程序员 › 有了 AI 加持，学习新技术效率提升很明显

@alexhx 科技大佬都说了，未来 10 年大部分职业都会被人工智能取代。
如果要走技术深度路线，新人不学这，那学啥啊？

另外一条路是，培养指挥 AI 办事儿的能力。比如你一个人开一家公司，你懂产品、技术、商业，自己利用 AI 能跑通一个商业模式。

再者就是，向 AI agent 开发方向靠拢

11 天前

回复了 albin504 创建的主题 › 程序员 › 有了 AI 加持，学习新技术效率提升很明显

@CziL 谢谢分享

12 天前

回复了 albin504 创建的主题 › 程序员 › 有了 AI 加持，学习新技术效率提升很明显

@Baymaxbowen 谢谢。神器

12 天前

回复了 albin504 创建的主题 › 程序员 › 有了 AI 加持，学习新技术效率提升很明显

@dxcqcv 不知道。最近业务中用到了 GPU ffmpeg 视频转码。出于好奇，在了解一些 cuda 编程的知识

12 天前

回复了 albin504 创建的主题 › 程序员 › 有了 AI 加持，学习新技术效率提升很明显

@qieqie 大佬说的词我都还没听过，刚开始学了两天

12 天前

回复了 albin504 创建的主题 › 程序员 › 有了 AI 加持，学习新技术效率提升很明显

@qieqie 遇到行家了。我贴一下代码：

```
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <cuda_runtime.h>
#include "common/book.h"

#define N (32 * 1024 * 1024) // 32M elements
#define THREADS_PER_BLOCK 256

// Kernel to initialize data directly on GPU
__global__ void init_data_kernel(float *a, float *b, int n) {
int tid = threadIdx.x + blockIdx.x * blockDim.x;
int stride = blockDim.x * gridDim.x;

for (int i = tid; i < n; i += stride) {
a[i] = 1.0f;
b[i] = 2.0f;
}
}

// Dot product computation kernel (Same as before)
__global__ void dot_product_kernel(float *a, float *b, float *c, int n) {
int tid = threadIdx.x + blockIdx.x * blockDim.x;
int stride = blockDim.x * gridDim.x;

float sum = 0;
for (int i = tid; i < n; i += stride) {
sum += a[i] * b[i];
}

// Shared memory reduction per block
__shared__ float cache[THREADS_PER_BLOCK];
int cacheIndex = threadIdx.x;
cache[cacheIndex] = sum;
__syncthreads();

int i = blockDim.x / 2;
while (i != 0) {
if (cacheIndex < i)
cache[cacheIndex] += cache[cacheIndex + i];
__syncthreads();
i /= 2;
}

if (cacheIndex == 0)
atomicAdd(c, cache[0]);
}

void dot_product_cpu(float *a, float *b, float *c, int n) {
double sum = 0;
for (int i = 0; i < n; i++) {
sum += a[i] * b[i];
}
*c = (float)sum;
}

int main() {
// Host pointers (only for verification)
float *a_host, *b_host, *c_cpu, *c_gpu;
// Device pointers
float *dev_a, *dev_b, *dev_c;

// Allocate host memory (just for CPU verification)
a_host = (float*)malloc(N * sizeof(float));
b_host = (float*)malloc(N * sizeof(float));
c_cpu = (float*)malloc(sizeof(float));
c_gpu = (float*)malloc(sizeof(float));

// Initialize host arrays for CPU calculation
for(int i=0; i<N; i++) {
a_host[i] = 1.0f;
b_host[i] = 2.0f;
}

printf("Vector size: %d elements (%.2f MB per vector)\n", N, (float)N * sizeof(float) / 1024 / 1024);

// --- CPU Computation ---
clock_t start = clock();
dot_product_cpu(a_host, b_host, c_cpu, N);
clock_t end = clock();
double cpu_time = ((double)(end - start)) / CLOCKS_PER_SEC * 1000.0;
printf("CPU Result: %.2f\n", *c_cpu);
printf("CPU Time: %.2f ms\n", cpu_time);

// --- GPU Computation (Zero-Copy Init) ---

// 1. Allocate Device Memory
HANDLE_ERROR(cudaMalloc((void**)&dev_a, N * sizeof(float)));
HANDLE_ERROR(cudaMalloc((void**)&dev_b, N * sizeof(float)));
HANDLE_ERROR(cudaMalloc((void**)&dev_c, sizeof(float)));

start = clock();

// 2. Initialize Data on GPU (No Memcpy from Host!)
int blocksPerGrid = (N + THREADS_PER_BLOCK - 1) / THREADS_PER_BLOCK;
if (blocksPerGrid > 65535) blocksPerGrid = 65535;

init_data_kernel<<<blocksPerGrid, THREADS_PER_BLOCK>>>(dev_a, dev_b, N);
HANDLE_ERROR(cudaGetLastError());

// Reset result
float zero = 0.0f;
HANDLE_ERROR(cudaMemcpy(dev_c, &zero, sizeof(float), cudaMemcpyHostToDevice)); // Tiny copy (4 bytes)

// 3. Compute
dot_product_kernel<<<blocksPerGrid, THREADS_PER_BLOCK>>>(dev_a, dev_b, dev_c, N);
HANDLE_ERROR(cudaGetLastError());
cudaDeviceSynchronize();

// 4. Copy Result Back
HANDLE_ERROR(cudaMemcpy(c_gpu, dev_c, sizeof(float), cudaMemcpyDeviceToHost)); // Tiny copy (4 bytes)

end = clock();
double gpu_time = ((double)(end - start)) / CLOCKS_PER_SEC * 1000.0;

printf("GPU Result: %.2f\n", *c_gpu);
printf("GPU Time (Total including Init on GPU): %.2f ms\n", gpu_time);

// Compare
printf("Speedup (GPU vs CPU): %.2fx\n", cpu_time / gpu_time);

// Cleanup
free(a_host); free(b_host); free(c_cpu); free(c_gpu);
cudaFree(dev_a); cudaFree(dev_b); cudaFree(dev_c);

return 0;
}

```

这个版本是在 GPU 上初始化向量。

AI 给出的第一版是在 CPU 上初始化向量然后 copy 到 GPU ，这个 copy 过程成为了瓶颈（ 200 多 M 数据 copy 花费 64ms ）

12 天前

回复了 albin504 创建的主题 › 程序员 › 有了 AI 加持，学习新技术效率提升很明显

@crocoBaby 嗯嗯，谢谢，抽空我也看看。这方面我是门外汉，我只是拼感觉提的几个问题。

12 天前

回复了 albin504 创建的主题 › 程序员 › 有了 AI 加持，学习新技术效率提升很明显

@crocoBaby 给 AI 喂权威资料，现在已经成为 AI 训练的一个难题了。以公司内部的知识库资料训练为例，假如我们要高很多一个公司内部的行政小助理，训练会遇到以下问题：
（ 1 ）公司内部的知识库上有多篇文章提到公司的考勤制度，其中一些文章写的制度已经过时了，这时候 AI 就需要去判断该采信哪个信息源。
（ 2 ）有些政策和特定的毕竟信息强相关（类似于不同的软件版本不同的参数），在提问时如果没给出很具体的背景信息，AI 只是根据概率给出了概率较大的答案，这时候很可能是错误的答案
（ 3 ）有些知识库的内容本身就是错误的（就是你提到的不权威）

» albin504 创建的更多回复