麦克斯韦架构 (Maxwell)

Maxwell GPU的主要目标是提高性能-功耗比

Maxwell可以算Kepler的改进版架构。两个架构最明显的变化是在SMX单元和GPC单元上。Maxwell的SMM(之前叫SMX)单元从之前Kepler的包含192个CUDA Core下降到128个,但发射器从之前的每SMX一个变为了每SMM四个,目的是降低每个SMM单元的运算压力提升效率。增加了两个寄存器,然后L1缓存翻倍,GPC单元的L2缓存增加到了2M。

扩展阅读

https://www.zhihu.com/question/23208778/answer/23922535

开普勒架构

开普勒架构产品

nvidia - 开普勒GPU

SMX - 流式多处理器

这一创新的新型流式多处理器设计让应用到处理核心上的空间比例远高于控制逻辑单元上所应用的空间比例,从而可实现更高的处理性能和效率。

Kepler GK110 GPU由 71 亿个晶体管组成,是创造的一个工程奇迹。

Kepler 设计的初衷就是利用卓越的电源效率达到计算性能的最大化。该架构的创新之处在于使混合计算大大简化,适用于更广泛的应用,更容易获得。

Dynamic Parallelism - 动态创建工作

新的 Dynamic Parallelism 功能,使 Kepler GK110 GPU 能通过应用不返回主机 CPU 的数据而动态创建新线程。
这能使多个程序有效地直接在 GPU 上运行,因为内核现在有能力独立承担所需的额外工作量。

任何内核可以启动另一个内核,并创建处理额外的工作所需的必要流程、事件和依赖,而无需主机 CPU的介入。
这种简化的编程模式更易于创建、优化和维护。

扩展阅读

多GPU并行计算

单机多卡

常用的tower loss的方式。

多机多卡

Q: 业内有哪些成熟的GPU集群的解决方案?
A: 哪方面需求?训练、运维、部署、调度、负载均衡?

Q: 主要是部署、调度和负载均衡吧
A: docker+kubernetes+prometheus

我: 震惊,集群还分这么多种?

cuda并行编程

cuda

cuda全程 Compute Unified Device Architecture.

2009年nvidia引入tesla架构,创造了cuda。

cuda是专门为Nvidia GPU的提供的C/C++ API,是GPU计算资源的高层抽象(兼容不同架构、不同版本GPU)。

它的核心是三个关键的抽象——

  • 线程组的层次结构(hierarchy of thread groups):
  • 共享内存(shared memories):
  • 障碍同步(barrier synchronization):

它们只是作为最小的语言扩展集公开给程序员。

这些抽象提供细粒度数据并行性和线程并行性,嵌套在粗粒度数据并行性和任务并行性中。

扩展阅读

调幅广播(535~1605kHZ为广播频段),AM调制,假定载波639KHZ(《中国之声》北京、天津AM调幅),那么1/4波长约为117.3m,即天线长约117.3m。

新闻中的中波电台发射塔,最高的发射塔高度达165米

所以确实需要很大的发射天线。作为发射电台,功率要大,效率要高,所以只能这么大个子了。

接收端则要求便携,效率不是首先要考虑的问题。一般用磁棒天线利用磁棒的高磁导率来缩小天线尺寸,所以10cm甚至更短的磁棒就够用了

FAQ

调幅广播频率这么低也能发射,什么原理?

如果天线太短,则说明发射极频率过高,反射厉害,信号也不稳定,不容易找到目标

低频的载频是可以发射的,只不过天线要长一些,功率要高些而已。

频率越高天线越短,反之越长,有公式

经验上,天线是四分之一的波长,例如GSM波长33cm,所以手机一般也就大于8cm长。

准确地说,天线是四分之一的电波长。如果导体在介电常数为n的介质中,则尺寸可以缩为原有的1/n。比如现在的2.4GHz陶瓷天线,可以做到只有大概一粒大米那么大

6M是妥妥的HF了…短波电台都是这个频率量级的,而中波电台现在都还很常见