课题组自研的面向密集计算场景的AI芯片ConSci-v1.0开源设计 - 基本信息 - 梁 峰
课题组自研的面向密集计算场景的AI芯片ConSci-v1.0开源设计
开源代码:ConSci-v1.0
单核ConSci 1.0主要性能参数
Ø集成1024个MAC NPUcore,主频500Mhz(28nm,SS工艺角)
Øim2col+GEMM(推理引擎也支持Winograd)
Ø支持FP32、INT32、INT8数据精度
Ø支持软硬一体的数据流配置优化,改进优化NCNN推理引擎,新增自定义NPU后端,打通全流程部署流程,提供完整工具链,最快可数小时完成部署模型
Ø支持PyTorch、Caffe、Darknet、Mxnet、ONNX、Keras、TensorFlow等主流深度学习框架
Ø支持如Resnet系列、YOLO系列、MobileNet系列、SimplePose等30余种CNN网络算法,应用场景包括图像分类、目标检测、动作及姿态检测等(持续迭代更新)
Ø支持80+算子(持续迭代更新)
Ø支持PTQ量化模式( Post-Training Quantization训练后量化)
Ø支持多种工作模式
Ø采用新型硬件描述语言Chisel,大幅提高设计效率与灵活性(2名硕士生一年完成单核NPU开发)
Ø全系统划分为应用层、驱动层和硬件层。驱动层通过 AXI总线对硬件层进行控制,而应用层则可以根据驱动层的API编写应用程序
Ø采用28nm工艺投片,单核算力2TOPS@500MHz(SS工艺角)
Ø采用CPU+NPU的松耦合架构,既可以ASIC实现,也可在FPGA的MPSOC系统上实现(200MHz)
新
News List
闻列表