Mark 一些有意思的深度学习方向

1. VQA

       Visual Question Answering,给出一张图片,就该图片提出任何问题?自动get到你所期望的答案。

       这属于Visual Reasoning 的范畴,学者们不满足于传统的图像识别、分割、Caption等工作,尝试去挖掘更高级的机器推理能力。

       来看解决思路,CNN、LSTM(RNN)、Attention Model、BOW,都是图像、文本、NLP领域的通用手法,没什么新词。

       

       参考一下MIT周博磊同学的 demo(基于BOW+IMG):

       http://visualqa.csail.mit.edu/

 

2. 单图像目标深度估计

       基于单图像的深度做的比较多了,目前基于目标的检测做的工作非常多,如何提取有效景深还是蛮重要的一个话题,目前已经有不少团队在尝试了。

       设想基于Mask-RCNN,再添加一个分支,用来做depth。

       


3. 基于视频流的分析

       视频解码的代价太大了,如果在视频不解码的基础上做分析,能解决非常大的计算量,各种嵌入式设备上的应用,有什么办法能够有效的解决这个问题,能解决伐?想想做梦能笑醒!

 

4. AI水军

       最近很火的一个话题,好多5毛党要失业了,这才是刚需啊。

       与之相比,摆摊安装caffe、tensorflow啥的真是太low了。

        


http://www.niftyadmin.cn/n/904591.html

相关文章

视频信号指标与测试方法

1. 视频信号幅度: 标准的视频信号幅度是1Vp-p,由两个测试指标组成: 1) 白条幅度(视频电平):700mV 2) 同步脉冲幅度:300mV 图1 视频信号 幅度对视频的影响&#xff1a…

Java 8 新特性之 StreamforEachmapfilterlimitsorted统计函数Collectors并行(parallel)程序(转)...

Java 8 API添加了一个新的抽象称为流Stream,可以让你以一种声明的方式处理数据。Stream 使用一种类似用 SQL 语句从数据库查询数据的直观方式来提供一种对 Java 集合运算和表达的高阶抽象。Stream API可以极大提高Java程序员的生产力,让程序员写出高效率…

视频人员行为识别(Action Recognition)

一. 提出背景目标:给定一段视频,通过分析,得到里面人员的动作行为。问题:可以定义为一个分类问题,通过对预定的样本进行分类训练,解决一个输入视频的多分类问题。这里提出的问题是简单的图片(视…

COM载板设计之一: PCB的设计

6.2 PCB板叠层方式 4层板: L1和L4信号线,L2地线层,L3电源层。如果L4层上的元器件较少,是主布线层,那么将L2改为电源,L3为地,效果可能会更好些。 6层板: L2和L5为地线层和电源层&…

深度网络模型压缩 - CNN Compression

一. 技术背景一般情况下,CNN网络的深度和效果成正比,网络参数越多,准确度越高,基于这个假设,ResNet50(152)极大提升了CNN的效果,但inference的计算量也变得很大。这种网络很难跑在前…

语义分割网络之PSPnet

一.提出背景基于FCN全卷积网络的分割面临诸多问题,这篇文章从多尺度入手,提出了金字塔模型来提取多尺度的信息,达到了 State-of-the-art 的结果论文:PSPnet:Pyramid Scene Parsing Network 【点击下载】Caffe代码&…

DM8168的SPI接口

1. 2. 3 4 5 6 7 8 9 10 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. END

Bitmap缩放(三)

质量压缩 public class MainActivity extends AppCompatActivity {Overrideprotected void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanceState);setContentView(R.layout.activity_main);ImageView imageView findViewById(R.id.image);Bitmap bm Bit…