BOW是什么意思?为什么要用BOW模型描述图像?
(资料图片)
参考资料: https://blog.csdn.net/polly_yang/article/details/8241471 https://blog.csdn.net/tiandijun/article/details/51143765 https://blog.csdn.net/gdengden/article/details/80702007 https://blog.csdn.net/silence2015/article/details/77374910 http://yongyuan.name/blog/CBIR-BoW-for-image-retrieval-and-practice.html Content-Based Image Retrieval using Local Features Descriptors and Bag-of-Visual Words Mohammed Alkhawlani Ibb University, Ibb, Yemen Mohammed Elmogy, Dept. of Information Technology, Faculty of Computers and Information, Mansoura University, Mansoura, Egypt Hazem Elbakry, Dept. of Information Systems, Faculty of Computers and Information, Mansoura University, Mansoura, Egypt
利用bow模型构建图像检索系统: BOW适用于图像分类,训练集一般是已分类的图像,学习其特征再将不同种类图像特征进行聚类;输入一张图片可将其准确划分到对应的分类当中; 讲bow运用到图像检索中,同一类的图片一般认为是相似的或者语义相似的,我们返回与查询图片同一类的图片集作为相似图片; 流程:训练集进行SIFT/SURF特征提取–>KMeans构建视觉码本–>图像量化,用视觉码本表示–>图像检索
为什么要用BOW模型描述图像? SIFT特征虽然也能描述一幅图像,但是每个SIFT矢量都是128维的,而且一幅图像通常都包含成百上千个SIFT矢量,在进行相似度计算时,这个计算量是非常大的,通行的做法是用聚类算法对这些矢量数据进行聚类,然后用聚类中的一个簇代表BOW中的一个视觉词,将同一幅图像的SIFT矢量映射到视觉词序列生成码本,这样每一幅图像只用一个码本矢量来描述,这样计算相似度时效率就大大提高了。
1.BOW原理 Bag-of-words模型是信息检索领域常用的文档表示方法。在信息检索中,BOW模型假定对于一个文档,忽略它的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现。也就是说,文档中任意一个位置出现的任何单词,都不受该文档语意影响而独立选择的。例如有如下两个文档: 1:Bob likes to play basketball, Jim likes too.
2:Bob also likes to play football games.
基于这两个文本文档,构造一个词典:
Dictionary = {1:”Bob”, 2. “like”, 3. “to”, 4. “play”, 5. “basketball”, 6. “also”, 7. “football”, 8. “games”, 9. “Jim”, 10. “too”}。
这个词典一共包含10个不同的单词,利用词典的索引号,上面两个文档每一个都可以用一个10维向量表示(用整数数字0~n(n为正整数)表示某个单词在文档中出现的次数):
1:[1, 2, 1, 1, 1, 0, 0, 0, 1, 1] 2:[1, 1, 1, 1 ,0, 1, 1, 1, 0, 0]向量中每个元素表示词典中相关元素在文档中出现的次数(下文中,将用单词的直方图表示)。不过,在构造文档向量的过程中可以看到,我们并没有表达单词在原来句子中出现的次序(这是本Bag-of-words模型的缺点之一,不过瑕不掩瑜甚至在此处无关紧要)。
将Bag-of-words模型应用于图像表示。为了表示一幅图像,我们可以将图像看作文档,即若干个“视觉词汇”的集合,同样的,视觉词汇相互之间没有顺序。 这里袋子中的视觉特征是通过①特征点检测②特征提取得到的。这里我们提取SIFT特征。 2.SIFT提取视觉特征 同一类目标的不同实例之间虽然存在差异,但我们仍然可以找到它们之间的一些共同的地方,比如说人脸,虽然说不同人的脸差别比较大,但眼睛,嘴,鼻子等一些比较细小的部位,却观察不到太大差别,我们可以把这些不同实例之间共同的部位提取出来,作为识别这一类目标的视觉词汇。 利用SIFT算法,从每类图像中提取视觉词汇,将所有的视觉词汇集合在一起,现在有三个目标类,分别是人脸、自行车和吉他。 3.KMeans创建视觉码本 K-Means算法是一种基于样本间相似性度量的间接聚类方法,此算法以K为参数,把N个对象分为K个簇,以使簇内具有较高的相似度,而簇间相似度较低。利用K-Means算法将词义相近的词汇合并,作为视觉码本中的基础词汇,假定我们将K设为4, 4.图像量化 利用视觉码本的中词汇表示图像。利用SIFT算法,可以从每幅图像中提取很多个特征点,这些特征点都可以用单词表中的单词近似代替,通过统计单词表中每个单词在图像中出现的次数,可以将图像表示成为一个K=4维数值向量。 针对人脸、自行车和吉他这三个文档,抽取出相似的部分(或者词义相近的视觉词汇合并为同一类),构造一个词典,词典中包含4个视觉单词,即Dictionary = {1:”自行车”, 2. “人脸”, 3. “吉他”, 4. “人脸类”},最终人脸、自行车和吉他这三个文档皆可以用一个4维向量表示,最后根据三个文档相应部分出现的次数画成了上面对应的直方图。 统计这些词汇在不同目标类中出现的次数可以得到每幅图像的直方图表示:
人脸: [3,30,3,20]自行车:[20,3,3,2]吉他: [8,12,32,7]图像训练模型至此构建完毕,现在可以利用构建的视觉码本进行图像分类聚类。输入quary_image,提取SIFT特征,用视觉码本表示,得到图像所在的分类。
两个非常好的介绍BOW的ppt: 1.https://wenku.baidu.com/view/6370f28d26fff705cc170aab.html 2.https://wenku.baidu.com/view/7782de2fc281e53a5902ff03.html
标签:
相关推荐:
最新新闻:
- 全球百事通!格式化时间是什么?抽象类DateFormat是什么?
- 全球视点!FFT是什么意思?FFT的详解
- 格式化时间是什么?抽象类DateFormat是什么?:当前热文
- 迅雷怎么高速下载?迅雷高速下载方法
- 天天热点!.NET Core是什么?NET Core有哪些用处?
- 打印机共享需要密码怎么办?打印机共享需要密码解决方法
- 梯度(gradient)是什么?梯度的概念
- 如何解决手机浏览器中出现404notfound的问题?手机浏览器404notfound解决方法
- 天天快报!disable怎么运用?disable简单易理解用法
- 电脑无法进入系统怎么办?电脑无法进入系统解决方法
- Internal问题解决流程 Internal server error 500 问题解决思路-动态焦点
- 电脑的显示器屏幕老是闪烁怎么办?电脑的显示器屏幕老是闪烁解决方法
- 如何联系爱奇艺APP中的人工客服?爱奇艺APP人工客服联系步骤
- 宽带的内网和外网什么意思?宽带的内网和外网介绍
- USB2.0怎样提高传输速度?提高传输速度方法
- 摄像头远程监控步骤是什么?手机远程监控摄像头设置方法
- 多普达有哪些型号的手机?多普达最新手机大全详情 天天新视野
- U盘遇到病毒怎么办?U盘遇到病毒解决方法
- 快讯:文章目录是什么?选择排序怎么设置?
- 【天天速看料】Internal问题解决流程 Internal server error 500 问题解决思路
- 使用Icon图标的几种方式是啥?Icon图标怎么使用?
- 信号的基本概念是什么?信号的分类有哪些?
- java.lang.NullPointerException解决方案是什么?
- Excel函数之VLOOKUP()怎么使用?一文搞懂Excel函数之VLOOKUP()使用
- 倒车雷达哪个品牌好?汽车倒车雷达品牌及价格介绍_每日信息
- 美国多灵门锁怎么安装?美国多灵门锁安装步骤?
- 网络的利与弊是什么?网络的利弊分析:环球消息
- lol怎么在游戏里回复好友?lol游戏回复消息设置-环球视点
- 转动惯量是什么意思?转动惯量的含义
- OneNote是什么?OneNote的功能有哪些?
- 每日简讯:磁条读写器多少钱?磁条读写器怎么使用?
- 转动惯量是什么意思?转动惯量的含义 当前聚焦
- 三星N8010如何设置?三星N8010的屏幕锁定图案_快消息
- Modbus通信协议是什么?Modbus通信协议详解
- 世界热文:c语言餐桌游戏有哪些?教会你这十款酒桌游戏让你在朋友圈稳站“C”位!
- 电脑默认网关如何查询?电脑默认网关查询的小技巧
- iPad Air(iPad5)什么时候上市?iPad Air(iPad5)的上市时间-今日快看
- IE浏览器不见了怎么办?IE浏览器不见了解决方法
- 梯度(gradient)是什么?梯度的概念|天天日报
- 今亮点!JSONObject是什么意思?JSONObject详情介绍
- Win7专业版与Win7旗舰版如何区分?Win7专业版与Win7旗舰版区分方法
- 聚焦:工厂模式是什么?工厂模式的详解
- 世界今亮点!UML建模怎么用?UML建模之用例图
- 全球视讯!ThinkBook16p对比联想小新 Pro16 2021款哪个值得更好?详细评测
- Win7系统安装声卡驱动失败怎么办?声卡驱动安装失败解决方法
- mysql置疑原因是什么?数据库置疑的处理办法
- UML建模怎么用?UML建模之用例图:天天百事通
- order by是什么意思?order by详解
- 百度快照如何彻底删除?百度快照正确的删除方法
- BOW是什么意思?为什么要用BOW模型描述图像?
- 优麒麟社区懒人版本(含软件全家桶) 怎么一键安装?_当前速读
- 禁用宏则关闭excel文件怎么弄?设置流程_天天速递
- java中flypaper怎么使用?Java 基础接口fly_全球快播报
- 每日看点!用VC6.0怎么实现上位机串口通信?位机串口通信的设置方法
- 会议panel是什么意思?医学术语中的panel到底是指什么?
- 观点:颜料墨水和染料墨水的区别是什么?颜料墨水和染料墨水简介
- 天天速递!粘胶短纤维市场现状是什么?粘胶短纤维的未来发展趋势
- 浪漫主义时期的音乐有哪些?浪漫主义乐派是什么?-当前独家
- 世界热文:c语言餐桌游戏有哪些?教会你这十款酒桌游戏让你在朋友圈稳站“C”位!
- Android中LayoutParams是什么?Android中LayoutParams总结和用法
- 今日热门!数据结构试题有哪些?数据结构试题及评分解析
- ssm大学生兼职论坛是什么?大学生兼职有哪些?:每日观察
- 摄氏度和开氏度的换算 开氏度和摄氏度的换算公式 天天亮点
- 基础版本的基础版本 直方图均衡化系列
- 今日视点:怎么设置交换机?计算机交换机连接设置方法
- 天天要闻:图片或手写签名转电子签名怎么转?手写签名转电子签名教程
- 电脑默认网关如何查询?电脑默认网关查询的小技巧
- IE浏览器不见了怎么办?IE浏览器不见了解决方法
- Win7专业版与Win7旗舰版如何区分?Win7专业版与Win7旗舰版区分方法
- Win7系统安装声卡驱动失败怎么办?声卡驱动安装失败解决方法
- 百度快照如何彻底删除?百度快照正确的删除方法
- 英雄联盟无法全屏显示如何解决?英雄联盟无法全屏显示解决方法
- 如何解决IE浏览器网页图片显示红叉问题?IE浏览器网页图片显示红叉解决方法
- Win7系统安装CAD软件提示缺少dfst.dll怎么办?解决方法
- 内网端口映射怎么设置?内网端口映射定义及设置方法