猎云网10月23日报道 (编译:流云)
早在1996年,Frances Haugen就是使用谷歌的第一波成员之一。她的母亲,爱荷华大学的一位学院教授,向她介绍了这款搜索引擎,而那时,这还只是斯坦福大学的一个研究项目。当时,Haugen大吃一惊,对拉里·佩奇和谢尔盖·布林的所作所为兴趣盎然。她表示:“探究庞大数据的想法让人十分惊奇。”
自此,Haugen迷上了搜索技术。毕业后,她在谷歌谋得一职,并工作了好几年,刚开始是一名工程师,后来升职为产品经理。现在,她效劳的则是Yelp。
可能你从没有把这个大型点评网站视为搜索公司,但搜索确实是其现阶段的核心工作,毕竟你想要的不仅仅是附近一流餐厅的一览表,也许还有其他各种要求:有甜甜圈卖、四周环境优美、宠物能登堂入室,或适合开生日宴会,抑或是以上全部都要满足。
找到一种教会电脑识别图片内容的方法
基本上,用户撰写的评论不会囊括图片上所有的细节,而很多有用的信息可能就掩藏于用户上传的数百万图片中。一张小狗舔着甜甜圈的照片可能会令你眼前一亮,照片上的生日蜡烛和曼哈顿美丽的天际线背景,都在告诉你这就是你想要的餐厅。除此以外,还有很多类似的例子。
Haugen透露道:“邻居的妻子需要坐轮椅,所以为了了解餐馆的内部构造,他曾浏览过成千上万的图片,以求找到适合残疾人进出的地方。”
如果Yelp的电脑能够检索出哪些图片上有轮椅,那么关于他最中意哪家餐厅的问题,该公司能猜个八九不离十。不过,要实现上述这类目标,Yelp还有很长一段路要走。显然,最难的部分是教电脑识别图片中的事物。为此,Haugen和她的团队已经开始着手图片识别系统的研发事宜,希望能颠覆传统的搜索方式。
寻找最棒的图片
一开始,Yelp的首个图片识别项目并没有特别关注搜索领域,而是致力于显示不同地区拍摄的最美图片。事实上,每输入一个Yelp词条,你就能欣赏一大批照片,而它们也构成了你对该业务的第一印象。Haugen和她的团队着手做的便是找到自动筛选方式,展出用户最满意的图片,让他们更加了解Yelp。
她解释道:“我们一直在寻找置顶最棒图片的方法,这些图片会让你心动兼行动,换那位新的发型师,或选定这上面的婚礼场地,抑或是为朋友的生日宴会挑这家餐厅。”
这也意味着,Yelp要能够区别图片,划清美味牛排与模糊的酒后自拍的界限。当然,最好的解决方式就是让标题来说话,但是很多上传至网站的图片要么没有标题,要么只有寥寥数语,比如“太棒啦”。
为此,Yelp另辟蹊径,试图让用户打分评级,然后仅显示前三甲。不过这样一来,图片的多样性就有待商榷了。当输入词条吉姆·鲍勃的牛排店时,你可能并不希望看到三张不同角度的牛排照,不管它们的镜头效果有多佳。正因为缺人,无法为每张图把关,甚至决定其用途,所以Yelp急需找到一种教会电脑识别图片内容的方法。
深入挖掘信息
显然,Yelp不是第一家面临此类挑战的公司。不谈执法和监管机构,谷歌和Facebook已涉足面部识别行业多年。一家名为Orbital Insight的初创公司也一直在估算石油储备量,并且通过分析空中拍摄的照片发现非法森林砍伐的蛛丝马迹。
实际上,很多企业都像Yelp一样,如谷歌去年并购的旅游指南公司Jetpac,也有分析图片的想法,以便判定哪些酒吧和餐厅允许宠物进出。其实,上述研究都同属于人工智能的一个分支:深度学习。即在人脑构造的启发下,使机器变得更智能化。
近几年,科技巨头们称霸了深度学习领域。谷歌和Facebook不仅雇佣了不少该领域的学术前沿人士,而且还兼并了好几家公司,借以增强自身的专业性。与此同时,微软也相应地成立了Skype Translate。但这并不代表大腕们就能在人工智能一行实行垄断,作威作福。毕竟大量的基础研究成果都是公开的,像Yelp这类的公司也能利用深度学习。
为了帮助独家系统运作,Yelp的工程团队采用了Caffe这款开源软件来建立神经网络。事实上,这一想法源自“深度学习”前沿专家的一篇论文,简言之,就是效仿人脑中神经元的联系机制。
然而软件不是万能的。要识别对象,不管是一只萌猫,还是一个杯形蛋糕,抑或是一辆大众甲壳虫汽车,算法都是靠人为编制。为此,该企业借助众包平台Crowdflower雇佣了一些人员,担起标注图片的重任。
Yelp最初的深度学习重点是把餐厅照片划分为四种:菜肴、内视图、外部景观及菜单。不过到最后,Haugen希望所有经由该过程收集到的数据,都能在网站的搜索功能上找到用武之地。同时,她表示自己正在深入了解人们常点击的图片类型。线性关系较为奏效,比如3个杯子排成一行的图片。笑容也很受欢迎,即使是略带忧郁色彩的一类。当然,低角度最佳。她调侃道:“如果你要拍照片,最好是跪下来拍。”
Source:Wired