close
当前位置: 北京赛车软件平刷王 > 创业 >

在 Airbnb 使用机器学习预测房源的价格

北京赛车软件平刷王 www.64tda.net 位于希腊爱琴海伊莫洛维里的一个 Airbnb 民宿的美好风景

简介

数据产品一直是 Airbnb 服务的重要组成部分,不过我们很早就意识到开发一款数据产品的成本是很高的。例如,个性化搜索排序可以让客户更容易发现中意的房屋,智能定价可以让房东设定更具竞争力的价格。然而,需要许多数据科学家和工程师付出许多时间和精力才能做出这些产品。

最近,Airbnb 机器学习的基础架构进行了改进,使得部署新的机器学习模型到生产环境中的成本降低了许多。例如,我们的 ML Infra 团队构建了一个通用功能库,这个库让用户可以在他们的模型中应用更多高质量、经过筛选、可复用的特征。数据科学家们也开始将一些自动化机器学习工具纳入他们的工作流中,以加快模型选择的速度以及提高性能标准。此外,ML Infra 还创建了一个新的框架,可以自动将 Jupyter notebook 转换成 Airflow pipeline 能接受的格式。

在本文中,我将介绍这些工具是如何协同运作来加快建模速度,从而降低开发 LTV 模型(预测 Airbnb 民宿价格)总体成本的。

什么是 LTV?

LTV 全称 Customer Lifetime Value,意为“客户终身价值”,是电子商务、市场公司中很流行的一种概念。它定义了在未来一个时间段内用户预期为公司带来的收益,通常以美元为单位。

在一些例如 Spotify 或者 Netflix 之类的电子商务公司里,LTV 通常用于制定产品定价(例如订阅费等)。而在 Airbnb 之类的市场公司里,知晓用户的 LTV 将有助于我们更有效地分配营销渠道的预算,更明确地根据关键字做在线营销报价,以及做更好的类目细分。

我们可以根据过去的数据来计算历史值,当然也可以进一步使用机器学习来预测新登记房屋的 LTV。

LTV 模型的机器学习工作流

数据科学家们通常比较熟悉和机器学习任务相关的东西,例如特征工程、原型制作、模型选择等。然而,要将一个模型原型投入生产环境中需要的是一系列数据工程技术,他们可能对此不太熟练。

大数据

不过幸运的是,我们有相关的机器学习工具,可以将具体的生产部署工作流从机器学习模型的分析建立中分离出来。如果没有这些神奇的工具,我们就无法轻松地将模型应用于生产环境。下面将通过 4 个主题来分别介绍我们的工作流以及各自用到的工具:

特征工程:定义相关特征

原型设计与训练:训练一个模型原型

模型选择与验证:选择模型以及调参

生产部署:将选择好的模型原型投入生产环境使用

特征工程

使用工具:Airbnb 内部特征库 — Zipline

任何监督学习项目的第一步都是去找到会影响到结果的相关特征,这一个过程被称为特征工程。例如在预测 LTV 时,特征可以是某个房源房屋在接下来 180 天内的可使用天数所占百分比,或者也可以是其与同市场其它房屋定价的差异。

在 Airbnb 中,要做特征工程一般得从头开始写 Hive 查询语句来创建特征。但是这个工作相当无聊,而且需要花费很多时间。因为它需要一些特定的领域知识和业务逻辑,也因此这些特征 pipeline 并不容易共享或复用。为了让这项工作更具可扩展性,我们开发了?Zipline—— 一个训练特征库。它可以提供不同粒度级别(例如房主、客户、房源房屋及市场级别)的特征。

这个内部工具“多源共享”的特性让数据科学家们可以在过去的项目中找出大量高质量、经过审查的特征。如果没有找到希望提取的特征,用户也可以写一个配置文件来创建他自己需要的特征:

source: { type: hive query:""" SELECT id_listing as listing , dim_city as city , dim_country as country , dim_is_active as is_active , CONCAT(ds, ' 23:59:59.999') as ts FROM core_data.dim_listings WHERE ds BETWEEN '{{ start_date }}' AND '{{ end_date }}' """ dependencies: [core_data.dim_listings] is_snapshot: true start_date: 2010-01-01 } features: { city: "City in which the listing is located." country: "Country in which the listing is located." is_active: "If the listing is active as of the date partition." }

在构建训练集时,Zipline 将会找出训练集所需要的特征,自动的按照 key 将特征组合在一起并填充数据。在构造房源 LTV 模型时,我们使用了一些 Zipline 中已经存在的特征,还自己写了一些特征。模型总共使用了 150 多个特征,其中包括:

位置:国家、市场、社区以及其它地理特征

价格:过夜费、清洁费、与相似房源的价格差异

可用性:可过夜的总天数,以及房主手动关闭夜间预订的占比百分数

是否可预订:预订数量及过去 X 天内在夜间订房的数量

质量:评价得分、评价数量、便利设施


(责任编辑:ioter)

用户喜欢...

人工智能与物联网装置相配合 方可创造整合服务商机

8月22日,微软在北京举办发布会,宣布人工智能聊天机器人第五代微软小冰正式推出,并跨入物联网应用领域。微软...


XMOS以1500万美元新一轮融资支持语音增长

消费类电子市场语音捕获解决方案的领导者——XMOS有限公司(www.xmos.com),今天宣布其1500万美元的E轮融资。本轮投...


CFMS 2017峰会:一场超越行业期望的存储界盛会

由深圳市闪存市场资讯有限公司主办的以“中国存储·全球格局”为主题的中国闪存市场峰会(CFMS 2017)在深圳华侨城...


人工智能、数据挖掘、机器学习和深度学习的关系

一、人工智能 人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的...


“边缘”与“雾”加速无人便利店落地 释放数据价值

在万物智能互联时代,随着物联网和人工智能技术在各个领域的部署,继美国亚马逊推出Amazon Go无人便利店概念之后...


大数据让人开始怀疑人生

《?大数据时代》,维克托·迈尔·舍恩伯格、肯尼思·库克耶著,盛杨燕、周涛译,浙江人民出版社 一年多前听说了...


通过数据分析提高企业销售成功率,GetAccept获160万美元种子轮融资

GetAccept的联合创始人Mathias Thulin非常熟悉销售们面临的一个个常见问题:他们和潜在客户聊得非常好,也能马上用邮件...


深度学习可视化工具大盘点

深度网络对机器学习研究和应用领域产生了巨大的影响,与此同时却无法很清晰地解释深度网络的来龙去脉。人们一...


人工智能型网络攻击即将到来对未来网络安全意味着什么?

下一波重大网络攻击很可能涉及人工智能系统,而且攻击活动可能将很快发生:在最近召开的一次网络安全会议上,100位受访行业专家中的62位认为,首轮AI强化型网络攻击很可能在接下来1...


大数据时代下的隐私?;?

作者:孙茗珅 韦韬 前言? 本文介绍了学术界和工业界对于用户隐私?;さ呐Τ晒?,其中主要讲到了k-anonymity(k-匿...


640| 274| 370| 278| 504| 169| 148| 979| 657| 645|