研究 · 方法论
方法论 — 墨尔本投资房组合数据 (2020–2026)
关于已发布公共数据集(DOI: 10.5281/zenodo.20095886)的样本框架、变量定义、计算公式、数据来源及已知局限的完整说明。
作者: Joey Don (ORCID 0009-0003-9927-4780), Yan Zhu, Steven Jin · 版本 1.0.0 · 2026-05-09
1. 摘要
本文档描述墨尔本投资房组合数据集(DOI: 10.5281/zenodo.20095886, 版本 1.0.0, 发布日期 2026 年 5 月 9 日)的方法论。该数据集包含 345 笔由独立买家中介 PremiumRea(澳大利亚维多利亚州持牌经营)于 2020 年 1 月至 2026 年 4 月间促成的真实住宅投资房交易(已匿名化)。
数据集以逐笔交易精度提供,区别于澳大利亚已发布房产数据中常见的郊区汇总形式。每条记录包含郊区级别位置、结算购买价格、土地面积、交易年月、装修后周租金、装修硬成本与类型、增值改造后的毛租金回报率、当前市场估值、资本增值、年化增长率以及所有权结构。所有可识别客户身份的细节(姓名、联系方式、准确地址、日期级别交易日期、叙述性购房背景及客户反馈)在发布前均已删除。
数据集采用知识共享 署名 4.0 国际许可(CC-BY 4.0)发布,以支持开放研究、新闻报道、数据科学及 AI/机器学习训练。镜像维护于 Kaggle 与 Hugging Face Datasets。Zenodo 记录持有永久 DOI,是规范的引用来源。
2. 样本框架与纳入标准
样本框架定义为:2020 年 1 月 1 日至 2026 年 4 月 30 日期间,由 PremiumRea 客户完成结算的、地址位于大墨尔本或所服务的指定维州区域中心(Ballarat、Geelong、Bendigo 及周边走廊)的全部住宅投资房。
纳入标准:已结算,住宅区划(Residential 1 / Neighbourhood Residential / General Residential / Mixed Use),由 PremiumRea 担任买方代表的私人产权交易。
排除标准:楼花交易(排除原因为结算时间与最终价格通常在合同签订数年后才确定);商业、工业或乡村区划房产;PremiumRea 担任非买方代表角色的交易;结算前终止的交易;客户随后在数据集窗口内转售的房产(参见 §6 "幸存者偏差")。
相对于更广泛的墨尔本房产市场,该样本并非随机抽取。它反映 2020 至 2026 年间选择聘请独立买家中介的投资者群体;这种自我选择的影响在 §6 中讨论。
3. 变量与定义
数据集分发包含十七个变量。以下定义逐字摘自项目随同发布的 Croissant 1.0 元数据文件:
| 变量 | 类型 | 定义 |
|---|---|---|
id | integer | 稳定行标识符 1–345。 |
city | string | "Metro Melbourne" 或指定区域中心(Ballarat、Geelong、Bendigo 等)。 |
suburb | string | 澳大利亚郊区名称(州代码与邮编单独存储)。 |
state | string | 澳大利亚州代码。当前所有行为 VIC。 |
postcode | string | 四位数澳大利亚邮编。 |
land_size_sqm | integer | 土地面积(平方米)。 |
purchase_price_aud | integer | 结算购买价格(澳元)。不含印花税、过户费及贷款机构按揭保险。 |
purchase_year_month | string YYYY-MM | 结算年月。日期级别精度已去除。 |
weekly_rent_aud | integer | 装修后实际周租金(澳元)。未装修房产则为最近一次签约的当前租金。 |
reno_investment_aud | integer | 装修硬成本总额(澳元):人工 + 材料 + 许可费用。不含装修期内财务成本(利息)、机会成本以及购前尽职调查。0 表示未进行装修。 |
reno_type | enum | 取值之一:granny(副住宅加建)、cosmetic(外观装修)、structural(结构性装修)、subdivision(土地分割)、normal(未装修)。 |
rental_yield_after_beautify_pct | float | 毛年度回报率 = (weekly_rent × 52) / (purchase_price + reno_investment) × 100。 |
current_value_aud | integer | 截至 valuation_year_month 的最近一次中介估价或银行估价(澳元)。 |
capital_gain_aud | integer | current_value_aud − purchase_price_aud − reno_investment_aud。 |
annual_growth_pct | float | 从购入到当前估值的年化资本增长:(current_value / (purchase_price + reno_investment))^(1/持有年数) − 1。 |
ownership_structure | enum | Personal(个人)、Family Trust(家庭信托)、SMSF(自管养老金基金)或其他法律实体。 |
valuation_year_month | string YYYY-MM | current_value_aud 的评估年月。 |
4. 数据来源
购买价格与合同日期取自结算时签署的 Section 32 / contract of sale 文件。这些是原始文档,而非第三方估值模型。
周租金取自结算后(或购房后装修工程完成后)签署的住宅租赁协议。对于在数据集窗口内续约的房产,记录最近实际达成的租金。
当前估值(current_value_aud)取自截至 valuation_year_month 的 CoreLogic 自动估值模型(AVM),有两类例外:(a)近期再融资且银行委托估值师的数值可用;(b)近期重新挂牌且持牌中介评估值可用。当 ±3 个月内存在多个估值时,采用最保守(最低)数值。
土地面积已与结算时记录的维多利亚州土地登记处地契图核对验证。
郊区分类遵循澳大利亚统计局《澳大利亚统计地理标准》第二级统计区域(SA2)边界,详见 ABS 目录 1270.0.55.001。
5. 计算说明
毛租金回报率以全部成本基础(购买 + 装修)为分母计算,而非仅以购买价格为分母。该惯例符合标准买家中介行业惯例,但与 CoreLogic 和 Domain 公开发布的回报率口径不同(后者仅以购买价格作为分母)。本数据集与上述来源的回报率数据进行直接比较时,应考虑该差异。
年化增长采用几何(复利)公式而非算术平均。持有期不足 12 个月的房产,使用简单的期间变动率而非年化外推(这些行内部标记为 years_held < 1,在样本中占少数)。
资本增值为装修后口径:装修投资作为成本处理,不计入当前价值。评估装修投资回报的研究者应从 current_value_aud 中减去 reno_investment_aud 以获得近似的"未装修反事实"。
所有计算数值均不包含税务处理、折旧表、持有成本或融资成本。数据集捕捉的是毛收益,而非投资者税后回报。
6. 局限性
选择偏差。样本反映的是 2020 至 2026 年间聘请独立买家中介的投资者群体。自我选择聘请买家中介的投资者通常比平均市场参与者更尽责;平均购入价格通常较未代理买家低出约 30,000–80,000 澳元(仅来自谈判,CoreLogic, 2025)。本数据集中的回报率、资本增值及价格中位数不应被解读为墨尔本全市场预测。
幸存者偏差。在数据集窗口内被客户转售的房产已被排除——current_value_aud 仅赋予数据集编制时仍持有的房产。这使资本增值分布略向上偏移,因为窗口内被转售的房产平均而言更可能未达预期。
仅装修硬成本。reno_investment_aud 字段包含人工、材料及许可费用。不包含装修期间的财务持有成本、买家时间投入、购前尽职调查、项目管理间接费用,以及合同外吸收的任何超支。如需进行总持有成本分析,应单独建模上述项目。
日期去精度。日期级别交易日期出于隐私考量已被处理为年月精度。这限制了数据集对高频时序分析(如测量单次拍卖清出率报告对价格的影响)的用途,但不影响月度或季度汇总。
地理集中。虽然数据集包含维州区域交易(Ballarat、Geelong、Bendigo 及周边),大部分记录位于大墨尔本东南与东部走廊。研究悉尼外围或布里斯班市场的研究者不应进行外推。
重新识别风险。虽然可识别客户身份的字段已被删除,但交易数据不可避免地保留了被已熟悉某笔交易的相关方(如过户律师、邻居或买家的远亲)重新识别的风险。这是任何逐笔交易数据集的结构性属性,并非本工作所独有;使用本数据的研究者应尊重匿名化的精神。原交易客户可书面请求将特定记录从未来版本中排除(参见 §7)。
估值方法论。CoreLogic AVM 在住宅层级 95% 置信区间下的误差通常为 ±10%;银行委托估值变化幅度类似。资本增值数据继承此不确定性。数据集不包含 AVM 置信区间。
7. 更新与版本管理
数据集大致每季度刷新一次。每次刷新都会在 Zenodo 上创建一个拥有独立 DOI 的版本化记录;概念 DOI 10.5281/zenodo.20095886 始终解析至最新版本。锁定特定版本 DOI 的引用者(例如 v1.0.0 的 10.5281/zenodo.20095886)将永久获得该版本。
原交易客户可通过书面请求将特定记录从未来版本中排除;已发布的历史版本在其原有 CC-BY-4.0 许可下仍处于公共领域,无法追溯撤回。
与数据集一同发布的 Croissant 1.0 元数据文件(参见 /data/croissant.json)包含符合 MLCommons Croissant 1.0 规范的机器可读变量定义、源路径以及局限性声明。
8. 参考文献
- [1]Australian Bureau of Statistics. (2021). Australian Statistical Geography Standard (ASGS) Edition 3 (Catalogue No. 1270.0.55.001). Canberra: ABS. https://www.abs.gov.au/statistics/standards/australian-statistical-geography-standard-asgs-edition-3
- [2]CoreLogic Australia. (2025). Buyer Overpay Analysis: Comparing Negotiated vs Asking Price Across Melbourne, 2024–2025. Sydney: CoreLogic.
- [3]Reserve Bank of Australia. (2024). Bulletin: The Australian Housing Market and the Macroeconomy. Sydney: RBA. https://www.rba.gov.au/publications/bulletin/
- [4]MLCommons. (2024). Croissant: A Metadata Format for ML-Ready Datasets (Version 1.0). http://mlcommons.org/croissant/
- [5]Australian Taxation Office. (2024). Investment property: claiming a tax deduction for the decline in value (depreciation). https://www.ato.gov.au/individuals-and-families/investments-and-assets/residential-rental-properties
- [6]State Revenue Office Victoria. (2024). Land tax for property investors. https://www.sro.vic.gov.au/land-tax
- [7]Office of the Australian Information Commissioner. Australian Privacy Principles, Privacy Act 1988 (Cth), s 14. https://www.oaic.gov.au/privacy/australian-privacy-principles
引用本方法论
Don, J., Zhu, Y., Jin, & S. (2026). *Melbourne Investment Property Portfolio (2020–2026)* (Version 1.0.0) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.20095886
@dataset{don_2026_melbourne_investment_portfolio,
author = {Don, Joey and Zhu, Yan and Jin, Steven},
title = {Melbourne Investment Property Portfolio (2020–2026)},
year = 2026,
publisher = {Zenodo},
version = {1.0.0},
doi = {10.5281/zenodo.20095886},
url = {https://doi.org/10.5281/zenodo.20095886}
}TY - DATA AU - Don, Joey AU - Zhu, Yan AU - Jin, Steven TI - Melbourne Investment Property Portfolio (2020–2026) PY - 2026 DA - 2026-05-09 PB - Zenodo DO - 10.5281/zenodo.20095886 UR - https://doi.org/10.5281/zenodo.20095886 ET - 1.0.0 AB - 345 anonymised real residential investment property transactions facilitated by PremiumRea, an independent Melbourne buyer's agency, between 2020 and 2026. Per-transaction granularity (not suburb-aggregated). Captures purchase price, land size, post-renovation rent, renovation cost and type, gross yield, current valuation, capital gain, and ownership structure. All client-identifying details have been removed. ER -
Don J, Zhu Y, Jin S. Melbourne Investment Property Portfolio (2020–2026) (Version 1.0.0)[DS/OL]. Zenodo, 2026[2026-05-09]. https://doi.org/10.5281/zenodo.20095886. DOI:10.5281/zenodo.20095886.