AI 房产数据操纵风险 | 为什么 ChatGPT 替代不了实地尽职调查

AI 已经被用来欺骗消费者做出糟糕的购买决定。这不是我在预言未来的风险,这是一件已经被记录、被调查、被央视广播过的事情。

中国每年一度的 315 消费者权益日调查——相当于中国版的《60 Minutes》深度报道,观看人数数以亿计——揭露过一个工业化级别的操作:这家工厂批量制造虚假的产品评价,再把它们散布到各大平台上,而这些正是 AI 系统抓取训练数据的地方 1。在 24 小时之内,这套操作就能给一款"昨天还不存在"的产品,伪造出一整套完整的网络口碑。而且假内容做得足够细致,足以被 AI 推荐系统吃进去,再被当作"真实用户情绪"呈现给消费者。

我是在上海的一家酒店房间里看到那段报道的。我的第一反应不是愤怒,是后背发凉。因为我是 IT 出身,我很清楚 AI 语言模型到底是怎么工作的。而且我完全确定,同一套技术一样可以用在澳洲房产市场上。

下面我解释一下具体机制。

AI 训练数据是怎么被投毒的

ChatGPT 这种大语言模型是靠"文本"学习的。海量从互联网上抓下来的文本:Reddit 帖子、论坛发言、新闻稿、博客、社交媒体评论、房产网站的内容。模型不会区分"真实分析"和"投放的内容",它只识别数据里的模式,然后把这些模式复现出来。

如果你想让 ChatGPT 把某个城区推荐为"好投资",你不需要去黑 OpenAI,你只需要让整个互联网上,关于这个城区的正面内容比负面内容明显更多。模型会自动捕捉到这个信号,并把它放大 2。

举个具体的例子。拿维州的一个小镇 Moe 来说,网上关于 Moe 房产市场的全部内容体量很小,也许只有几百条论坛帖子、几篇新闻、一些房源挂牌信息。训练数据里的"信号"非常弱。

现在想象一下:有人花钱雇一个内容工厂,生产 500 篇博客、Reddit 评论和论坛帖子,吹捧 Moe 的投资潜力。捏造的回报率计算、凭空生成的增长预期、伪造的"已经在那里投资的买家"感言。这些内容在几个月内铺到多个平台上,看起来就像自然讨论。

下一次有人问 ChatGPT"维州该在哪里投资"时,模型扫描自己的训练数据,发现关于 Moe 的正面内容比例异常高,于是把 Moe 推荐了出来——不是因为 Moe 真的是好投资,而是因为有人花钱把它做得看起来像好投资。

市场越小、越不被关注,操纵越容易。一个已经有几百万个数据点的地方(比如墨尔本内城),这种操纵很难——现有信号太强。但一个网上几乎没什么存在感的地区小镇,几百条投放内容就足以被完整地"另行改写" 3。

这不是纸上谈兵

315 的那次调查证明了,已经存在商业化运营的公司,专门提供这种服务。它们收钱,交付结果,并承诺在指定时间内覆盖指定平台。

这种技术有一个名字:GEO 操纵(Generative Engine Optimisation)。它是 AI 时代对 SEO 的继承。不是去操纵 Google 搜索排名,而是操纵那些 AI 系统用来生成答案的训练数据和检索增强源。

如果有人想拉升某个房产市场,整个剧本其实非常直接:

找一个信息量低的目标(小城区、地区小镇)
委托生产 200-500 篇内容,分布到 Reddit、论坛、博客和社交媒体
在内容里嵌入具体的论点:"Moe 空置率低于 1%""Moe 房产年均增长 12%"
等 3-6 个月,让 AI 模型把这些内容吃进去
当潜在投资者用 AI 系统查询维州投资建议时,那些被种下的内容就作为推荐浮上来 [4]

我自己也完全可以对我们帮客户买房的那些城区做一样的事情。我非常清楚 Narre Warren、Hampton Park、Cranbourne 里哪几条街开发潜力最好。我可以委托生产专门把 AI 用户引向这些街道的内容,在我们卖的时候先把需求和价格拉起来。

我把这些讲出来,不是因为我要这么做,而是因为你要知道——别人有可能在这么做。如果你的投资决策流程的起点和终点都是"我问了 ChatGPT",那你就是一个很容易被薅羊毛的对象。

AI 做不到的事(以及必须由人来做的事)

AI 在处理结构化数据上非常强。给它一份 ABS 数据集、一份 CoreLogic 价格历史、或者一份 council 规划文件,它总结得比任何人都快。

但 AI 做不到:

走在一条街上、注意到北侧的排水栅栏下雨之后会积水
在看房时闻到地板下面的潮气
观察到这条街上过去六个月里有三栋房子被低调地装修过——表示本地人对市场有信心
跟中介面对面聊天、从对方的肢体语言判断卖家到底是真有动力,还是在虚张声势
知道某块地上有一份"Section 32 里没有、但确实存在的未登记地役权"——因为那次测量是在电子记录之前做的
了解某个片区的 council 规划员在审批 granny flat 上的"行政惯性"——不管规划条文允许什么,只要地块小于 550 sqm,他就倾向于拒 [5]

以上这些都是私有信息。它们存在于物理世界里、人和人之间的关系里、以及机构的记忆里,没法从互联网上抓取,也没法被内容工厂污染。而这些信息,恰恰是决定一套房子到底赚钱还是亏钱的那一层。

我们团队每周要看几十套房子。走街、和中介聊、盯着哪些地块有暗藏的排水问题、哪些街即将 rezoning、哪些卖家正面临财务压力。这类知识来自于在特定城区实打实地扎根多年,不是从一个语言模型里问出来的。

AI 可以作为你的起点筛选器。用它缩小城区清单、筛基本指标、找明显的红旗。但如果你的投资逻辑到 AI 输出那里就结束了,那你等于是把自己的财务未来,建在任何有信用卡和内容工厂的人都能投毒的数据上 6。

实操要点

我不是反 AI。我的公司大量使用 AI——做数据分析、市场建模、提升运营效率。我们甚至自己做了一套 AI 驱动的城区分析工具。

但我在"把 AI 当工具用"和"把 AI 当顾问信"之间画了一条硬界线。工具只做你让它做的事,顾问则会给出建议。当你的"AI 顾问"的建议,可以被竞争对手、开发商或一家营销公司投放的数据塑形时,这段顾问关系从地基上就已经被污染了。

下面是我在房产投资里使用 AI 的框架:

AI 适合做的事: 汇总公开数据、识别统计异常值、跨大数据集比较城区级指标、生成初步研究清单。

AI 不适合做的事: 选具体的房产、评估物理状况、判断卖家动机、给一套独特资产定市场公允价值、做最终投资决定。

哪天一个 $1 million 的资产可以仅凭一个聊天机器人的推荐就能买下去的时候,那天也就是"那个操纵聊天机器人数据的人成为地产业首富"的那天。

我们还没到那一天。也许永远不会到。在那之前,那些愿意走街、钻地板、当面谈判的人,会继续跑赢那些把问题打进一个文本框里的人 7。

我是 Joey Don,一个转行的 IT 从业者,同时是墨尔本的买家中介。我完成了 350+ 笔房产交易,每一笔都涉及实地看房、面对面谈判,和没有任何 AI 系统能够复刻的地面调查。如果你正在做一个房产决定,想要真人智力介入,随时联系我们团队。

一套人与 AI 协作做房产研究的框架

最后我给出一点实操的东西,而不只是警告。AI 是有用的,我每天都在用。但它需要按正确的顺序、在正确的边界内使用。

下面是我推荐的框架:

阶段 1——宏观筛选(AI 适合)。 用 AI 汇总城区级数据:中位价、租金回报率、空置率、人口增长、基础设施投入。让它把 10 个城区按你的标准对比一遍,给出一份三个城区的短清单。这是 AI 最擅长的地方:快速处理大数据集、识别统计异常值。

阶段 2——规划与 overlay 分析(AI 适合,但必须交叉验证)。 让 AI 总结短清单城区的规划条款。但每一个答案都必须对照原始源头——VicPlan、council 的规划修订、ABS 普查数据。AI 会总结,但它没法保证那些随着修订而变化的规划细节的准确性。

阶段 3——街道级调查(AI 不适合)。 这是人真正不可替代的地方。开车走一遍街,实地走一遍地块,看排水、看坡度、看邻居、看围栏状况、看人行道质量。跟转角小店的店主聊两句,问一下遛狗的人在这里住了多久。这些微小的信号会告诉你一条街的未来走向——而这些都是任何数据集都无法捕捉的。

阶段 4——房屋检查(AI 不适合)。 真正走进房子里。检查地板下面。看屋顶空腔。开水龙头。打开每一个橱柜。有明显结构性问题的房子,请一个 builder 或 Building Surveyor 跟你一起去。在一套你准备花 $700,000 买下来的房子上,任何照片、虚拟看房或者 AI 描述,都替代不了一次亲自到场的物理检查。

阶段 5——中介对话(AI 不适合)。 卖方中介手里握着关于卖家情况的私有信息:时间压力、财务状况、情绪状态、过往出价历史。把这些信息挖出来,需要真人对话、建立关系,以及读懂言外之意的能力。AI 做不到这些,一个熟练的买家中介可以。

阶段 6——谈判与成交(AI 不适合)。 最终谈判是一个由人完成的动作。它需要虚张声势、施压、耐心,以及"随时能走人"的底气。它要求你理解对方的立场,实时根据新信息调整,做出任何算法都无法复制的判断。

AI 在阶段 1 和阶段 2 里是一件有力的工具,在阶段 3 到阶段 6 里基本没用。懂得这个区分的投资者,会跑赢那些把决策交给聊天机器人、然后祈祷运气的投资者。

我们整个生意就是建立在阶段 3 到阶段 6 上的。走街、钻地板、面对面谈判。这也是为什么我们的客户在每笔交易上通过反向谈判能平均省下 $30,000 到 $80,000——这种节省 AI 工具给不了,因为谈判必须是一个人坐在另一个人对面才能发生的事。

最容易被数据投毒的城区

并不是所有房产市场都同样容易被 AI 数据投毒。脆弱程度与"市场已有的在线内容体量"成反比。

墨尔本的内城区——Richmond、South Yarra、Fitzroy——有数以百万计的数据点:新闻稿、成交记录、博客、论坛讨论、社交媒体内容。现有信号强到,哪怕投放几百篇文章,在统计上都微不足道。要想撼动 AI 对这些城区的推荐,你需要的是工业规模的操作——不划算,也不现实。

维州的地区小镇则完全相反。Moe、Morwell、Ararat、Stawell——这些市场本身产生的在线讨论就非常少。几百条论坛发言和博客组成的定向活动,就可能在几个月内,主导 AI 对这个地点的训练数据。

墨尔本的郊区城区介于两者之间。Cranbourne、Narre Warren、Hampton Park 这一类在线内容量中等的城区,操纵起来比区域小镇难,但比内城容易得多。一个有经验的操作者如果瞄准某一条街或某一个微市场,完全有可能在超本地层面影响 AI 的推荐。

这也是为什么无论你瞄的是哪个城区,实地的尽职调查都是不可谈判的。对于区域和外围郊区市场来说尤其关键——那里的数据环境足够稀薄,一个有足够动机的单个行为者就能把它搞扭曲。

我们团队主要在墨尔本东南走廊运作,几百笔交易里累积出的地面级知识,不是 AI 能复制的。我们了解这些街道,因为我们走过。我们了解这些中介,因为我们跟他们谈判过。我们了解这些房子,因为我们亲自检查过它们的地板下、量过 side access、看过排水。任何数量的 AI 内容——不管是真实的还是伪造的——都无法复刻这个累积起来的、物理世界里的知识基座。

不要相信 AI 帮你挑投资房。它读到的数据,是可以被人伪造的