阅读时间大约10分钟以上（4877字）

2019-05-14 数据护城河已成空头支票，强大的防御能力到底靠不靠谱？

更强大的长期防御能力更可能来自包装差异化技术。

【猎云网（微信号：ilieyun）】5月14日报道（编译：柠萌）

编者注：本文作者Martin Casado和Peter Lauten来自风险投资公司Andreessen Horowitz。Martin头衔有很多：SDN之父、第一家SDN初创公司Nicira的联合创始人，在Nicira被VMware收购之后曾担任VMware的网络和安全业务组执行副总裁，他在2016年年初从VMware离职之后，成为Andreessen Horowitz的合伙人。

长期以来，数据一直被誉为企业的一条具有竞争力的护城河，而最近一波人工智能初创企业的出现，进一步强化了这种说法。同样地，网络效应也被称为构建软件业务的一股防御力量。因此，我们经常能听到有人将这两个词组合在一起，即所谓的“数据网络效应”。

但对于那些我们关注的初创企业来说，我们现在想知道是否有能证明数据网络效应的实际证据。此外，我们怀疑，即使是更直接的数据规模效应，作为许多公司的防御策略，其价值也有限。这不仅仅是一个学术问题，它对于指导企业创始人更好地分配时间和资源具有重要意义。如果你创办了一家初创企业，假设你正在收集的数据相当于一条牢固的护城河，那么你在其他领域的投资可能会相对不足，而这些领域实际上能真正提高你的企业的长期防御能力，例如垂直化发展、市场主导地位、售后账户控制、品牌制胜等等。

换句话说，将数据视为一条神奇的护城河，可能会对企业的创始人产生误导，使他们无法专注于赢得胜利真正需要的东西。那么，数据网络效应真的存在吗？规模效应与传统的网络效应有何不同？初创企业如何才能建立更持久的数据护城河，或者至少我们应该弄清楚数据在他们的战略中发挥的最佳作用是什么？

数据+网络效应≠数据网络效应

广义上讲，当用户、客户或者端点等等组成的系统在网络中按结构排列时，“网络”就会发挥作用。无论这些网络是否围绕参与特性（如社交网络）或协议（如以太网、电子邮件、加密货币）构建，它们通常都会围绕支持网络结构的技术、产品或服务来构建。

当参与网络的价值随着更多的节点进入网络，或者随着现有节点之间的参与增加而增加时，网络效应就会发生。想象一下，如果你试着打一个单向电话，或者只给世界上的某五个特定的人打电话；随着越来越多的用户加入网络，电话系统变得越来越有价值。网络效应的例子很多，更常见的、更现代的可能还包括社交网络、在线市场和加密网络。

具有网络效应的系统通常具有一种特性，即节点之间通过定义的接口或协议进行直接交互。加入网络需要遵守一些标准，这就增加了所有节点的直接交互，并使这些交互变得越来越有粘性。但是，当谈到关于数据网络效应的流行说法时，我们通常不会看到相同的粘性的、直接交互，更不用说由于协议或接口导致的节点间的机械依赖关系了。

一般来说，仅仅拥有更多的数据并不会带来固有的网络效应。

大多数数据网络效应实际上是规模效应

大多数关于数据防御的讨论实际上都归结为规模效应，这是一种动态效应，适用于网络效应的更宽松定义，其中节点之间没有直接交互。例如，如果你最喜欢的电影X的大部分观众也倾向于看Y节目，即使这些用户之间没有直接互动，Netflix的推荐引擎可以预测，你很可能也喜欢看Y节目。更多的数据意味着更好的推荐，会吸引更多的客户，又会带来更多的数据……这就是著名的“飞轮效应”。

然而，即使有规模效应，我们仍然认为数据在大多数情况下都不算是一个足够强大的护城河。在传统经济中，随着时间的推移，固定前期投资的经济效益会随着规模变得越来越有利，而数据规模效应往往会产生完全相反的动态效应：向语料库添加惟一数据的成本实际上可能会上升，而增量数据的价值却会下降！

以一家使用聊天机器人来回应客户咨询的公司为例。从下图中可以看出，从客户支持记录入手，创建一个初始语料库可能会为一些简单的咨询直接提供答案，例如“我的包在哪里？”。但绝大多数的问询都要比上述情况混乱得多，其中许多问题只被问过一次，例如“我一直在等的那个会放到我前门台阶上的东西现在在哪里？”。因此，在这种有限的情况下，随着时间的推移，收集有用的查询变得更加困难。而且，在本例中收集了40%的查询之后，我们发现收集更多的数据实际上没有任何好处！

当然，数据规模效应减小的点随域而异。但无论这种情况在什么时候发生，最终的结果往往是相同的：在数据规模方面，保持领先的能力往往会放缓，而不是加快。随着数据量的增长和竞争的加剧，具有防御能力的护城河非但没有变得更强，反而受到了侵蚀。

这样做的目的不是要对数据作为防御护城河的效用作出明确的说明，我们的目的是要说明防御能力不是数据本身固有的。而且，除非你了解目标域的数据旅程的生命周期，否则无法保证数据的可防御性。下文列出的框架可能会提供些许帮助。

一个用于理解数据旅程的实用框架

最小可行语料库

当大多数人谈论网络效应时，他们关注的是克服激活或冷启动的问题（通俗地称为“先有鸡还是先有蛋”问题），即获得足够的早期节点，使网络对所有节点都有用，并使业务的经济效益具有竞争力。在大多数网络效应业务中，激活问题很难解决，特别是当你需要网络已经启动好并在运行中以吸引流量的时候。

但对于许多具有数据规模效应的企业业务来说，这并不一定正确。激活我们所认为的“最小可行语料库”就足以开始针对它进行训练，这也是初创企业数据旅程的第一个转折点。这个初始语料库可以有多种来源：从可用的来源自动捕获数据，比如抓取网页；让早期用户用他们的数据交换一些东西；通过转移学习重新利用来自其他领域的数据；甚至是综合生成数据，通过编程创建数据进行训练。

在数据旅程的早期，达到最小可行语料库需要相对较低的投资，而且这显然不会是一条持久的护城河。

数据采集成本

在给定的语料库中，随着时间的推移，获取下一个数据块的成本往往会越来越高。为你的语料库带来新信号的独特数据可能更难在噪声中找到，而且随着时间的推移需要更长的时间来清晰地标记。这在许多依赖于所谓“数据网络效应”的领域里是正确的。

另一方面，由于传统的网络效应，用户获取成本会随着时间的推移而下降，因为加入网络的价值会增加。此外，伴随着传统网络效应，也往往会出现一种伴随而来的、更内在的病毒式传播。在这种模式下，激发节点是为了促进网络增长，从而为网络增加更多的价值。这些特性都不适用于数据效应，因为数据成本上升。

增量数据价值

当你在收集数据时，添加到语料库中的数据的价值也会变得越来越小。这是为什么呢？即使新的任意批数据的收集成本与最后获得的批数据相同，但考虑到你获得的一些新数据已经与现有语料库重叠，因此它的价值更低。随着时间的推移，情况只会变得更糟：新数据带来的价值会越来越低。

在我们所见过的大多数初创企业中，早期的新数据适用于整个客户群。但是，超过某个特定的点——例如上面示例图中的渐近线——所收集的新数据将只适用于特殊用例中的小子集。因此，随着数据集的扩展，任何数据规模效应护城河的价值都会降低。

数据新鲜度

这一点似乎很明显，但再怎么强调也不为过。在许多实际的用例中，数据会随着时间的推移而过时，变得无关。比如说街道变了，气温变了，态度变了等等。

不仅如此，随着时间的推移，许多数据初创公司的专有见解最初都会减弱，因为随着越来越多的人收集数据，数据的价值也会下降。当竞争对手在同一领域追逐你时，你的预测优势就会减弱。而且，随着时间的推移，随着规模的扩大，仅仅保持现有语料库的新鲜度就需要大量的工作，更不用说保持领先了。

从这个意义上说，数据就像一种商品。

什么时候数据是具有防御性的？可以通过什么方式来管理它们?

这并不是说数据毫无意义！但拥有大量数据并不代表有长期防御能力。要在这之间划上等号确实需要更多深思熟虑。由于数据护城河显然不能单独通过数据收集持续（或自动发生），因此，仔细考虑映射到数据旅程上的策略可以帮助你与数据优势竞争，并且是以更有意识、更主动的方式保持数据优势。当你的公司突然逼近一条渐近线或收益递减点时，针对性地制定计划总比盲目行动要好得多。

激活初始语料库，与现有对手竞争

正如前文所述，在某些域中激活数据并没有那么困难。然而，创始人实际上可以利用这一优势，与拥有数据但未能正确应用数据的现有对手正面交锋。在激活到一个最小可行的语料库之后，在构建正确数据集方面处于领先地位的初创企业可以充分利用这一技术，在现有竞争对手尚未搞清楚如何理解数据之前加快速度，占领高地。

要赶上现有的存储大量数据的公司，生成合成数据是另一种方法。据我们所知，有一家初创公司生产合成数据，用于在企业自动化领域培训系统。因此，一个团队只需要少数工程师，就能够激活他们的最小可行语料库了。该团队最终击败了两家大型企业，赢得了胜利。这两家大型企业都依赖于数十年来在全球范围内收集的现有数据。对于当前问题的解决，他们都不是合适的人选。

了解数据的分布情况

对数据语料库的分布有一个清晰的理解将会促进你对数据策略的认知，也会让你感知到你实际上可以创建的防御能力有多大，这取决于应用程序空间。

数据的分布及其对应的值随领域的不同而有很大的差异。因此，深入了解分布的形状，并制定正确的策略来捕捉它是至关重要的。是否存在难以获取的大量关键数据？如果真的存在，将语料库扩展成“长尾”的计划是什么？在你的领域，准确性有多重要？什么样的错误率是可以接受的？如果机器学习在发给同事的电子邮件中预测出错误的自动完成功能，这并不是世界末日，但在自动驾驶汽车的领域中，对象分类不准确可能是一个生死攸关的问题。如果不仔细观察，例如，如果没有正确地将权重应用于时间序列数据（请参阅“灾难性遗忘”），甚至很难发现错误的数据分布。

如果你是先行者，那么我们之前分享的挑战——许多领域的大量经验教训都是在异常用例的长尾中获得的——也可能成为一个优势。对于将这些经验教训嵌入产品和销售过程的企业公司来说尤其如此。尽管一些投资者不愿在复杂的市场中艰难跋涉，因为他们只看到了规模和利润率上的困难，但我们相信，进入复杂市场的道路上必然会留下伤疤，而伤疤本身是有防御功能的。

了解数据对产品的改进程度

在某些领域，拥有更多的数据会带来更好的产品，以至于随着时间的推移而增加的开销和数据价值的递减都将被克服。例如，如果你有一个准确率达到85%的癌症筛查，它会比准确率80%的更容易被使用。使用越多就能提供更多的数据，从而提高准确性。

虽然我们还没有看到这些效应在实践中发挥出来，但有几个例子表明，数据优势可以在产品方面建立赢家通吃的风格优势，这显然是一个强大护城河的形成基础。

当然，理解数据对产品的贡献程度并不总是那么简单直接。通常，选择算法或其他产品特性调优的影响要比单独拥有更多数据要大得多。

在质量和数量之间权衡

在创建数据语料库时，最棘手的问题之一就是如何平衡质量和数量之间的关系。为什么要平衡关系呢？解决规模过大的问题可能会导致在广泛的用例范围内得到相对不错的估计，但对其中任何一个用例来说都不算好；而解决规模过小的问题可能导致一个语料库能够很好地解决范围狭窄的问题，但是却不能满足客户期望的整个用例集。

在实践中，这可能意味着将更多的精力放在为一个范围狭窄的用例标记丰富的数据上，或者更广泛地向在更多用例中有用的数据开放。显然，对任何语料库来说，深度和宽度都是关键属性，但是在任何方向上的平衡错误都会严重影响性能。当涉及到保持竞争优势时，保持对特定领域的质量和数量权衡的领先地位将使你添加到数据护城河中的增量数据的价值能够实现最大化。

保障专有数据来源安全

我们在这篇文章中提出的问题是数据规模效应究竟存在于何处，又会持续多久？对于这个问题，我们希望创始人能够扪心自问。这并不意味着一家公司无法从专有数据中获得实际的防御能力。显然，有很多行业（比如制药业）和反例主宰了它们的市场数十年，特别是当它们出于行业结构原因有权访问专有数据集时（如Equifax、LexisNexis、Experian等），他们便获得了防御能力。

积累专有数据是一种能够增强防御能力的策略。当数据源不足或不愿向多个供应商（如政府采购商）提供数据时，这种策略最为有效。现在，安全性要求和遵从性标准的门槛升至历史最高水平，为获得敏感数据而进行的供应商审查本身就可能成为针对竞争对手的一道护城河。

即使承担组装、清理和标准化大型公共数据集池的所有前期成本，也会产生一种规模效应，新兴竞争对手将不得不从头再创造这种效应，尤其是在首先需要专门知识来查找、理解和清理数据的情况下。那些被证明是负责任的数据保管人的初创企业可以赢得客户的信任，而客户只会与他们分享日益敏感的数据，从而形成一道护城河。

数据护城河不是万能的

数据是许多软件公司产品战略的基础，它可以通过多种方式增强防御能力，但不要把它当作魔杖。大多数关于数据网络效应的叙述都是围绕着数据规模效应展开的，正如我们在本文中所概述的，如果没有正确地规划，这些效应有时会产生相反的效果。但是，记住不要假设您有数据网络效应，因为您可能没有；也不要假设数据规模效应将永久存在，因为这几乎可以肯定不会发生。

相反，我们鼓励初创企业更全面地考虑防御能力。更强大的长期防御能力更可能来自包装差异化技术；了解该领域，并将其反映在您的产品中；主导市场竞争，并赢得人才大战，打造一支世界级的一流团队。这些努力终将有所回报，你会获得强大的防御能力，最终赢得市场，这远比获得数据本身来得更有价值。