LeetCode 41，一题解读in-place思想

2009 年 11 月 23 日

今天是 LeetCode题解系列第21篇 ，今天来看一道人狠话不多的题目。

题面

题目非常简单，只有一句话，给定一个整数数组，要求返回最小的不在数组当中的正整数。

看起来有些拗口，简单解释一下。我们都知道正整数就是从1开始的整数，所以这道题就是从1开始找到第一个不在数组当中的元素。我们来看下样例：

样例 1:

Input: [1,2,0]
Output: 3

样例 2:

Input: [3,4,-1,1]
Output: 2

样例 3:

Input: [7,8,9,11,12]
Output: 1

注意:

算法的 时间复杂度 必须是，并且只能使用的存储空间。

分析

在注意出来之前，我们可能觉得这道题也不是那么难，很容易就想到解法，但是有了这两条限制之后就没那么简单了。我们遍历数组就需要的复杂度了，怎么还能找出最小未出现的元素呢？而且还不能申请额外的数组，只能用常数级的存储，显然各种辅助数组和容器是不能用了。

我们直接这么苦苦思索是很难想出解法的，不如来 循序渐进 。

我们先来假设没有这些限制条件的话应该用什么方法，最容易想到的应该是排序。我们将数组排序，一旦数组有序了之后就方便了。我们从小到大遍历，很容易就确定哪些元素出现过哪些元素没有。那么想要找出来不在数组当中的最小自然数自然也是轻而易举。分析一下排序我们可以发现，在此过程当中我们并没有用到额外的空间，唯一不满足条件的只有我们的时间复杂度是而不是。

我们写下代码：

class Solution:
    def firstMissingPositive(self, nums: List[int]) -> int:
        nums = sorted(nums)
        if len(nums) == 0 or nums[0] > 1:
            return 1
        
        mark = 1
        for i in nums:
            if i == mark:
                mark += 1
        
        return mark

那我们反过来，如果保证空间可以随意使用，但是对时间复杂度进行限制，我们能想到什么办法呢？

应该也很容易想出来，就是引入额外的容器。比如hashset。hashset的增删改查的复杂度都可以近似看成是常数级。我们只需要遍历一次数组，将所有元素插入hashset当中，同时记录下元素的最大最小值，最后遍历一下最小值和最大值这个区间，找出不在hashset当中最小的元素即可。n个元素的数组我们可以很容易证明，我们一定可以在n次查找以内找到不在数组当中的自然数。

这段代码也不难写：

class Solution:
    def firstMissingPositive(self, nums: List[int]) -> int:
        st = set()
        if len(nums) == 0:
            return 1
        
        mini, maxi = 3e9, -3e9
        
        # 插入set当中维护
        for i in nums:
            st.add(i)
            mini = min(mini, i)
            maxi = max(maxi, i)
            
        # 从1开始找到第一个不在set当中的元素
        # 由于nums只有n个元素，我们可以可以在n次遍历当中找到
        for i in range(1, maxi):
            if i not in st:
                return i
            
        # 如果从1到maxi都存在，那么就放回maxi+1和1的最大值
        # 因为如果maxi小于1，那么上面的循环不会执行，所以要和1取最大值
        return max(maxi+1, 1)

in-place

上面的两种做法一种进行了高复杂度的排序，另一种则用到了额外的存储。看起来这是一个两难问题，我们不想排序就需要用到存储，如果不想用存储呢，那么则需要元素有序。我们仔细分析一下这两种情况，就可以找到问题的症结了，我们有没有什么办法可以两全其美， 既不用额外的存储又可以保证元素的有序呢 ？如果我们可以找到一种方法，那么这个问题就解决了。

这也是我们解题的时候的一个常规的套路，就是对于一些题目而言有一些算法是比较明显的，但是可能因为这样或那样的限制使得并不能应用在当前的问题当中。但是没关系，我们一样可以往这方面去想，先找到一个不那么合适的解法，在此基础上谋求突破，很多时候要比凭空想出一个完美的方法来容易许多。

那么我们怎么突破呢？

还要从题目的要求入手，题目当中规定只能使用常数的存储空间，意味着我们不能额外开辟数组或者其他容器来存储数据。有经验的同学可能已经反映过来了，这是 in-place的套路 。

in-place并不是一个算法，而是一种思想。它出现的原因也非常简单，因为我们申请数组等容器的时候需要 通过操作系统向内存申请连续的内存 ，这会涉及到一系列内存管理算法的执行，所以是需要 消耗大量时间 的。所以在一些高性能的场景下，我们会希望尽量避免空间申请操作。

比如我们想要对数组进行排序，我们直接调用sorted方法的时候，其实在函数内部对数组进行了拷贝，最后返回的其实是拷贝数组排序之后的结果。也就是说我们 获得的是一个新的数组 ，只是其中的元素和原来一模一样。而如果是in-place的方法，我们则不会另外创建数组，而在原数组上进行修改。

非in-place的接口不会修改原值，这方便我们追踪数据的变化，以及撤销操作。比如Python机器学习领域的大量numpy和pandas的接口默认都不是in-place的，就是这个原因。而in-place的则相反，由于它会直接修改原值，所以如果我们一旦执行错了，无法撤销，原数据就找不回了。比如我们排序错了，明明要降序，不小心排成了升序，一旦执行就无法还原了。但是和非in-place相比，它的 耗时更少，也更节约内存 。

这题其实已经暗示得很明显了，我们需要存储数据，但是又不让我们申请空间，于是我们只有in-place一条路可以走了。

我们需要设计一个in-place的算法，让我们可以判断元素的存在性。再加上题目中的限制是正整数，而且我们要找的是第一个没有出现的正整数。如果数组的长度是n，那么其实我们可以锁定， 答案一定在[1, n+1]之间 。原因也很简单，因为最理想的情况是这个数组当中的n个元素刚好是1到n，这样我们从1开始遍历，一直找到n就能得到答案是n+1。否则的话，我们一定可以在遍历到n+1之前就找到答案，所以综合一下，答案一定在[1, n+1]之间。如果我们能把这个区间写出来，其实解法已经就在我们眼前了。

既然答案在区间[1, n+1]中间，我们又需要设计一个in-place的方法，那么我们可以很正常地想到，我们可以 将数字放到对应的下标当中去 。1放到下标1当中，0放到0当中。

比如[3, 1, 0, 5]，我们拿到第一个元素是3，我们把它放到它应该在的位置，也就是5的位置下去，这个时候我们再来放5，由于5超过了数组的长度，所以进行丢弃。我们往下重复如上的过程，到最后的时候，我们得到的数据情况如下：[0, 1, 5, 3]，我们遍历一下数组，发现和下标不匹配的位置就是5，它应该对应的数据是2，所以2就是答案。

我一开始是先想到的算法，几乎是凭空想出来的，没有前后推导的过程，觉得非常惊艳，有种天马行空的感觉。后来关联上的in-place思想之后，才发现隐藏的思路其实非常合情合理。思路有了，代码真的很简单：

class Solution:
    def firstMissingPositive(self, nums: List[int]) -> int:
        n = len(nums)
        # 因为是正整数，所以数组长度需要扩大1
        nums.append(0)
        
        for i in range(n):
            if i == nums[i]:
                continue
                    
            while True:
                # 不停地交换元素，直到范围超界或者是已经放好了为止
                # 需要考虑nums[i] 和 nums[nums[i]]相等的情况，这时候也不应该交换
                val = nums[i]
                if val > n or val < 0 or val == i or val == nums[val]:
                    break
                nums[i], nums[val] = nums[val], val
                
        
        for i in range(1, n+1):
            if i != nums[i]:
                return i
            
        return n+1

最后，我们来分析一下这个算法的复杂度，为什么我们在一重循环当中还套了一个while循环，但是它仍然是的算法呢？

这个问题我们之前在介绍two pointers和尺取法的时候就曾经介绍过，我们在分析复杂度的时候 不能只简单地看有几重循环 ，我们需要细致地分析。我们要忽略循环，回到问题的本质。我们用循环的本质是为了能够让每个元素放到对应的位置，一共需要安排的元素数量是固定的是n个，位置也是固定的是n个，一个元素只有一个位置。那么我们一次交换至少可以让一个元素放到正确的位置，那么问题来了，我们想要把所有元素放置好，需要循环多少次？

我这样问，大家应该很清楚，一次最少放一个，一共n个，显然最多放n次。那我们再看while循环当中，每执行一次，不就是放好了一个元素吗？外围的循环只是用来枚举元素的，并不会引入额外的计算，所以这当然是一个的算法。

最后，今天的题目官方标的难度是Hard，题目本身不难，由于加上了很多限制才提升了难度。今天的题目没有用到新的算法，纯粹是对思维和逻辑的考验。也因此，我觉得它是一道非常纯粹的题，纯粹在于它并用不到新的算法，也用不到新的数据结构，就是考察我们分析问题和思考问题的能力。而许多问题则针对性很强，如果之前没有学过对应的算法则无法做得出来，所以从这点上来说这题 更加公平，非常适合面试 。我已经进行了预约，以后如果有面试机会，我可能会问候选人这个问题。

今天的文章就是这些，如果觉得有所收获，请顺手点个 关注或者转发 吧，你们的举手之劳对我来说很重要。

About The Author

bjmayor

程序员，码农，php,python,ios,android,go，产品经理，创业。

M	T	W	T	F	S	S
« Jan
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

题面