Crafter.Asset/lib/gdeflate/GDeflateCompress.cpp

/*
 * SPDX-FileCopyrightText: Copyright (c) 2020, 2021, 2022 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 * SPDX-FileCopyrightText: Copyright (c) Microsoft Corporation. All rights reserved.
 * SPDX-License-Identifier: Apache-2.0
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 * http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

#include "GDeflate.h"
#include "TileStream.h"
#include "Utils.h"
#include "config.h"

#include <assert.h>
#include "libdeflate/libdeflate.h"
#include <string.h>

#include <algorithm>
#include <atomic>
#include <thread>
#include <vector>

template<>
struct std::default_delete<libdeflate_gdeflate_compressor>
{
    void operator()(libdeflate_gdeflate_compressor* p) const
    {
        libdeflate_free_gdeflate_compressor(p);
    }
};

namespace GDeflate
{
    static constexpr uint32_t kMaxWorkers = 31;
    static constexpr uint32_t kMinTilesPerWorker = 64;

    struct OutputStreamWrapper
    {
        uint8_t* ptr = nullptr;
        size_t size = 0;
        size_t pos = 0;

        template<typename T>
        void StreamOut(T* d, size_t n = 1)
        {
            const size_t dataSize = sizeof(T) * n;

            if (pos + dataSize > size)
            {
                printf("Fatal: stream overrun!\n");
                return;
            }

            memcpy(ptr + pos, d, dataSize);
            pos += dataSize;
        }

        bool SetPos(size_t n)
        {
            if (n > size)
            {
                printf("Fatal: stream overrun!\n");
                return false;
            }

            pos = n;

            return true;
        }
    };

    struct CompressionContext
    {
        const uint8_t* inputPtr;
        size_t inputSize;

        struct Tile
        {
            std::vector<uint8_t> data;
            size_t uncompressedSize = 0;
        };

        std::vector<Tile> tiles;

        std::atomic_uint32_t globalIndex;
        uint32_t numItems;

        std::atomic_bool failed;
    };

    static bool DoCompress(
        uint8_t* output,
        size_t* outputSize,
        const uint8_t* in,
        size_t inSize,
        uint32_t level,
        uint32_t flags)
    {
        if (outputSize == nullptr || output == nullptr || in == nullptr || inSize == 0)
            return false;

        if (inSize > kDefaultTileSize * TileStream::kMaxTiles)
            return false;

        CompressionContext context{};

        context.inputPtr = in;
        context.inputSize = inSize;
        context.numItems = static_cast<uint32_t>((inSize + kDefaultTileSize - 1) / kDefaultTileSize);
        context.tiles.resize(context.numItems);
        context.failed = false;

        auto TileCompressionJob = [&context, level]()
        {
            size_t pageCount = 0;
            const size_t scratchSize = libdeflate_gdeflate_compress_bound(nullptr, kDefaultTileSize, &pageCount);
            assert(pageCount == 1);

            void* scratch = alloca(scratchSize);

            std::unique_ptr<libdeflate_gdeflate_compressor> compressor(libdeflate_alloc_gdeflate_compressor(level));

            while (true)
            {
                const uint32_t tileIndex = context.globalIndex.fetch_add(1, std::memory_order_relaxed);

                if (tileIndex >= context.numItems)
                    break;

                const size_t tilePos = tileIndex * kDefaultTileSize;

                size_t remaining = context.inputSize - tilePos;
                size_t uncompressedSize = std::min<size_t>(remaining, kDefaultTileSize);

                auto& tile = context.tiles[tileIndex];
                tile.uncompressedSize = uncompressedSize;

                libdeflate_gdeflate_out_page compressedPage{scratch, scratchSize};

                size_t result = libdeflate_gdeflate_compress(
                    compressor.get(),
                    context.inputPtr + tilePos,
                    uncompressedSize,
                    &compressedPage,
                    1);

                if (result == 0)
                {
                    context.failed = true;
                    break;
                }

                tile.data.resize(compressedPage.nbytes);
                memcpy(tile.data.data(), compressedPage.data, compressedPage.nbytes);
            }
        };

        std::thread workers[kMaxWorkers + 1];
        const uint32_t maxWorkers = std::min(kMaxWorkers, std::thread::hardware_concurrency());

        uint32_t numWorkersLeft =
            std::min(maxWorkers, (context.numItems + kMinTilesPerWorker - 1) / kMinTilesPerWorker);

        if (flags & COMPRESS_SINGLE_THREAD)
            numWorkersLeft = 0;

        for (auto& worker : workers)
        {
            if (numWorkersLeft == 0)
                break;

            worker = std::thread([TileCompressionJob]() { TileCompressionJob(); });

            --numWorkersLeft;
        }

        TileCompressionJob();

        for (auto& worker : workers)
        {
            if (worker.joinable())
                worker.join();
        }

        // Compression failed
        if (context.failed)
            return false;

        // Compression is done. Prepare the output stream.

        std::vector<uint32_t> tilePtrs;
        size_t dataPos = 0;

        for (auto const& tile : context.tiles)
        {
            tilePtrs.push_back(static_cast<uint32_t>(dataPos));
            dataPos += tile.data.size();
        }

        // tilePtrs[0] is used to store the size of the last tile; all the other
        // elements are offsets to the tile data.
        tilePtrs[0] = static_cast<uint32_t>(context.tiles.back().data.size());

        assert(tilePtrs.size() <= TileStream::kMaxTiles);
        assert(tilePtrs.size() == context.tiles.size());
        assert(tilePtrs.size() == context.numItems);

        OutputStreamWrapper outputStream;
        outputStream.ptr = output;
        outputStream.size = *outputSize;

        // calculate uncompressed size
        size_t uncompressedSize = tilePtrs.size() * kDefaultTileSize;
        size_t tailSize = context.inputSize - (tilePtrs.size() - 1) * kDefaultTileSize;
        if (tailSize < kDefaultTileSize)
            uncompressedSize -= kDefaultTileSize - tailSize;

        assert(uncompressedSize == inSize);

        TileStream header(uncompressedSize);

        assert(tilePtrs.size() == header.numTiles);

        outputStream.StreamOut(&header);
        outputStream.StreamOut(tilePtrs.data(), tilePtrs.size());

        size_t dataOffset = outputStream.pos;

        for (size_t i = 0; i < tilePtrs.size(); ++i)
        {
            CompressionContext::Tile const& tile = context.tiles[i];
            uint32_t tileOffset = (i == 0) ? 0 : tilePtrs[i];

            outputStream.SetPos(dataOffset + tileOffset);
            outputStream.StreamOut(tile.data.data(), tile.data.size());
        }

        *outputSize = outputStream.pos;

        return true;
    }

    size_t CompressBound(size_t size)
    {
        size_t numTiles = std::min(size_t(TileStream::kMaxTiles), (size + kDefaultTileSize - 1) / kDefaultTileSize);
        numTiles = std::max(size_t(1), numTiles);

        const size_t tileSize = kDefaultTileSize +
                                // Tile header. Ideally need to make it a part of compressor API.
                                (sizeof(uint32_t) + 4 * 208 + 4 * 8);

        return numTiles * tileSize + sizeof(TileStream) + sizeof(uint64_t);
    }

    bool Compress(uint8_t* output, size_t* outputSize, const uint8_t* in, size_t inSize, uint32_t level, uint32_t flags)
    {
        return DoCompress(output, outputSize, in, inSize, level, flags);
    }

} // namespace GDeflate
asset compression 2026-05-11 18:37:30 +02:00			`/*`
			`* SPDX-FileCopyrightText: Copyright (c) 2020, 2021, 2022 NVIDIA CORPORATION & AFFILIATES. All rights reserved.`
			`* SPDX-FileCopyrightText: Copyright (c) Microsoft Corporation. All rights reserved.`
			`* SPDX-License-Identifier: Apache-2.0`
			`*`
			`* Licensed under the Apache License, Version 2.0 (the "License");`
			`* you may not use this file except in compliance with the License.`
			`* You may obtain a copy of the License at`
			`*`
			`* http://www.apache.org/licenses/LICENSE-2.0`
			`*`
			`* Unless required by applicable law or agreed to in writing, software`
			`* distributed under the License is distributed on an "AS IS" BASIS,`
			`* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.`
			`* See the License for the specific language governing permissions and`
			`* limitations under the License.`
			`*/`

			`#include "GDeflate.h"`
			`#include "TileStream.h"`
			`#include "Utils.h"`
			`#include "config.h"`

			`#include <assert.h>`
			`#include "libdeflate/libdeflate.h"`
			`#include <string.h>`

			`#include <algorithm>`
			`#include <atomic>`
			`#include <thread>`
			`#include <vector>`

			`template<>`
			`struct std::default_delete<libdeflate_gdeflate_compressor>`
			`{`
			`void operator()(libdeflate_gdeflate_compressor* p) const`
			`{`
			`libdeflate_free_gdeflate_compressor(p);`
			`}`
			`};`

			`namespace GDeflate`
			`{`
			`static constexpr uint32_t kMaxWorkers = 31;`
			`static constexpr uint32_t kMinTilesPerWorker = 64;`

			`struct OutputStreamWrapper`
			`{`
			`uint8_t* ptr = nullptr;`
			`size_t size = 0;`
			`size_t pos = 0;`

			`template<typename T>`
			`void StreamOut(T* d, size_t n = 1)`
			`{`
			`const size_t dataSize = sizeof(T) * n;`

			`if (pos + dataSize > size)`
			`{`
			`printf("Fatal: stream overrun!\n");`
			`return;`
			`}`

			`memcpy(ptr + pos, d, dataSize);`
			`pos += dataSize;`
			`}`

			`bool SetPos(size_t n)`
			`{`
			`if (n > size)`
			`{`
			`printf("Fatal: stream overrun!\n");`
			`return false;`
			`}`

			`pos = n;`

			`return true;`
			`}`
			`};`

			`struct CompressionContext`
			`{`
			`const uint8_t* inputPtr;`
			`size_t inputSize;`

			`struct Tile`
			`{`
			`std::vector<uint8_t> data;`
			`size_t uncompressedSize = 0;`
			`};`

			`std::vector<Tile> tiles;`

			`std::atomic_uint32_t globalIndex;`
			`uint32_t numItems;`

			`std::atomic_bool failed;`
			`};`

			`static bool DoCompress(`
			`uint8_t* output,`
			`size_t* outputSize,`
			`const uint8_t* in,`
			`size_t inSize,`
			`uint32_t level,`
			`uint32_t flags)`
			`{`
			`if (outputSize == nullptr \|\| output == nullptr \|\| in == nullptr \|\| inSize == 0)`
			`return false;`

			`if (inSize > kDefaultTileSize * TileStream::kMaxTiles)`
			`return false;`

			`CompressionContext context{};`

			`context.inputPtr = in;`
			`context.inputSize = inSize;`
			`context.numItems = static_cast<uint32_t>((inSize + kDefaultTileSize - 1) / kDefaultTileSize);`
			`context.tiles.resize(context.numItems);`
			`context.failed = false;`

			`auto TileCompressionJob = [&context, level]()`
			`{`
			`size_t pageCount = 0;`
			`const size_t scratchSize = libdeflate_gdeflate_compress_bound(nullptr, kDefaultTileSize, &pageCount);`
			`assert(pageCount == 1);`

			`void* scratch = alloca(scratchSize);`

			`std::unique_ptr<libdeflate_gdeflate_compressor> compressor(libdeflate_alloc_gdeflate_compressor(level));`

			`while (true)`
			`{`
			`const uint32_t tileIndex = context.globalIndex.fetch_add(1, std::memory_order_relaxed);`

			`if (tileIndex >= context.numItems)`
			`break;`

			`const size_t tilePos = tileIndex * kDefaultTileSize;`

			`size_t remaining = context.inputSize - tilePos;`
			`size_t uncompressedSize = std::min<size_t>(remaining, kDefaultTileSize);`

			`auto& tile = context.tiles[tileIndex];`
			`tile.uncompressedSize = uncompressedSize;`

			`libdeflate_gdeflate_out_page compressedPage{scratch, scratchSize};`

			`size_t result = libdeflate_gdeflate_compress(`
			`compressor.get(),`
			`context.inputPtr + tilePos,`
			`uncompressedSize,`
			`&compressedPage,`
			`1);`

			`if (result == 0)`
			`{`
			`context.failed = true;`
			`break;`
			`}`

			`tile.data.resize(compressedPage.nbytes);`
			`memcpy(tile.data.data(), compressedPage.data, compressedPage.nbytes);`
			`}`
			`};`

			`std::thread workers[kMaxWorkers + 1];`
			`const uint32_t maxWorkers = std::min(kMaxWorkers, std::thread::hardware_concurrency());`

			`uint32_t numWorkersLeft =`
			`std::min(maxWorkers, (context.numItems + kMinTilesPerWorker - 1) / kMinTilesPerWorker);`

			`if (flags & COMPRESS_SINGLE_THREAD)`
			`numWorkersLeft = 0;`

			`for (auto& worker : workers)`
			`{`
			`if (numWorkersLeft == 0)`
			`break;`

			`worker = std::thread([TileCompressionJob]() { TileCompressionJob(); });`

			`--numWorkersLeft;`
			`}`

			`TileCompressionJob();`

			`for (auto& worker : workers)`
			`{`
			`if (worker.joinable())`
			`worker.join();`
			`}`

			`// Compression failed`
			`if (context.failed)`
			`return false;`

			`// Compression is done. Prepare the output stream.`

			`std::vector<uint32_t> tilePtrs;`
			`size_t dataPos = 0;`

			`for (auto const& tile : context.tiles)`
			`{`
			`tilePtrs.push_back(static_cast<uint32_t>(dataPos));`
			`dataPos += tile.data.size();`
			`}`

			`// tilePtrs[0] is used to store the size of the last tile; all the other`
			`// elements are offsets to the tile data.`
			`tilePtrs[0] = static_cast<uint32_t>(context.tiles.back().data.size());`

			`assert(tilePtrs.size() <= TileStream::kMaxTiles);`
			`assert(tilePtrs.size() == context.tiles.size());`
			`assert(tilePtrs.size() == context.numItems);`

			`OutputStreamWrapper outputStream;`
			`outputStream.ptr = output;`
			`outputStream.size = *outputSize;`

			`// calculate uncompressed size`
			`size_t uncompressedSize = tilePtrs.size() * kDefaultTileSize;`
			`size_t tailSize = context.inputSize - (tilePtrs.size() - 1) * kDefaultTileSize;`
			`if (tailSize < kDefaultTileSize)`
			`uncompressedSize -= kDefaultTileSize - tailSize;`

			`assert(uncompressedSize == inSize);`

			`TileStream header(uncompressedSize);`

			`assert(tilePtrs.size() == header.numTiles);`

			`outputStream.StreamOut(&header);`
			`outputStream.StreamOut(tilePtrs.data(), tilePtrs.size());`

			`size_t dataOffset = outputStream.pos;`

			`for (size_t i = 0; i < tilePtrs.size(); ++i)`
			`{`
			`CompressionContext::Tile const& tile = context.tiles[i];`
			`uint32_t tileOffset = (i == 0) ? 0 : tilePtrs[i];`

			`outputStream.SetPos(dataOffset + tileOffset);`
			`outputStream.StreamOut(tile.data.data(), tile.data.size());`
			`}`

			`*outputSize = outputStream.pos;`

			`return true;`
			`}`

			`size_t CompressBound(size_t size)`
			`{`
			`size_t numTiles = std::min(size_t(TileStream::kMaxTiles), (size + kDefaultTileSize - 1) / kDefaultTileSize);`
			`numTiles = std::max(size_t(1), numTiles);`

			`const size_t tileSize = kDefaultTileSize +`
			`// Tile header. Ideally need to make it a part of compressor API.`
			`(sizeof(uint32_t) + 4 * 208 + 4 * 8);`

			`return numTiles * tileSize + sizeof(TileStream) + sizeof(uint64_t);`
			`}`

			`bool Compress(uint8_t* output, size_t* outputSize, const uint8_t* in, size_t inSize, uint32_t level, uint32_t flags)`
			`{`
			`return DoCompress(output, outputSize, in, inSize, level, flags);`
			`}`

			`} // namespace GDeflate`