vps交流

一个文件夹下上亿个HTML文件可行吗?


想弄个采集站,采集上亿个文章,想全部放在同一个目录下(不创建子文件夹目录),这样可行吗?会不会出问题呢?比如效率会更差之类的?
别放同一个文件夹下,同一个目录也别太多文件夹一个文件夹下上亿个HTML文件可行吗?
简单分个2层目录即可

251768938 发表于 2022-6-29 20:23
别放同一个文件夹下

有什么劣势可以告诉我吗

建议hash分到多个子文件夹

会翻车吗 发表于 2022-6-29 20:24
有什么劣势可以告诉我吗

我电脑,三星ssd,一个文件夹下42w多文件就卡半天一个文件夹下上亿个HTML文件可行吗?

估计电脑都崩溃了

会翻车吗 发表于 2022-6-29 20:24
有什么劣势可以告诉我吗

你试试我再告诉你一个文件夹下上亿个HTML文件可行吗?一个文件夹下上亿个HTML文件可行吗?

我假设你用的linux系统,linux下每个文件系统有一个inode数,可以通过

  1. df -i

复制代码

查看,大概可以理解为能存储的文件数量上限,一般这个数量都是几千万,也就是说,别说放一个文件夹了,你放一个文件系统里都放不下几亿个文件。
再假设你通过一些设置,改大了这个上限,可以存储这么多文件了,这样的话其实单个文件夹和多个文件夹区别不大,都会很卡,因为inode总数过大,查找缓慢。
这种大量小文件存储,可以考虑用leveldb或者rocksdb来做,原理大概是把很多小文件整合成一个大文件。

基本上不可能。