python批量修改文件后缀名,python 提取文件名

  python批量修改文件后缀名,python 提取文件名

  Linux上的文件名长度限制

  场景:对于迭代,pdf文件必须被重命名为所有类的名称的集合。类太多,文件名可能太长,无法在linux上创建文件和文件夹。

  解决方案:经过验证,linux文件名最多可以包含255个字符,文件路径最大长度为4096个字符。所以类名一定要截断,不仅仅是字符串的长度,最后的文件名距离每个字符或汉字对应的字符要少于255个字符。

  根据以上情况,我深入学习了关于字符编码的知识。

  特性

  简介:单词简单来说就是数字、汉字、标点符号等我们日常生活中用到的单词。专业介绍请参考百度百科)

  农民工

  简介:用来量度电脑储存容量的单位。一个典型的计算机字节代表一个8位二进制数。

  编码

  简介:实际上,编码是指将字符转换成二进制的规则。我知道计算机在高电平和低电平分别代表1和0,所以要让计算机读懂我们的文字,就需要把二进制数和我们的文字进行映射。这个过程叫做编码。其实任何人都可以定义自己的编码规则,但是会很混乱。因此,一些组织制定了统一的编码规则。还有我们常用的编码规则比如ASCII,unicode。

  字符集

  ASCII(字符集):创建对应128个字符的数字,只支持字母、标点符号和不能显示的字符。

  Unicode:unicode只是一个用于映射字符和数字的标准。对支持的字符数没有限制,字符不必占用两个、三个或任何其他数量的字节。Unicode只指定与字符对应的数字,而不管字符是如何用字节表示的。毕竟unicode把世界上所有的字符都对应到一个数字上,但是具体来说,这个数字在计算机上怎么表示并不重要。

  与Unicode相关的其他误解包括,Unicode支持的最大字符数必须是65,536个字符,Unicode字符必须包含两个字节。这些是不正确的。

  Unicode字符如何在内存中被编码成字节是另一个主题,由Unicode转换格式(UTF)定义。

  Unicode问题:比如严格的汉字unicode,十六进制是4E25,转换成二进制就是15位(10011000100100101)。这意味着该符号的显示至少需要2个字节。可能需要3或4个字节来表示其他更大的符号,或者更多。

  这里有两个严重的问题。第一个问题是如何区分Unicode和ASCII。计算机怎么知道三个字节分别代表一个符号而不是三个符号?第二个问题是我们知道一个字节就够了。如果Unicode统一规定每个符号用3个字节或4个字节表示,那么每个英文字母前必须有2~3个字节为0。这是对内存的浪费,而且文本文件的大小要大两到三倍是不可接受的。因此,unicode字符集有不同的编码方法。

  通用编码规则

  ASCII码的编码规则:因为每个二进制位有两种状态,0) 1,所以八个二进制位可以配置256种不同的状态,即0000000-111111111。ASCII字符集定义了128个字符,8个二进制位可以代表256种状态,所以对于ASCII来说一定是足够了。

  Utf-8:一种编码方案UTF-8:unicode。在UTF-8中,字符0-127由一个字节表示,使用与US-ASCII相同的编码。这意味着用UTF-8打开1980年代写的文档没有问题。只有大于128的字符由2、3或4个字节表示。因此,UTF-8被称为变长编码,1-4个字节可以代表一个符号,字节长度随符号而变化。

  UTF-16:另一种常见的可变长度编码方法是UTF-16,它使用双字节或四字节来存储字符。

  javascript中的字符编码

  js使用的编码方法不是UTF 8或UTF-16。UCS-2。具体原因是javascript诞生的时候还没有UTF-16。不过好在UCS的码位和unicode是一致的,所以互相兼容。简单来说,两者的关系就是引入UTF-16而不是UCS-2,或者UCS-2集成到UTF-16中。所以,现在只有UTF-16,没有UCS-2。

  总结:

  Unicode是将字符映射到数字的简单标准。Unicode人可以处理它背后的所有问题,包括指定新字符的代码。

  Unicode不会告诉你字符是如何编码成字节的。这由编码方案决定,并由UTF指定。

  这个世界上没有明文。如果你想读取一个字符串,你必须知道它的代码。

  与字符集编码不同,字符集是指定数字和字符的映射,而编码是将指定字符对应的数字存储在计算机中的过程。

  编码是一个复杂的过程,其中切片编码、基本平面、辅助平面等相关概念在本文中不涉及。具体实现过程,请参考以下cactus相关资料。

  参考资料:

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: