![]() |
【转帖】vc6中的mbcs和unicode编码
今天写的一段代码涉及到MBCS编码和UNICODE编码的相互转换,查了一下MSDN的相关资料,整理如下:
在VC6中,默认使用MBCS编码,即多字节字符,实际就是支持大于0x80的ASCII码。这样,一个中文字可以表示为2个字节,GB2312就是这样表示的。 VC6的默认安装是不带UNICODE库的,要在VC6中写UNICODE程序,必须安装CRT和MFC的Unicode库。 要使你的程序支持Unicode,要在你的项目属性中去掉"_MBCS"宏定义,增加"UNICODE"和"_UNICODE"两个宏定义。(注意,这两个都应该加上,因为CRT和MFC使用UNICODE定义,而STL则使用_UNICODE) 如果你的程序是MFC的,则Unicode版MFC库的入口点是wWinMainCRTStartup。 为了方便开发者,VC6中提供了Tchar.h,里面定义了一些宏用来帮助写两种编码都兼容的代码。 类型 一般文本 数据类型名称 _UNICODE 和 _MBCS 未定义 _MBCS 已定义 _UNICODE 已定义 _TCHAR char char wchar_t _TINT int int wint_t _TSCHAR signed char signed char wchar_t _TUCHAR unsigned char unsigned char wchar_t _TXCHAR char unsigned char wchar_t _T 或 _TEXT 无效(由预处理器移除) 无效(由预处理器移除) L(将后面的字符或字符串转换成相应的 Unicode 形式) CRT中的相关函数在Tchar.h中都定义了相应的替代,基本是将str换成了_tcs,比如:CRT中的unsigned int strlen(const char *)现在是unsigned int _tcslen(const TCHAR*),在Uniocde时,将被替换为unsigned int _wcslen(const wchar_t)*,而在MBCS时,会被替换为unsigned int _mcslen(const char*)。 看,写Unicode和MBCS兼容的代码挺容易的吧,我总结了一些替换规则 1 将char换成TCHAR (unsigned char必须去掉unsigned) 2 将str函数换成_tcs函数 3 将字符串常量定义加要_T("")宏 4 printf函数族必须修改为wprintf,不过要注意千万不要使用wprintf函数来解析char型 很多时候程序中既需要Unicode,又需要使用ASCII,这时需要用到操作系统的2个API WideCharToMultiByte用来将Unicode字符串转化为MBCS的 MultiByteToWideChar用来将MBCS字符串转化为Unicode的 一些注意事项: 在Unicode编码下,sizeof没那么可靠了,memset( ,0, sizeof())的习惯用法可能会出大错,改成memset(,0,sizeof()/szieof(TCHAR))就没事了,呵呵 在Unicode下,一个中文字符就是一个字符,len = strlen() / 2;这样可不行了 |
回复: 【转帖】vc6中的mbcs和unicode编码
Visual C++
Unicode 和 MBCS 为支持国际编程,启用了 Microsoft 基础类库 (MFC)、Visual C++ 的 C 运行时库和 Visual C++ 开发环境。它们:
![]() 按照定义,ASCII 字符集是所有多字节字符集的子集。在许多多字节字符集中,0x00 到 0x7F 范围内的每个字符都与 ASCII 字符集中具有相同值的字符相同。例如,在 ASCII 和 MBCS 字符串中,单字节 NULL 字符(“\0”)的值都是 0x00 并且指示终止空字符。 |
所有的时间均为北京时间。 现在的时间是 01:44 PM. |