Linux/Unix:按名称或者数字查找Unicode和HTML字符

时间:2020-01-09 10:42:07  来源:igfitidea点击:

问题描述:
如何在Linux或者Unix之类的操作系统下用等效的十六进制unicode替换特殊字符。
如何列出或者找出给定字符的unicode?

解决方法:
您需要使用用Perl编写的unum程序。

它是一个命令行实用程序,可让您转换十进制,八进制,十六进制和二进制数字。

Unicode字符和块名称;和HTML/XHTML字符实体名称相互转换。
它可以用作Web作者的在线特殊字符参考。
该程序用可移植的Perl编写,可让您按名称或者数字查找Unicode和HTML字符,并以十进制,十六进制和八进制为基础对数字进行相互转换。

使用unum程序将特殊字符插入文档或者文本字段中。
这对于键盘上不可用的字符很有用。

下载并安装unum程序

执行以下wget命令:

$ [ ! -d ~/bin/perl ] && mkdir -p ~/bin/perl
$ cd ~/bin/perl
$ wget http://www.fourmilab.ch/webtools/unum/download/unum.tar.gz

使用tar命令解压缩unum.tar.gz,执行:

$ tar xvf unum.tar.gz

使用ln命令创建一个软链接,运行:

$ ln -s unum.pl unum

设置路径:

$ export PATH=$PATH:$HOME/bin:$HOME/bin/perl

如何使用unum程序?

语法为:

unum arg
unum query 
unum character 
unum a 
unum 9

请注意,所有名称查询均不区分大小写,并接受正则表达式。
如果正则表达式包含对shell有意义的字符,请务必将其引号。

例子

执行unicode查找名为d的字符,运行:

$ unum d

输出示例:

Octal  Decimal      Hex        HTML    Character   Unicode
    0144      100     0x64      d    "d"         LATIN SMALL LETTER D

要对abc(非数字)执行unicode查找,请执行:

$ unum abc

输出示例:

Octal  Decimal      Hex        HTML    Character   Unicode
    0141       97     0x61       a    "a"         LATIN SMALL LETTER A
    0142       98     0x62       b    "b"         LATIN SMALL LETTER B
    0143       99     0x63       c    "c"         LATIN SMALL LETTER C

其他例子:

## arg ##         ## Description ##
	147               Decimal number
	0371              Octal number
	0xfa75            Hexadecimal number (letters may be A-F or a-f)
	0b11010011        Binary number
	'∫π'  One or more XHTML numeric entities (hex or decimal)
	xyz               The characters xyz (non-digit)
	c=7Y              The characters 7Y (any Unicode characters)
	b=cherokee        List Unicode blocks containing "CHEROKEE"
	h=alpha           List XHTML entities containing "alpha"
	n=aggravation     Unicode characters with "AGGRAVATION" in the name
	n=^greek.*rho     Unicode characters beginning with "GREEK" and containing "RHO"
	l=gothic          List all characters in matching Unicode blocks

关于GUI程序的说明

您可以使用gucharmap GUI工具,该工具允许您浏览所有可用的Unicode字符和已安装字体的类别,并检查其详细属性。
您可以通过访问"应用程序"菜单来启动此应用程序:

Applications menu ▸ Choose Accessories ▸ Character Map

或者,执行以下命令:

$ gucharmap

或者

$ gnome-character-map

要显示有关字符的详细信息,请执行以下步骤:

  • 从"脚本"或者" Unicode阻止"列表框中选择一个字符集。示例:基本拉丁语
  • 从"字符表"选项卡式部分中选择一个字符。示例:@
  • 单击"字符详细信息"选项卡式部分。

关于KDE用户的说明

对KDE桌面使用KCharSelect实用程序:

KCharSelect是从所有已安装字体中选择特殊字符并将其复制到剪贴板中的工具。