Yahoo Web Search

  1. 繁簡轉換 - 维基百科,自由的百科全书

    zh.wikipedia.org › wiki › 繁简转换

    繁简转换,指繁体字与简体字的互相转换,实际使用时通常包括台灣、香港、澳门、中国大陆、新加坡、马来西亚地區所使用的標準中文之中不同字、词的相互轉換。由于中国大陆对汉字简化并非全部採用“一对一”方式,有部分用字採用“一对多”方式,因此准确的汉字转换相当困难。目前已经有相当多的专业人士正利用各种方法解决这个难题。 「简繁转换」可以认为是 ...

  2. 维基百科:繁简处理 - 维基百科,自由的百科全书

    zh.wikipedia.org › wiki › Wikipedia:繁简转换

    在中文维基百科裡,繁简处理和地区词处理是字词转换系统的两大组成部分。繁简转换旨在为用户提供只针对单字的转换(并包括繁简/简繁一对多的转换,例如簡體的「打斗」會正確地轉換成繁體的「打鬥」),是进一步实现地区词转换的基础。本页面提出一些进行繁简转换编辑维护的指引。

  3. Wikipedia:繁简体转换请求/2006年7月 - 维基百科,自由的百科全书

    zh.wikipedia.org › wiki › Wikipedia:繁简体转换

    Wikipedia:繁简转换请求/增加cn:英属维尔京群岛;tw:英屬維京群島;hk:英屬維爾京群島. 移除cn:州;tw:邦. 由於現今的州都轉換成邦,使得後來編譯的稱呼都變成邦。例如:瑞士都變成邦,原本應該是州。州=>邦目前只有德國和奧地利需要分成cn:州,tw:邦。

  4. Help:繁简处理/转换原理 - 维基百科,自由的百科全书

    zh.wikipedia.org › wiki › Help:繁简处理

    本页简单介绍1.4版软件的繁简转换原理,以使大家可以有效处理转换时遇到的错误。 参看m:Automatic conversion between simplified and traditional Chinese. 与分词的关系. 转换程序使用最简单的“最大匹配”法进行转换。这会导致如下的错误:假设转换词库中有一对应关系为

  5. Help:字词转换的模式选择说明 - 维基百科,自由的百科全书

    zh.wikipedia.org › wiki › Help:字词转换的模式
    • 匿名或非使用账户登录的用户
    • 使用账户登录的用户
    • 如果还有转换错误
    • 关于wikicode源代码

    用字模式与用户使用的浏览器的内容语言偏好设置部分有关。如果内容语言偏好设置没有设置任何与“中文”或“汉语”相关的选项——如果从技术说明而言,你的浏览器请求的HTTP请求头没有在accept-language中设有“中文”相关值(也就是“zh”及一系列“zh-”前缀的值),则默认为zh的模式——也就是对应字词转换的“不转换”模式,或者说以原始wikicode源代码显示。由于源代码大部分是繁体、简体的用字混合,所以所显示的内容的繁简程度可能与页面这些用字的比重有关。 请根据用户你所使用的浏览器调整关于内容语言显示设置的部分进行调整。

    用字模式与用户的参数设置设置参数有关,默认时均为“中国大陆简体”。请按需要调整“国际化”中“语言”(涉及系统界面的用字模式)和“内容语言变种”(涉及页面内容的用字模式)这两个选项。 强烈建议您不要选择“zh - 中文”、“zh-Hans - 中文(简体)”、“zh-Hant - 中文(繁體)”作为内容语言变种,否则您将看不到地区词转换的结果,可能导致一些显示异常。建议根据您的偏好选择下列分地区的变种: 1. zh-Hans-CN - 中文(中国大陆) 2. zh-Hant-HK - 中文(香港) 3. zh-Hant-MO - 中文(澳門) 4. zh-Hans-MY - 中文(马来西亚) 5. zh-Hans-SG - 中文(新加坡) 6. zh-Hant-TW - 中文(台灣)

    即使你选择了合适的变种,你仍然有可能遇到以下错误: 1. 某个简体字转成了错误的繁体字,或繁体字转成了错误的简体字。例如“牛肉干”被转换成“牛肉幹”、“乾隆”被转换成“干隆”或“三天后”没有转换成“三天後”。繁体文本中出现通用的异体字(例如“台”和“臺”)不属于错误。 2. 地区词处理时分词错误或运用了错误的转换规则。例如把“攻打印度”中的“打印”转换成“列印”,或者“軟體動物”误转换为“软件动物”。 3. 某个词语在不同地区表述不同,而维基百科没有进行转换。 如果出现了1、2两种情况,请前往Wikipedia:字词转换/修复请求提报你发现的问题。 如果出现了第3种情况,请注意不同地区表述不同的词语很多,维基百科地区词处理不可能覆盖所有的地区词。请参考Wikipedia:地区词处理获取更多信息和修复指南。

    字词转换机制只会对页面显示时有效,对于构成页面内容的wikicode源代码是保持编辑输入时的用字,这意味源码很有可能是繁简用字混合的,这可能需要一段适应和了解不同用字的学习过程。请勿进行简单的繁简替换,这是破坏行为。

  6. Wikipedia:繁简处理 - 维基百科

    wuu.wikipedia.org › wiki › Wikipedia:繁简处理

    吴语维基百科目前还呒不繁简转换系统。侬如果有兴趣搭仔能力个说话,可以考虑搭MediaWiki系统贡献代码,让吴语加上类似中文版个繁简转换功能。 建议保留个繁体字. 吴语也弗好照搬别样汉语个繁简处理方式,尤其北语里“同音合併”个简化方式应当规避。

  7. Wikipedia 语料库处理_GZGlenn的博客-CSDN博客

    blog.csdn.net › hubin232 › article

    Jun 23, 2018 · 第三步:繁简转换. 下载 OpenCC:https://github.com/BYVoid/OpenCC; 安装OpenCC: make sudo make install. 繁简转换: opencc -i wiki_00 -o wiki_00_chs -c OpenCCPath/data/config/t2s.json opencc -i wiki_01 -o wiki_01_chs -c OpenCCPath/data/config/t2s.json opencc -i wiki_02 -o wiki_02_chs -c OpenCCPath/data/config/t2s.json

  8. Nov 08, 2019 · NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1、Wikipedia Text语料来源 2、维基百科的文档解析 3、中文的简繁转换 4、将非utf-8格式字符转换为utf-8格式 5、调用word2vec 实现代码 输出结果 后期更...

  9. Wiki中文语料中包含了很多繁体字,需要转成简体字再进行处理,这里使用到了OpenCC工具进行转换。 (1)安装OpenCC 到以下链接地址下载对应版本的OpenCC,本人下载的版本是opencc-1.0.1-win32。

  10. Apr 01, 2017 · 中文维基百科语料库,将其转换为文本文件后,进行繁体字转换为简体字,字符集转换,分词,然后训练得到模型以及向量。由于文件上传的大小限制是60mb,而训练后的所有文件大小有1g以上,所以这里只提供了下载链接,地址在网盘中。

  11. People also search for