久久综合九色综合97婷婷-美女视频黄频a免费-精品日本一区二区三区在线观看-日韩中文无码有码免费视频-亚洲中文字幕无码专区-扒开双腿疯狂进出爽爽爽动态照片-国产乱理伦片在线观看夜-高清极品美女毛茸茸-欧美寡妇性猛交XXX-国产亚洲精品99在线播放-日韩美女毛片又爽又大毛片,99久久久无码国产精品9,国产成a人片在线观看视频下载,欧美疯狂xxxx吞精视频

有趣生活

當前位置:首頁>知識>中文分詞索引 中文繁簡體轉換

中文分詞索引 中文繁簡體轉換

發布時間:2024-01-22閱讀(11)

導讀前言以前在github上自己開源了一些項目。礙于技術與精力,大部分項目都是java實現的。這對于非java開發者而言很不友好,對于不會編程的用戶更加不友好。....前言

以前在 github 上自己開源了一些項目。礙于技術與精力,大部分項目都是 java 實現的。

這對于非 java 開發者而言很不友好,對于不會編程的用戶更加不友好。

為了讓更多的人可以使用到這些簡單的小工具,周末抽時間將幾個開源項目添加了 web 服務實現。

開源項目中文繁簡體轉換

簡介:支持中文繁簡體的在線轉換。

在線地址:https://houbb.github.io/opensource/opencc4j/

開源地址:https://github.com/houbb/opencc4j

用法簡介

此處僅選擇一個作為例子介紹,其他用法大同小異。

中文分詞索引 中文繁簡體轉換(1)

【處理】將左邊的內容,按照下拉框的選擇,結果會自動填充在右邊。

【互換】互換左右兩邊的內容。平時測試繁體=》簡體,和簡體=》繁體更加方便。

【復制】復制右邊的內容到粘貼板。

敏感詞

簡介:基于 DFA 算法實現的高性能 java 敏感詞工具框架。請勿發布涉及政治、廣告、營銷、翻墻、違反國家法律法規等內容。

在線地址:https://houbb.github.io/opensource/sensitive-word/

開源地址:https://github.com/houbb/sensitive-word

拼音

簡介:高性能中文轉拼音工具。支持同音字。

在線地址:https://houbb.github.io/opensource/pinyin/

開源地址:https://github.com/houbb/pinyin

可以很方便的把一段文字轉換為對應的拼音,比如前言的內容默認如下:

yǐ qián zài github shàng zì jǐ kāi yuán le yī xiē xiàng mù 。 ài yú jì shù yǔ jīng lì , dà bù fèn xiàng mù dōu shì java shí xiàn de 。 zhè duì yú fēi java kāi fā zhě ér yán hěn bù yǒu hǎo , duì yú bú huì biān chéng de yòng hù gèng jiā bù yǒu hǎo 。 wèi le ràng gèng duō de rén kě yǐ shǐ yòng dào zhè xiē jiǎn dān de xiǎo gōng jù , zhōu mò chōu shí jiān jiāng jǐ gè kāi yuán xiàng mù tiān jiā le web fú wù shí xiàn 。

分詞

簡介:基于結巴分詞詞庫實現的更加靈活優雅易用,高性能的 java 分詞實現。

在線地址:https://houbb.github.io/opensource/segment/

開源地址:https://github.com/houbb/segment

分詞,可以說是 NLP 的基石。

前言的內容分詞效果如下:

[以前[0,2), 在[2,3), [3,4), github[4,10), [10,11), 上自[11,13), 己[13,14), 開源[14,16), 了[16,17), 一些[17,19), 項目[19,21), 。[21,22), 礙于[22,24), 技術[24,26), 與[26,27), 精力[27,29), ,[29,30), 大部分[30,33), 項目[33,35), 都[35,36), 是[36,37), [37,38), java[38,42), [42,43), 實現[43,45), 的[45,46), 。[46,47), [47,48), [48,49), 這[49,50), 對于[50,52), 非[52,53), [53,54), java[54,58), [58,59), 開發者[59,62), 而言[62,64), 很[64,65), 不[65,66), 友好[66,68), ,[68,69), 對于[69,71), 不會[71,73), 編程[73,75), 的[75,76), 用戶[76,78), 更加[78,80), 不[80,81), 友好[81,83), 。[83,84), [84,85), [85,86), 為了[86,88), 讓[88,89), 更多[89,91), 的[91,92), 人[92,93), 可以[93,95), 使用[95,97), 到[97,98), 這些[98,100), 簡單[100,102), 的[102,103), 小工[103,105), 具[105,106), ,[106,107), 周末[107,109), 抽時間[109,112), 將[112,113), 幾個[113,115), 開源[115,117), 項目[117,119), 添加[119,121), 了[121,122), [122,123), web[123,126), [126,127), 服務[127,129), 實現[129,131), 。[131,132)]

漢字相似度

簡介:漢字相似度計算工具。中文形近字算法

在線地址:https://houbb.github.io/opensource/nlp-hanzi-similar/

開源地址:https://github.com/houbb/nlp-hanzi-similar

markdown 目錄

簡介:為 markdown 文件生成 toc 目錄

在線地址:https://houbb.github.io/opensource/markdown-toc/

開源地址:https://github.com/houbb/markdown-toc

個人平時的博客都是使用 markdown 編寫的,專注于寫作。markdown-toc 可以為這樣的文本生成對應的 toc。

比如本篇文章,直接放在 github 上,是支持跳轉的。

* [前言](#前言)* [開源項目](#開源項目) * [中文繁簡體轉換](#中文繁簡體轉換) * [用法簡介](#用法簡介) * [敏感詞](#敏感詞) * [拼音](#拼音) * [分詞](#分詞) * [漢字相似度](#漢字相似度) * [markdown 目錄](#markdown-目錄)

中文分詞索引 中文繁簡體轉換(2)

小結

這樣的小工具,實現起來非常簡單。

但是對于用戶而言,意義還是比較大的。

最近在學習一些 AI 相關的東西,自己平時不搞 python,很多開源項目,沒有 web 體驗版本看起來就會很吃力。

不同的語言產生了難以逾越的鴻溝,愿你我能夠借助 WEB 的力量,跨過去

原文地址

開源項目在線化[1]

References

[1] 開源項目在線化: https://houbb.github.io/2022/11/06/opensource-tool-online

Copyright ? 2024 有趣生活 All Rights Reserve吉ICP備19000289號-5 TXT地圖HTML地圖XML地圖