Python で文字列からひらがなを削除する - ひらがなの置換
2023.02.18
Python で文字列からひらがなを削除する関数:
import re
def remove_hiragana(text: str):
pattern = r'[\u3041-\u3096\u3099-\u309F]'
return re.sub(pattern, '', text)
a = remove_hiragana('ドラえもん')
b = remove_hiragana('ピカチュウ')
print(a) # ドラ
print(b) # ピカチュウ
sub
にパターン、置換後の文字列、置換したい文字列を入れます。置換後の文字列を空にすると、パターンにマッチする文字列が消えます。
ひらがな完全版
[あ-ん]
だと小さい「あ」の ぁ
などが漏れてしまう。ユニコードが定めるすべてのひらがなは
3041 ぁ
...
3096 ゖ
3099 ゙
...
309F ゟ
です。3097 と 3098 には文字がありません。以上からひらがなのパターンは
pattern = r'[\u3041-\u3096\u3099-\u309F]'
となります。