先日、フォローしている方のツイートをヒントに、Google Document(グーグルドキュメント)を使って画像からの文字起こしの実験をしてみたんですが、思った以上に優秀だったのでシェアしたいと思います。
スマホで撮ったタイ語の説明看板を、GoogleドライブからGoogleドキュメントのOCR機能を利用して文字化したら、99%完璧じゃない?って思うくらい正確で驚きました。
これは、タイ語の勉強にも、街なかや旅先での案内看板とか掲示板とか説明書きをテキスト保存しておくにも役立ちそうです。
いくつか例を挙げて紹介していきます。
- OCRとは?
- 案内板のタイ語も写真から簡単にテキスト化できる!
- Googleドキュメントで画像から文字起こしをする方法
- タイ語のテキスト変換の精度例
- 手書き文字の場合はどうか?
- ネイティブのタイ人の手書きはいかに!?
- まとめ
OCRとは?
OCRとは何かって、私が説明するのもなんですが、ざっくり言うと、画像からテキストを抽出して文字に変換してくれる機能(光学文字認識)のことです。
光学文字認識
光学文字認識(こうがくもじにんしき、Optical character recognition)は、活字の文書の画像(通常イメージスキャナーで取り込まれる)を文字コードの列に変換するソフトウェアである。一般にOCRと略記される。OCRは、人工知能やマシンビジョンの研究分野として始まった。研究は続けられているが、OCRの中心はその実装と応用に移っている。紙に印刷された文書をデジタイズし、よりコンパクトな形で記録するのに必要とされる。さらに、文字コードに変換することで機械翻訳や音声合成の入力にも使えるようになり、テキストマイニングも可能となる。研究分野としては、パターン認識、人工知能、コンピュータビジョンが対応する。出典: フリー百科事典『ウィキペディア(Wikipedia)』より
案内板のタイ語も写真から簡単にテキスト化できる!
私は、旅先や町なかにある名所・旧跡の案内板や説明看板を読むのが割と好きなんですが、時間や天候(炎天下)などの都合上、全部その場で読むことができず、とりあえずスマホで写真を撮っておいて、移動時間や家に帰ってからゆっくり読み返すということが多かったんです。
今までは、その情報を一通り読んで、興味深いところは一部メモしたり、ブログで引用したりということはしていましたが、それらを整理して保存したりすることは、特にしていませんでした。
看板画像の情報を全部タイ語にタイピングし直すのは手間だし、かといって画像のまま貼り付けて保存するのは重くなるし、野暮ったいし・・・という思いもあって。
ところが、GoogleドキュメントにはOCR機能があり、それを利用すれば簡単に画像の中の文字情報をテキスト抽出することができ、しかも無料で利用できるのに精度が高いことがわかりました。
これなら、外出先で撮った写真から、あっという間に文字起こしができ、自由に編集したりテキスト保存することができます。
これはすごく便利そうです!
実際に、どのように文字変換するのか、その精度はどの程度なのかということを以下で見ていきたいと思います。
Googleドキュメントで画像から文字起こしをする方法
基本的には、以下のステップで簡単にテキスト変換ができます。
- Googleドライブに画像をアップロードする。
- アップした画像を右クリックして、「アプリで開く」⇒「Googleドキュメント」を選ぶ。
これだけです。
変換に少し時間がかかりますが、数秒後にオリジナルの画像とその下に抽出されたテキストが表示されます。
以下のサイトが、とてもわかりやすく説明してあったので、参考にさせていただきました。
※スマホのGoogleドライブアプリでは変換できないので、パソコンから操作してくださいね。
タイ語のテキスト変換の精度例
操作的にはすごく簡単だったので、早速いくつかテストしてみました。
※この後、タイ語のテキストがずらっと並びますが、(タイ語に興味がある方以外は)流し見してください。
赤色になっているところが変換ミスを修正した箇所ということだけ頭に入れていただければ大丈夫です。
ワット・サイの案内板
今月訪れた、シンブリー県のワット・サイ寺院(วัดไทร)の本堂横にあった説明書きの写真をOCR変換してみました。
<ワット・サイの説明書き看板>
ประ(2600 ประวัติวัดไทร
ขอกันทราย ตำบลชีน้ำร้าย อําเภออินทร์บุรี ยงหวีย สิงห์ จังหวัดสิงห์บุรี
วัดไทร ตั้งอยู่หมู่ที่ 6 ๕ ตําบลชีน้ําร้าย อําเภออินทร์บุรี จังหวัดสิงห์บุรี เดิมชื่อ "วัดทะยาน" สันนิษฐานว่า "ทะยาน" กร่อนมาจากคําว่า "ท้ายย่าน" มีคนเล่าว่าเคยมีพระธุดงค์รูปหนึ่ง มาพบ วัดร้างนี้เห็นว่าบริเวณโดยรอบมีต้นไทรขึ้นอยู่หนาแน่น จึงบอกชาวบ้านให้เปลี่ยนชื่อวัดเป็นวัดไทร วัดนี้คาดว่าถูกสร้างขึ้นมาตั้งแต่สมัยกรุงศรีอยุธยา วัดนี้มีเอกลักษณ์พิเศษคือเป็นวัดที่มีรากต้นไทร ยึดกําแพงโบสถ์ที่ประดิษฐานองค์พระประธานไว้โดยรอบ ส่วนของศาลาได้พังลงน้ําไปแล้ว
องค์พระประธานนี้ เดิมคนเฒ่าคนแก่เรียกกันว่าหลวงพ่อขาว หรือหลวงพ่อทะยาน ปัจจุบัน เรียกว่าหลวงพ่อวัดไทร ผู้เฒ่าผู้แก่ท้องถิ่นเล่ากันมาว่าแต่แรกนั้นองค์พระประธานเป็นหุ่นปูนหุ้มทอง ต่อมาถูกทหารพม่าสุมไฟหลอมลอกเอาทองไปหมดเหลือแต่หุ่นปูนข้างใน องค์พระพุทธรูปถูกตัดเศียรไป ต่อมาชาวบ้านแถวนั้นไปเรี่ยไรกันเพื่อนําเงินมาบูรณะต่อเศียรพระพุทธรูปที่ประดิษฐานองค์พระเป็น โบสถ์เก่าชาวบ้านเรียกว่าโบสถ์มหาอุต คือเป็นโบสถ์ที่มีประตูเข้า-ออกทางเดียว มีคนเล่าว่าเคยมีคน จะเข้าบูรณะทําหลังคาโบสถ์ให้แต่เมื่อลงมือทําก็มีฟ้าผ่า และมีคนฝันว่าองค์พระประธานที่ประดิษฐาน ในโบสถ์นั้นบอกไม่ให้สร้างหรือดัดแปลงใดๆ หลังจากนั้นก็ไม่มีใครทําหลังคาให้อีก
นับตั้งแต่ได้มีการบูรณะเศียรองค์พระประธานแล้ว ชาวบ้านแถวนั้นได้มีการร่วมกันทําบุญใน ช่วงสงกรานต์ของทุกปี จนปัจจุบันได้กําหนดทําบุญและสรงน้ําองค์พระในวันที่ ๑๖ เมษายนของทุกปี
上記は、変換されたテキストを基本的にそのままコピペして、一部色を変えたところは私が加筆しています。
- 黄色のマーカー部分・・・変換間違い
- 赤文字・・・正しい内容
- 緑文字・・・正しい内容(オリジナル文字が不鮮明または隠れている)
緑の部分は、もともと木の葉で文字の全部または一部が隠れているので、変換ミスとは言い難い(仕方がない)と思います。
ですから、それを除けば、「ตำบลชีน้ำร้าย」と、タイ数字の「๕(5)」を「6」に間違えた、2箇所のみの間違いとなります。
「ตำบลชีน้ำร้าย」については、特殊なフォント(飾り文字)を使っているので、難しかったのかなあと推測します。
なお、「水」という単語「น้ำ」が「นำ้」のように、ご覧になる環境によっては、母音と声調記号のバランスが崩れていますが、これはOCR変換に限らずよく起こる現象です。
詳しくはわかりませんが、変換ミスというよりは、文字コードとかOSとの相性とかの問題な気がします。(実際に、私のiPhoneの画面で見ると特に問題なく表示されるけれど、Windowsのパソコンだとバランスが崩れていたりします)
ワット・ウポーサターラームの案内板
次は、同じく今月訪れた、ウタイタニー県のワット・ウポーサターラーム(ワット・ボート:วัดโบสถ์)の境内に立てられていた案内看板で試してみました。これはかなり細かい文字なので、うまくテキスト変換できるのか気になります。
<ワット・ウポートターラームの説明書き看板>
วัดอุโปสถาราม
โรงเรียนวัดอุโปสถาราม
(762
C
(uid นคร)
G D 60
วัดอุโปสถาราม หรือวัดอุโบสถาราม หรือชาวบ้านเรียกว่า วัดโบสถ์ เดิมชื่อวัดโบสถ์มโนรมย์ | ตั้งอยู่ริมแม่น้ําสะแกกรัง ตรงข้ามกับชุมชนทั้งที่มีบ้านเรือนอยู่บนฝั่งและแพริมน้ํา และตลาด ซึ่งปัจจุบัน คือตลาดเทศบาลเมืองอุทัยธานี เลขที่ ๘๔ บ้านน้ําตก หมู่ ๑ ตําบลสะแกกรัง อําเภอเมือง จังหวัดอุทัยธานี
วัดอุโปสถารามสร้างขึ้นประมาณ พ.ศ. ๒๓๒๔ วางแผนผังเป็นฐานไพที่ยกสูง ก่ออิฐถือปูน บนฐานตั้งพระอุโบสถขนานเสมอกับพระวิหาร หันหน้าไปทางทิศตะวันออก และเจดีย์ ๓ องค์ หลากรูปแบบ สร้างเรียงไว้ทางทิศตะวันตก ด้านริมแม่น้ําเป็นแบบอย่างของการสร้างวัดในสมัยกรุงศรี อยุธยาตอนปลาย รัตนโกสินทร์ตอนต้น ภายในพระอุโบสถมีพระพุทธรูปนั่ง หรือพระพุทธเจ้า ๕ องค์ ) เป็นประธาน มีจิตรกรรมฝาผนังเขียน เล่าเรื่องพุทธประวัติและเทพชุมนุม ตามแบบประเพณีนิยม สมัยรัชกาลที่ ๓ ส่วนพระวิหารมีพระพุทธรูปยืน ๓ องค์เป็นประธาน มีจิตรกรรมฝาผนังเขียนเล่า | 1 เรื่องพระอสีติมหาสาวก (พระภิกษุสาวกผู้ใหญ่ ๘๐ รูป) อสุภกรรมฐาน ๑๐ (ซากศพในสภาพต่างๆ ซึ่งกําหนดเป็นอารมณ์กรรมฐาน ๑๐ อย่าง) พุทธประวัติ และพระมาลัย แสดงถึงคตินิยมในเรื่องพระสงฆ์ พัฒนาขึ้นมาเทียบเท่าความเชื่อเรื่องนรก สวรรค์ และพระนิพพาน รายละเอียดของภาพ เป็นรูปบ้านเรือน ) เรือกลไฟ การแต่งกายของผู้คนแบบตะวันตกที่นิยมในสมัยรัชกาลที่ ๕ ไปแล้ว ส่วนผนังด้านนอก ด้านหน้า พระวิหารเขียนเป็นภาพเรื่อง นมัสการรอยพระพุทธบาท สระบุรี เป็นประเพณีนิยมของประชาชนในลุ่มน้ํา ภาคกลาง ที่ถือปฏิบัติทุกปี สืบต่อมาจากพระราชประเพณีของพระมหากษัตริย์สมัยกรุงศรีอยุธยา
นอกจากนี้ยังมีมณฑปแปดเหลี่ยมสร้างต่อฐานไพที่ด้านริมน้ําออกไป ใช้เป็นที่ไว้ศพและอัฐิพระครู สุนทรมุนี (จัน) อดีตเจ้าคณะจังหวัด แพโบสถ์น้ํา สร้างขึ้นในคราวรับเสด็จพระบาทสมเด็จพระจุลจอมเกล้า เจ้าอยู่หัว พ.ศ. ๒๕๔๔ ๒๔๔๔ และใช้ประกอบพิธีกรรมชาวพุทธที่มีวิถีชีวิตเป็นชาวแพ และหอประชุมอุทัยธรรมสภา สร้างด้วยไม้สัก เป็นศาลาขนาดใหญ่ ๒ ชั้น ใต้ถุนสูง ชั้นล่างโปร่ง ชั้นบนทึบฝาผนังเป็นเพี้ยม ใช้เป็นหอสวดมนต์ ศาลาการเปรียญ และหมู่กุฏิสงฆ์
วัดอุโปสถารามมีเนื้อที่ ๒๓ ไร่เศษ ได้รับวิสุงคามสีมาเมื่อวันที่ ๒๐ มกราคม ๒๔๒๕ กรมศิลปากร ประกาศขึ้นทะเบียนโบราณสถาน ในราชกิจจานุเบกษา เล่ม ๑๑๐ ตอนที่ ๑๗๔ ลงวันที่ ๒๘ ตุลาคม ๒๕๓๖ และประกาศกําหนดเขตที่ดินโบราณสถาน ในราชกิจจานุเบกษา เล่ม ๑๑๕ ตอนพิเศษที่ ๓๗ ง ลงวันที่ ๑๙ พฤษภาคม ๒๕๔๑ เนื้อที่ ๔ ไร่
า
น
(9.90 เมตร)
ม
o
go ๑๐
so ๒๐
๓๐ เมตร
มาตราส่วน
:๑,ooo
๑ โบสถ์ ๕ * ๓ เจดีย์ ๕ หอประช ภัย ประชุม พุทธสภา ๗ ศาลาเอนกประสงฆ์ ๙ ศาลาการเปรียญ
* ๒ วิหาร *๔ มณฑปแปดเหลี่ยม #5 * ๖ แพโบสถ์
๔ หอระฆัง ๑๐ สวนดอกไม้,บ่อเลี้ยงปลา ๑๒ มณฑป ๑๔ สุขา ๑๖ สะพาน ๑๘ ศาลา
๑๑ กุฏิสงฆ์
๑๓ บ้าน ๑๕ เมรุ ๑๗ กรงเลี้ยงสัตว์
上記は、同じく、変換されたテキストを基本的にそのままコピペして、一部色を変えたところは私が加筆しています。
- 黄色のマーカー部分・・・変換間違い
- 赤文字・・・正しい内容
- 緑文字・・・正しい内容(地図や記号の一部を文字と認識)
緑の部分は、本文横の境内の配置図や記号の一部を文字だと捉えたためなので、本文だけで見ると、タイ数字の「๔(4)」を「๕(5)」に間違えただけです。
また、配置図内の間違いは、「ประชุม」とタイ数字が3箇所となります。
こうしてみると、若干タイ数字に弱いのかなという気がしますが、そもそもタイ数字は見間違いやすいので、Googleドライブが誤認識した数字も「ああ、わかる~、間違えても仕方ないかも」と同情したくなるほどです。
こんなに細かい文字の写真情報から頑張って変換してくれたことを考えれば、心情的には、「ほぼ完ぺきでしょ!」という素晴らしい結果でした。
ワット・ムアンの案内板
もうひとつ。
先日訪れた、アーントーン県のワット・ムアン(วัดม่วง)の大仏様の前にあった記念碑です。
<ワット・ムアンの記念碑>
พระครูวิบูลอาจารคุณ (หลวงพ่อเกษม) วัดม่วง ต.หัวตะพาน อ.วิเศษชัยชาญ จ.อ่างทอง พร้อมศรัทธาพุทธศาสนิกชนชาวไทย
น้อมเกล้าน้อมกระหม่อม ถวาย พระพุทธมหานวมินทร์ศากยมุนีศรีวิเศษชัยชาญ ขนาดหน้าตัก กว้าง ๖๓ เมตร สูง ๔๕ ๙๕ เมตร
เนื่องในวโรกาส พระบาทสมเด็จพระปรมินทรมหาภูมิพลอดุลยเดช (รัชกาลที่ ๔ ๙)
เฉลิมพระชนมพรรษา ครบ ๘๕ พรรษา
วันที่ ๕ ธันวาคม พ.ศ. ๒๕๕๕
สมเด็จพระนางเจ้าสิริกิติ ดิ์ พระบรมราชินีนาถ เฉลิมพระชนมพรรษา ครบ ๘๐ พรรษา
วันที่ ๑๒ สิงหาคม พ.ศ. ๒๕๕๕
ほぼ完璧ですが、やはりタイ数字に弱い感じですかね。
今回いずれも「๙(9)」を「๔(4)」に誤変換しています。
あとは、「ดิ์」の上についている黙字符号「 ์(ガラン)」が抜けていましたが、まあ、相当細かいですから、仕方ないかも。
手書き文字の場合はどうか?
上記のように、活字看板のタイ語は、ほぼ完璧なくらいにテキスト化してくれました。
もちろん、名所旧跡の案内板ということで、一般的な読みやすいフォントが使われているということもありますが、それにしても優秀だなと思います。
では、手書きのタイ文字はどうでしょうか?
以下、手書きの文字をスマホで撮影して、同じようにGoogleドライブを使ってGoogleドキュメントに文字変換してみました。
恥ずかしながら、私の拙筆・乱筆を晒してしまうことになりますが、お許しください。
サンプルに使った下のタイ語の文章は、昔、大学の授業で私自身が書いたレポートの一部を抜粋したものなので、おそらく、インターネット上にはあがっていない(Google先生の引き出しにもない)文章のはずです。(この記事を投稿する前の時点では)
※ただ、ある英語の格言について言及した内容なので、一部似たようなタイ語訳はあるかも知れませんが、全く同じものはないと思います。
普段の手書き文字(自然)
まずは、特に意識せず、普段使いの書き方で書いてみました。
我ながら、歪んでるし、クセありますね(恥)
<結果>
เราจงม้า ไป5 น้ํา แล้ว
จะกินน้ํา รด 43
เค/ราอาจมงาม2ตบังคับให้ช่วกินว ด้ก็จริง
意味不明。
文字と認識してもらえず数字や記号になっているところや、変換を放棄され空白になっている箇所多し!
文にすらなっていません。
黄色マーカーが間違い箇所ですが、多すぎるので赤で修正する気にもなりません(笑)
少し意識して書いた手書き文字
私の通常バージョンの筆跡の結果があまりにお粗末だったので、少し意識して書き直してみました。
でもきたない(笑)
<結果>
รวจงม้าไปที่น้ําแล้วมาจนน้ํา หรือ ไม่ก็ขึ้นอยู่กับมัน และ เราอาจจะไม่สามารถทั้งคับ ให้ม้ากินน้ําได้จริง
だいぶ良くなってきました。
誤変換されている単語や飛ばされている語もいくつかありますが、全体的に文章っぽい雰囲気になってます。
ちなみに、以下が私が書いたタイ語の文章です。
赤になっているところが、上記で間違っていた箇所です。
(正しいタイ語の内容)
เราจูงม้าไปที่น้ําแล้วม้าจะกินน้ําหรือไม่ก็ขึ้นอยู่กับมันและเราอาจจะไม่สามารถบังคับให้ม้ากินน้ําได้ก็จริง
頑張って正書した手書き文
最終手段。
タイ語学校でタイ文字を習い始めた頃を思い出して、タイ文字練習帳の点線をなぞるような文字で書いてみました。
昔は、このようにお手本に忠実に書いていたのですが、いつの間にかこんな風に書けなくなってしまいました。
たかが2行だけなのに、すごく時間かかったし、肩こりました。(笑)
<結果>
- เราจูงม้าไปที่น้ํา แล้วม้าจะกินน้ําหรือไม่ก็ขึ้นอยู่กับมัน
และเราอาจจะไม่สามารถบังคับ ให้ม้ากินน้ําได้ก็จริง
おおっ。
パーフェクト!!
やっぱり、活字のようなお手本通りの文字だとかなりの精度で読み取ってくれますね。
ネイティブのタイ人の手書きはいかに!?
自分の字は、かなり頑張って書かないと、うまく認識してもらえないことがわかりました。
そこで、やっぱり気になるのが、タイ人の手書き文字。
もしタイ人の文字ならどのくらい認識してくれるのでしょうか?
ということで、数人のタイ人に、同じ文章を意識せず自然に書いてもらいました。
同じく、黄色のマーカー部分が、誤変換した箇所となります。
เราจงมานานแล้ว ถ้าจะถึงนา หรือ วันกันมัน และเรา อาจจะไม สามารถนั่งกัน หมา ดินน้ําได้ ก็จริง
(2จุงมาไปที่นายตัวมาะกินน้ําหรือไม่ก็ขึ้นอยู่กับมัน
จะเกจจะไม่สามารถบังคับใช้มากินนา ได้กคริง
1399งามที น้ํา แล้วม29 กันน้ํานม กนกง-มัน (tes/5702055471259 มังคม 4 4 (766939
เราจงม้า ไปหน แล้วมาจะกินน้ําหรือไม่ ก็ขึ้นอยู่กับมัน เเละเราอาจจะไม่สามารถ นงคับให้มากินน้ําได้ ก็จริง
えーと。
やっぱりタイ人の方の筆跡でも、OCR認識はなかなか難しいようです。(ちょっと安心する私…笑)
達筆すぎるということで。
※今回の実験は、まったく学術的なものでも、正確なものでもありません。
文字の大きさや鮮明さなどの条件もまちまちなので、あくまでなんとなく試してみたという程度でご理解ください。
まとめ
撮影したタイ文字を簡単にテキスト化できる!
GoogleドライブからGoogleドキュメントへのOCR(光学文字認識)機能を使って、写真に撮った画像からテキスト抽出してみたら、その精度が予想以上にすごくて驚きました。
手書きではなかなか厳しいところもありますが、活字や看板の一般的なフォントの場合には、ほぼ正確に文字起こしをしてくれました。
今までは、名所旧跡の案内板をスマホ撮影して、後から読み返すだけだったんですが、これからは、テキスト化して保存しておくこともできますし、その他、タイ語の勉強にも何かと役に立ちそうです。
もっと早く知っていればよかったです。
もうすでにご存知の方もいらっしゃるかも知れませんが、私みたいに「初めて知った!」という方、ぜひ活用してみてください。
ではまた。