ニュース

A painter and a black cat: 同人誌印刷所見学ツアーで見学させて頂きました

kanata さんが4ヶ月前に追加

目次
TL;DR
しまや出版
緑陽社
トンボ付け足し君

以下のイベントに参加しました

※1人で2つも参加するの遠慮してたのですが、緑陽社の方が直前でキャンセルがあったため急遽参加しましたラッキー

TL;DR¶

2つの印刷方式がある
- オンデマンド印刷（とよく呼ばれるもの）：デカくて高性能なプリンタで印刷する方式
- オフセット印刷：版と呼ばれるアルミ板をつかって印刷する方式
- どっちの方が綺麗に印刷できるかという観点においては、近年においてはほぼ差はなく、（インクがテカリ気味/そうじゃない、とかの）個人の好みに近い
これらの機器はビッッックリするほど高い
レーザープリンタもあったすごい切れる（小並感）
トンボについても質問してきたので後述の「トンボ付け足し君」に活きそう

しまや出版¶

ねこちゃんおる天国かな

いろんな加工ができる旨、ご紹介頂きました
おそよ本で可能なことはなんでもできそうです

この金属板がオフセット印刷の版だそうです（社長見切れております）

それでこれがオフセットの印刷機

オフセットとオンデマンド印刷の違いは僅かですが、インクのテカリのような差があるとのこと（でも、どちらがよいかという話ではなく好みの問題）

これは中綴じ（平綴じ）する機会だそうで、この針金で綴るそうです

紙もすんごい種類がある（迷う）

帰りに50周年記念の冊子を頂きました!（ありがとうございます!）

かわいいやばい

緑陽社¶

直前でキャンセルあったので来れたうれしい

オフセット印刷の版がこれ

緑陽社さんはグッズも作成しているそうで、これは缶バッジ作成マシーン（作ったものを頂いてしまった…!）

オフセット印刷機
C（シアン）とM（マゼンタ）のインクがセットされているのが見えます。
見えない箇所にY（イエロー）もセットされています。
シアンとマゼンタの色からするとけっこう原色の赤と青っぽく見えますね。印刷時に薄く伸ばされるとマゼンタやシアンに見えるのでしょう。

とう言うわけで、4枚の版にCMYKそれぞれの色をつけて印刷するのだそう
最終的な一枚はフルカラーに見えるのだと

これは加湿器だそうで、しまや出版さんにもありました。
湿度はめっちゃ気を使っているそう。

これは無線綴じする時の糊だそう。触ってみるとプラスチック片みたいに硬いです。

帰りにバッチやアクキーを頂きました!（ありがとうございます!）

トンボ付け足し君¶

2026/4/11から頒布予定の縦書きTypstに、任意のPDFにトンボをくっつける機能「トンボ付け足し君」を作っています。トンボを付ける必要がある印刷所さんに対しても、必要ない印刷所さんに対しても、気にせずにどっちにも出すこともできるようにしたくて作っています。
いったんトンボなしでPDF原稿を作って、トンボ必要な印刷所さんに対しては「トンボ付け足し君」でトンボつければいい訳です。最高でしょ。

それで、トンボの仕様について確認できるチャンスでしたので、しまや出版さんにも、緑陽社にも、質問させて頂いた次第です。

コーナートンボはだいたい各社さん同じ
こんな感じ

センタートンボはまちまち
こんな感じ

それで、「こういうトンボは困る…とかありますか…?」と質問させて頂きました。
結論としては2社さまとも「どういうのでも大丈夫やで～」と回答頂きました。

ということで、仕様的にはこれでいいんじゃないかな、と思っています。

「トンボ付け足し君」を使うとどうなるかイメージをはっておきます。
こういう原稿のPDFがあるとして

「トンボ付け足し君」を使うとこんな感じになります。
塗り足しがあっても大丈夫です（クリックすると拡大）。

ちなみにガイドラインも付け足すことができます（クリックすると拡大）。

赤い線が断ち切り線で、ここを目標に断裁されるのですが多少ズレる可能性があって、その範囲が外側の黒い線（塗り足し線）と内側の青い点線（文字はこの範囲に収める）になります。

あと、隠しノンブル付け足し機能もあります。

A painter and a black cat: コミケ(C108)で使えるサークルカットの非公式Typstテンプレート

kanata さんが5ヶ月前に追加

コミケ(C108)に申し込んだんですが、申込みの際にサークルカットが必要なんですよね。
こういうの（↓C106の時のサークルカット）

これは、サークルカットを作る際のテンプレートがあって、それに合わせて作成する必要があるのですが、
慣れないペイントツールとか使うとけっこう大変なんですよね。

使い慣れたTypstで作れたら楽だなぁと思って、AIにいろいろ聞いたり、作成をお願いしたりしなかったりしたら、テンプレートが作れました！
なので共有します！

使い方¶

Typstは既にインストールしてある前提で話を進めます。

なんもわからん!っていう方は拙著のTypstを完全に理解して技術同人誌を書く。（露骨なダイレクトマーケティング）を読んでみてください！

本ページの一番下にある「circle_cut.typ」をダウンロードします。
それを開いて、11行目から25行目のあたりにサンプルで適当な内容が書かれているので、それを書き換えます。

完成したら、以下を実行することでpngファイルが生成されます。Typstのコマンドはpdf以外にpng画像を出力できます。

$ typst c circle_cut.typ circle_cut.png

サークルカットテンプレートAじゃなくてBにしたい場合¶

サークルカットは、サークルカットテンプレートAとBの2種類あるのですが、Bを使いたい時の話です。

circle_cut.typの以下のTypeAの行をコメントあうとして、逆にTypeBの行のコメントを外してください

// 横の仕切り線
#place(
  line(start: (0pt, split-pos), end: (317.5pt, split-pos), stroke: line-thick) // TypeA
  //line(start: (0pt, split-pos), end: (91pt, split-pos), stroke: line-thick) // TypeB
)

A painter and a black cat: 超ざっくり日本国内だけ通信許可するさくらのVPSのパケットフィルター

kanata さんが約1年前に追加

超ざっくり日本国内だけ通信許可するさくらのVPSのパケットフィルター¶

目次
超ざっくり日本国内だけ通信許可するさくらのVPSのパケットフィルター
経緯
さくらのVPSのパッケットフィルターとは
日本国内で使っているIPアドレスをいい感じにまとめる
AIのしごと
設定とその後

経緯¶

10年前(2015)にざっくり日本国内だけ通信許可するiptables というブログを書いたんですが、当時は

アメリカとか中国とか色んな国から、なんか悪いことを目的としたアクセスが頻繁にくる
よって、httpとhttps以外のポートは全て閉じたいが、自分的に不便
そうだ、日本国内だけ許可したらいいじゃない
ところが、SeversMan@VPSのCentOSのiptablesは、登録できるエントリー上限が256の模様
なんとか256個の制限内に収めたい

で、日本で使われているIPアドレスの第一オクテッド(つまり、aaa.bbb.ccc.ddd のaaa)だけを見て、日本かどうか判断するというのをやっていました（それなりに効果はあったと思う）

それで10年たった今、似たような状況がまた発生したんですね

アメリカとか中国とか色んな国から、なんか悪いことを目的としたアクセスが頻繁にくる（ 10年前よりひどい ）
よって、httpとhttps以外のポートは全て閉じたいが、自分的に不便
そうだ、日本国内だけ許可したらいいじゃない
ただCPUもメモリも少ないVPSを使っているのでiptablesに大量に登録したくない
さくらのVPSのパッケットフィルター（無料!）で防げばいいじゃない
ところが登録できるルールの上限が20の模様
なんとか20ルールの制限内に収めたい

…10年前より制限きついやんけ、、とうわけでチャレンジしました

さくらのVPSのパッケットフィルターとは¶

さくらのVPSを使っている人のみが使えし無料のファイアウォール
登録ルールは20が上限、ただ許可する送信元IPアドレスをCIDRで設定できる。なので やりようによっては許可するIPアドレスをおおきくまとめることができる
使っているVPSとは別の装置でフィルタリングしてくれているので、VPSがパケットフィルタリングのリソースを割かなくてもよい(うれしい!)

日本国内で使っているIPアドレスをいい感じにまとめる¶

国外のIPアドレスが混じっちゃってもかまわない（妥協）ので、いい感じにまとめてくれとAIくんにお願いしました
最初は、渋って20以上のルールとか回答してきたAIくんですが、「頑張れ頑張れできるできる絶対出来る頑張れもっとやれるって！やれる気持ちの問題だ頑張れ頑張れそこだ！そこで諦めんな絶対に頑張れ積極的にポジティブに頑張る頑張る！iptablesだって頑張ってるんだから！」と修造ばりに熱く語りかけることで、いい感じの回答が得られました

AIのしごと¶

厳密に検証していません、が、おおむねカバーできてそう。5ルールで。でかした!
これならまだ15ルール分余裕があるので、細かく制御したい分はルール追加すればいいんじゃ
以下、AIの回答

サマリ¶

日本の全 IPv4 アドレス（約1.99億アドレス）はすべて APNIC（アジア太平洋地域インターネットレジストリ）の管轄下にある複数の /8 ブロックで割り当てられています。これらを効果的に 5 つの大きな CIDR（/4, /4, /3, /3, /2）にまとめることで、国内 IP をすべてカバーしつつ、海外 IP の一部混在も許容したまま、パケットフィルターのルール数を大幅に削減できます

日本の IP 割り当て概要¶

総割り当て：日本国内には約199,092,992 個の IPv4 アドレスが割り当てられています（約2億）- APNIC 管轄：これらはすべて JPNIC を通じて APNIC より /8 ブロック単位で配布されています（例：1.0.0.0/8, 14.0.0.0/8, 27.0.0.0/8 … 183.0.0.0/8）
海外 IP の混在：上記 APNIC ブロックは日本以外のアジア太平洋地域にも及ぶため、集約時には国内外の混在が避けられませんが、国内カバーを最優先とします

CIDR による大域的集約手法¶

CIDR（Classless Inter-Domain Routing）では、隣接する /8 ブロックをより大きなプレフィクスにまとめることで、ルール数を劇的に削減できます。以下では、日本の割り当て／APNIC ブロックを 5 つのネットワークに圧縮した例を示します。

集約プレフィクス	範囲（第1オクテット）	含む主な APNIC /8 ブロック
1.0.0.0/4	1–15	1.0.0.0/8, 14.0.0.0/8
16.0.0.0/4	16–31	27.0.0.0/8
32.0.0.0/3	32–63	36.0.0.0/8, 39.0.0.0/8, 42.0.0.0/8, 43.0.0.0/8, 49.0.0.0/8, 58.0.0.0/8, 59.0.0.0/8, 60.0.0.0/8, 61.0.0.0/8
96.0.0.0/3	96–127	101.0.0.0/8, 103.0.0.0/8, 106.0.0.0/8, 110.0.0.0/8, 111.0.0.0/8, 112.0.0.0/8–126.0.0.0/8
128.0.0.0/2	128–191	133.0.0.0/8, 153.0.0.0/8, 175.0.0.0/8, 180.0.0.0/8, 182.0.0.0/8, 183.0.0.0/8

参考情報¶

APNIC がアジア太平洋地域（日本含む）に割り当てる /8 ブロック一覧（例示）: Wikipedia
日本の割り当て IP 総数: IP2Location LITE
APNIC 管轄と機能概要: APNIC 公式サイト
IANA IPv4 アドレス空間レジストリ: IANA 公式サイト
GeoIP 用国別集約ゾーン例: IPdeny
FireHOL のアジア大陸 IP リスト: FireHOL (IPDeny データ)
カントリー ACL 自動生成ツール: CountryIPBlocks

設定とその後¶

というわけで設定した!

20250429_さくらのVPSのパケットフィルター設定

それなりに機能していて、ある程度の攻撃パケットは防いでくれています（漏れた国外からのアクセスもあるにはあります）
ただ無料なので、やっておいて損はないはず～

A painter and a black cat: Typstで絵文字を書いたらType3のフォントが埋め込まれた件

kanata さんが約1年前に追加

目次
Type3フォントとは
Typstの動作
調査方法
- PDFの埋め込みフォントを確認する
- どの文字がどのフォントを利用しているか調べる
対応方法
Typstで技術同人誌を書く

技術書典18向けに技術同人誌を書いているのですが、その中で絵文字を使っていました。それで、印刷所に入稿したら「埋め込まれてないフォントがあるよ～」（意訳：Type3フォントがあるよ～）というご連絡を頂いたんですね。このまま印刷すると文字化けするかもしれないと。

そっかぁ、と思って対応することにしました

特にTypst固有の問題ではなくてLaTeXでもRe:VIEWでもVivliostyleでも、組版ソフト共通で起こる問題と認識しています

Type3フォントとは¶

フォントって様々な形式があって、けっこう複雑なんですが（私もちゃんと把握できていない）Type3フォントは紆余曲折あって、今はあまり使われない形式らしいです
印刷会社さんや、学会ではType3フォントを避けるように言われる場合があるみたい
Type3フォントが埋め込まれたPDFがどうなるかというと、印刷時に文字化けするリスクがあります

Typstの動作¶

特にTypstのドキュメントには絵文字フォントを指定していなかったんですが、その場合はTypstがシステムフォントからフォントを探し出して埋め込んでくれます
今回の事象は、 Segoe UI EmojiというType3フォントが知らずに埋め込まれていた…という状況でした

調査方法¶

PDFの埋め込みフォントを確認する¶

Acrobat Readerでも、その他のPDFビューアーからでも、フォントの状態を確認できます
「ドキュメントのプロパティ」という感じの項目を探してみてください

Type3フォント

"embedded"とう文言は「フォント埋め込まれてるよ!」という意味なので、そこはOKなのですが、種類の所が…
あぁ～これですわ

TwitterColorEmojiは使ってないので単純にフォントをアンインストールしました
ただSegoe UI Emojiは、Windows標準のシステムフォントなのでおいそれとアンインストールできません

さて、困りましたね。。

どの文字がどのフォントを利用しているか調べる¶

ちなみに、もっと厳密に PDF中のどの文字がどのフォントを使っているか調べる方法をChatAIさんに聞いた所

Inkspaceという画像編集的なソフトをインストールする
InkspaceでPDFを開く
SVG形式でエクスポート
SVG形式のファイルは中身がテキストファイルなので、文字とフォントの関係が確認できる

ということで試してみたら、grepとかでいい感じで確認はできそうでした
以下みたいに実行すると、どのへんのどの文字で使われているか調べられます

$ grep -C5 -n "font-family:'Segoe UI Emoji'" Target.svg

ちなみに以下みたいに書くと、どのフォントがどのくらい使われているか把握できます

$ grep -o 'font-family.*;' Target.svg |awk -F';' '{print $1}'|sort |uniq -c

対応方法¶

いくつか対応方法があります

絵文字フォントを指定する¶

Typstのドキュメント側で明示的にフォントを指定すれば、Segoe UI Emojiの混入が防げます
代替のフォントとして、Segoe UI Symbolというのが使えますが、ちょっと見た目が好きじゃなかったのでNoto Emojiをインストールして代替することにしました

  set text(
    // 記載の順にフォントを検索します
    font: ("Meiryo UI", "Yu Gothic", "Arial","Noto Emoji","Segoe UI Symbol"), // フォント設定
    /* フォント候補
      "Arial","New Computer Modern","Tahoma",
      "Times New Roman","Verdana",
      "Meiryo","Meiryo UI",
      "Yu Gothic","Yu Gothic UI","Yu Mincho",
    */
    size: 9pt, // フォントサイズ
    lang: "jp", // 言語
  )

ただ筆者の場合は、なぜかこれでも勝手に埋め込まれちゃったので別の手段を取ることにしました

フォントの参照先を指定する¶

TypstでCLIでコンパイルする際に、以下のオプションが使えます

オプション	意味
--ignore-system-fonts	フォントの参照先からシステムフォント（C:\Windows\Fonts）を除外する
--font-path "C:\example\font"	フォントの参照先を追加する

これを利用して、コンパイルに必要なフォントだけを格納したフォルダを用意（一時的にC:\Windows\Fontsから必要なフォントをコピー）して、それを指定することで余計なフォントを参照させないようにできますね

$ typst c Target.typ --ignore-system-fonts --font-path "C:\example\font"

アウトライン化¶

最後の手段なんですが、アウトライン化（≒画像のような形式）にしてしまえば、フォントの問題は解消されます
Windows の印刷機能（Microsoft Print to PDF）でPDFを再印刷することで実現できます

後述の書籍↓にも書いています

Typstで技術同人誌を書く¶

そんなフォント周りの話も含めた本を頒布中です

Typstを完全に理解して技術同人誌を書く。

よろしくお願いします。

A painter and a black cat: 7日間でハッキングをはじめる本 TryHackMeを使って身体で覚える攻撃手法と脆弱性

さんがほぼ2年前に追加

めっちゃ楽しく読みました!¶

ｷｬｱｱｱｱｱｱｱｱｱ！著者同士は不思議な力で引き合うので本を送るスタンドが使えると聞いていたのですが本当に届けてもらえた！ありがとうございます！黒い画面が怖くなくなった次くらいの本になったらいいな https://t.co/gDceBsxxFL
— 野溝のみぞう (@nomizooone) August 23 2024

初学者だけじゃなく、普通に助かる¶

Day1を拝読するとですね、Kali linux の設定がある訳なんですけれど、これがですね。ほんと助かります。ほんと助かるんですよ。
なんかですねKali Linuxってよく壊れる（n=1の主観的な感想）んですよ。アップデートしたらXWindow立ち上がらなくなったりして。そんな感じなので、1度インストールして、育てていく…というよりは、都度都度、壊れたら（または古くなったら）作り直す…みたいなディストリビューションとして捉えています。
すると、どうなるかっていうと、インストール後の初期設定を何回もしなきゃいけないんですよね。
日本語化して、タイムゾーン変更して、、、とか毎回ググって設定するわけなのですが、それが全部書いてある素晴らしい…!
ここだけでも助かるのに、この後のDay2以降であらゆるツールの使い方載ってるんですよね!
「あぁこのツールどう使うんだったっけな～」からのググって・・・あぁそうだった・・・が、なくなるんです!最高!
この網羅的にツールを扱う本って実は希少なんですよね。手元に1冊置いておいて、パラパラめくって再確認できる・・・という使い方ができるんです!助かります～!

もちろん初学者さんにも役に立つ¶

けっこう専門的なところを解説しつつも、たくさんの図解があって、ほんと迷うことなく進められます。読んでてスッと入ってきて引っ掛かりがありませんでした。初学者さんもきっと大丈夫。

そしてびっくりするのはですね、情報量が多いんです。情報量が。なんと300ページ近くあるんです。だからお買い得感あるヤバい。私の学生時代にあったら秒で買ってたし、こんな本欲しかった～って思いました。
なので、この1冊を読んで、たとえばnmapのこともっと知りたいな～と思えば専門書籍を追加でご購入されるもよし、Metasploitもっと知りたいな～と思ったら専門書籍を追加でご購入されるもよし、これら専門書籍はお値段がけっこうしたりするので、専門書を選択しながら少しずつ専門知識を広げていくアプローチがとれそうです。

というわけで、ぜひお手にとってみてください。目次を見ると欲しくなるんです（私が）。

ちな、ハッキングより手前の、黒い画面が怖くなくなる本もございます（便乗）
黒い画面に心理的抵抗があれば、こちらも御覧ください～

A painter and a black cat: ロボットの確率・統計

さんが約2年前に追加

拝読させて頂き¶

献本頂いた「ロボットの確率・統計」ちょっとずつ読んでいるのですが、システム開発と通ずる所が多くて普通に仕事で役に立ちそう
特に1章:代表値、2章:確率、3章:期待値、5章:試行回数と信頼性
このあたりは、システムの信頼性設計と「性能試験」にめっちゃ関係するんですよ!（リプライ続く） https://t.co/4YBqIk5R72
— kanata?コマンドラインの黒い画面が怖いんです。4/19発売予約受付中! (@kanata201612) March 10 2024

ロボットだけじゃない、むしろ人生に役に立つ¶

前半は確率・統計の基礎的な話なのですが、これが実務ですごい役に立つ話でですね。
これを理解すると、正確に「グラフが読めるようになる」んですよ!
仕事とかでグラフって良く見る機会があるんですが、まぁまぁ恣意的に作られてるんですよね。誤魔化したり、ダマしたりする意図が多分にあるというか。
それで、ぼんやり眺めてるだけでは気づかないんです、が・・・
この本でわかるようになります。

例えば最近の話題だと「通訳者の賭博負け総額は、平均23万円」で、「えぇ?そんなみんなギャンブルして負けてるの…」ではなく、それが外れ値の影響であることが秒でわかる、みたいな。

もちろんロボットにも役に立つ¶

ロボットは工学的なこととか、ソフトウェア的なこととか、数学的なこととかの、それぞれが連携する集大成であったりするので、各章だけでも色々な分野の人に役に立つはず。後半の章は機械学習とか強化学習とか意思決定とか出てきます。
このあたりの内容を絡めた実体験エピソードが載ってるのがすごい面白いんですよ!
ロボットの勉強しようと思ってたら「怪しい儲け話に気づくようになる」とか「麻雀で勝てるようになった」とか「やべー情報だけインプットされると認知は歪む」とか実生活に役立つ話が、確率・統計の知識ベースと繋がるんです最高に楽しい。

数式出てくるあたりは、何回か読み直しながらだいぶ時間をかけて理解する必要がありそうですが、最終的に腹落ちして理解できそうです。
なぜかというとですね、技術書でけっこう行き当たるのは「なんかよくわからん…よくわからないけれど、こうなるのか…」というのがあるんです。その「なんでこうなるのか」が丁寧に書いてあるんですよ!すごい!

ぜひお手にとってみてください。目次を確認して頂くと、きっと役に立つ章があります。

ちな、拙著の実生活に焦点をおいたダマサれないための本もございます（便乗）
「第3章　ダマす数値」のあたりが、ちょうど「ロボットの確率・統計」と地続きでした!

A painter and a black cat: 「ポ」と「ポ」は違う文字なのでgrepにヒットしない話

さんが2年以上前に追加

こういう事象になる

$ cat popopo.txt
ポポポポーン1
ポポポポーン2
$ grep "ポ" popopo.txt
ポポポポーン1
$ grep "ポ" popopo.txt
ポポポポーン2

おわかり頂けただろうか…
「ポ」をgrepしてもどちらかしかヒットしない

なぜか…

Unicode結合文字という仕様がある¶

「ポ」と「ポ」は、見た目が同じですが実は違う形式でできているから（Unicodeの仕様）
見た目は同じですが、コンピュータ上では別の文字として扱われます
なので、grepにヒットしない「ポ」がでてきます

「ポ」   と       「ポ」
U+30DD       「ホ」 ＋「゚」
             U+30DB   U+309A

これは濁音（「が」とか）と半濁音（「プ」とか）のすべての文字に当てはまります

Unicode正規化という対応方法がある¶

えぇ…じゃぁすごい困るじゃん…検索できないじゃん…
ってなるので、Unicode正規化と呼ばれる統一する方法があります
任意のプログラム言語で実装もできるのですが、ワンライナーでも変換できます

pythonを使ったワンライナー

echo -n "ＤＱⅢ①⑳海海神神㌔㍉ビデブー" | python -c "import sys,unicodedata; print(unicodedata.normalize(\"NFKC\", sys.stdin.read()));"
DQIII120海海神神キロミリビデブー

perlを使ったワンライナー

echo -n "ＤＱⅢ①⑳海海神神㌔㍉ビデブー" | perl -e "use strict;use utf8;use Encode;use Unicode::Normalize;binmode STDIN, ':encoding(UTF-8)';binmode STDOUT, ':encoding(UTF-8)';print Unicode::Normalize::NFKC(<STDIN>);"
DQIII120海海神神キロミリビデブー

※"ＤＱⅢ①⑳海海神神㌔㍉ビデブー"はテストデータです

では、冒頭の「ポ」で試してみます

$ cat popopo.txt | python -c "import sys,unicodedata; print(unicodedata.normalize(\"NFKC\", sys.stdin.read()));" | grep "ポ"
ポポポポーン1
ポポポポーン2

うまくいきました

参考¶

Unicode結合文字難読化シェル芸
https://www.slideshare.net/kanata1/unicode-112630484

この仕様で遊んでた時の話

文字コードのカオスな世界を整理してみた
https://raintrees.net/news/51

そもそもの文字コードの話

A painter and a black cat: コマンドラインの黒い画面が怖いんです。新人エンジニアのためのコマンドが使いこなせる本、という本を書きました

さんが2年以上前に追加

翔泳社サイトはこちら

翔泳社サイトhttps://t.co/LzmEcpfvrK #黒い画面が怖い #著者のPR
— kanata (@kanata201612) March 10 2024

マクロ include の実行中にエラーが発生しました (ページが見つかりません)

A painter and a black cat: SCPFmaskコマンドを作成した

さんが約3年前に追加

マクロ include の実行中にエラーが発生しました (ページが見つかりません)

A painter and a black cat: Edge(Chorme)のヘッドレスモードでSPAのページをcurlみたく出力する (1コメント)

さんが3年以上前に追加

目次
動機
というという訳でツールを作った
コメント

動機¶

以前はサイトのDOMを参照するときcurlを使っていて、それはそれは便利だったんですが近年SPAとか動的にDOM構築するサイトが増えるようになって、ぜんぜん使えなくなりました。
かといって、SeleniumやPuppeteerやBeautiful SoupやSplashなんかを使うとプログラミングする必要がでてきて面倒だなぁ・・・となっていました。なんか色々インストールすることなくcurlみたいにお手軽に使いたいだけだし、1行でやりたい。。シェル芸したいんじゃ。。

という訳でCUIでChromeをヘッドレスモードで呼び出せばいいじゃんっていう話なんですが、SPAの時、JavaScriptがDOM構築を完了するまでどうやって待ち合わせるか、そもそもそういうオプションあるのかしら…とずっと思っていました。でも、最近ようやくわかったんですね!!!1!あったわ、オプションありましたわ…!

あと、Windows環境であれば標準で入っているEdgeをヘッドレスモードで動かせるので、それをWSLで動くようにしたい～

というという訳でツールを作った¶

EdgeHeadless.sh

#!/bin/bash

# EdgeのヘッドレスモードでSPAのページをcurlみたく出力する ver 0.1

Edge="/mnt/c/Program Files (x86)/Microsoft/Edge/Application/msedge.exe"

"$Edge" --headless --enable-logging --dump-dom --virtual-time-budget=10000 $1 $2 $3 $4 $5 $6 $7 $8 $9

Edgeの実行ファイルPATHをChromeのそれに置き換えても動くと思います。

たまに以下のエラーで返ってくる時があるんだけどその時はもう一回実行してください（リトライ処理を書くのをサボっている）

TypeError: Cannot read properties of null (reading 'outerHTML')

ではちょっと試してみましょう。
ちょっと適切なサイトが思い浮かばなかったので内閣サイバーセキュリティセンターで試してみます。

NISC

そうですね。。ではこの中の下の方にある「情報セキュリティ教育用教材」のリンクを取得してみましょう。

まず、ここの内容はJavaScriptで動的にDOMを構築しているようなのでcurlで取得できません。

$ curl -s https://www.nisc.go.jp|grep 情報セキュリティ教育用教材

curlだと何も引っかからないですね。では、今回作ったツールでやってみます。

$ ./EdgeHeadless.sh https://www.nisc.go.jp|grep 情報セキュリティ教育用教材
        <div title="ランサムウェア対策について" data-href="https://security-portal.nisc.go.jp/stopransomware/"><span style="background-image: url(&quot;/img/banner01.jpg&quot;);"></span><p>ランサムウェア対策について</p></div><div title="参照すべき関係法令をQ&amp;A形式で解説" data-href="https://security-portal.nisc.go.jp/guidance/law_handbook.html"><span style="background-image: url(&quot;/img/banner02.jpg&quot;);"></span><p>参照すべき関係法令をQ&amp;A形式で解説</p></div><div title="セキュリティが分からなければこの1冊" data-href="https://security-portal.nisc.go.jp/guidance/handbook.html"><span style="background-image: url(&quot;/img/banner03.jpg&quot;);"></span><p>セキュリティが分からなければこの1冊</p></div><div title="IPA情報セキュリティ・ポータルサイト" data-href="https://www.ipa.go.jp/security/kokokara/"><span style="background-image: url(&quot;/img/banner04.jpg&quot;);"></span><p>IPA情報セキュリティ・ポータルサイト</p></div><div title="みんなで使おう サイバーセキュリティ・ポータルサイト" data-href="https://security-portal.nisc.go.jp/"><span style="background-image: url(&quot;/img/banner05.png&quot;);"></span><p>みんなで使おう サイバーセキュリティ・ポータルサイト</p></div><div title="情報セキュリティ教育用教材" data-href="/policy/group/general/kyozai-booklet.html"><span style="background-image: url(&quot;/img/banner06.jpg&quot;);"></span><p>情報セキュリティ教育用教材</p></div></div>

はい取れました!じゃぁシェル芸してリンクだけ抜き出します。

$ ./EdgeHeadless.sh https://www.nisc.go.jp|tr '<>' \\n\\n |grep 情報セキュリティ教育用教材|head -1|awk -F= '{print $3}'
"/policy/group/general/kyozai-booklet.html"

はいリンク取れましたスッキリした～

コメント¶

ちょっと修正してもいいかも

Google Chromeのヘッドレスモードが新しく。別になっていた実装を統合し、ヘッドフルと完全互換に
https://www.publickey1.jp/blog/23/google_chrome.html

« 前
1
2
3
…
16
次 »

(1-10/157)

他の形式にエクスポート: Atom

プロジェクト

全般

プロフィール

A painter and a black cat

ニュースを追加