Điểm:1

spamassasin không thể đọc tiếng Nhật khi nó được mã hóa html

lá cờ ug

Tôi muốn chặn một số email có chứa một số từ tiếng Nhật nhất định, nhưng spamassassin không phát hiện được những từ đó khi email được mã hóa HTML, ví dụ:

Đây là một thông báo gồm nhiều phần ở định dạng MIME.
-------------- 050206070005060005050706
Loại nội dung: văn bản/đồng bằng; bộ ký tự=ISO-2022-JP; định dạng = chảy
Content-Transfer-Encoding: trích dẫn-có thể in

こんにちは!残念な&=
#12364;ら凶報がございま&#=
12377;。数ヶ月前、あな...

-------------- 050206070005060005050706
Loại nội dung: văn bản/html; bộ ký tự = "ISO-2022-JP"
Content-Transfer-Encoding: trích dẫn-có thể in

<html>
  <đầu>

    <meta http-equiv=3D"content-type" content=3D"text/html; =
bộ ký tự=3DISO-2022-JP">
  </head>
  <body bgcolor=3D"#FFFFFF" text=3D"#000000">
    こんにちは!</br>
</br>
残念ながら凶報がご&=
#12374;います。</br>
...
  </body>
</html>
--------------050206070005060005050706--

Quy tắc ví dụ trong spamassassin:

nội dung JAP_BAD_1 /æ®å¿µãªããå¶å ±ããããã¾ã/
điểm JAP_BAD_1 5,0

Tuy nhiên, khi tôi chạy thử nghiệm:

spamassassin -D textcat -t spam.test

Nó không hiển thị trận đấu. Tôi phải làm gì đây?

anx avatar
lá cờ fr
anx
Có lý do nào để không đơn giản từ chối *tất cả* thư có thực thể html số trong các phần được cho là loại `text/plain` không?
lepe avatar
lá cờ ug
@anx Tôi không chắc liệu làm như vậy có thể từ chối các tin nhắn xác thực hay không.
lá cờ gb
Tôi thực sự không phải là chuyên gia về [ISO-2022-JP](https://en.wikipedia.org/wiki/ISO/IEC_2022#ISO-2022-JP), nhưng tôi hiểu rằng mã hóa này sử dụng mã thoát trong khi mẫu của bạn thay vào đó sử dụng mã ký tự có giá trị cao thông qua các thực thể HTML.Nếu đây là Unicode, đây sẽ là các ký hiệu [Cuneiform](https://en.wikipedia.org/wiki/Cuneiform_(Unicode_block)) (bắt đầu bằng `` giả sử phông chữ của bạn có thể hiển thị ký hiệu đó), mặc dù `!` không được xác định bởi Lỗi Unicode.
lepe avatar
lá cờ ug
@AdamKatz Ví dụ: nếu bạn giải mã các thực thể HTML bằng [công cụ] này(https://mothereff.in/html-entities), bạn sẽ thấy rằng `こんにちは!` thực ra là `ããã «ã¡ã¯ï¼`.
lá cờ gb
Hah, tôi đã suy nghĩ trong hệ thập lục phân. Tuy nhiên, đó không phải là cách sử dụng ISO-2022-JP thông thường theo hiểu biết của tôi, vì ISO-2022-JP sẽ chứa đầy các ký tự thoát.
lepe avatar
lá cờ ug
@AdamKatz có lẽ bạn đúng. Tôi không quen với ISO-2022-JP.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.